¿Necesito una GPU para difusión estable?? Guía de PC, Difusión estable Benchmarked: ¿Qué GPU ejecuta AI AI más rápida (actualizada) | Hardware de Tom S
Contents
. Los núcleos de tensor 2080 TI no admiten la escasez y tienen hasta 108 tflops de FP16 Compute. El RTX 3070 TI admite escasez con 174 Tflops de FP16, o 87 Tflops FP16 sin dispersión. . .
?
? Has venido al lugar correcto.
. Sus resultados son impresionantes, por lo que tiene millones de usuarios en este momento. . Hablando de eso, hablaremos sobre si la difusión estable puede funcionar sin una GPU, o si aún necesita una tarjeta gráfica para funcionar correctamente.
. Son esenciales para crear arte generado por IA en un nivel más comercial o profesional.
. Más de 100,000 clientes que crean contenido real con Jasper. .
Experimente la potencia total de un generador de contenido de IA que ofrece resultados premium en segundos. 8 millones de usuarios disfrutan escribiendo blogs 10 veces más rápido, creando sin esfuerzo las publicaciones de redes sociales de mayor conversión o escribiendo correos electrónicos más atractivos. Regístrese para una prueba gratuita. Leer más
Solo $ 0.!
. .
.01 por 100 palabras
Detector de IA de originalidad
..En un conjunto de datos de prueba de 1200 muestras de datos, logró una precisión del 96%, mientras que su competidor más cercano logró solo un 35%. . .
. . Cuando compra a través de enlaces en nuestro sitio, podemos obtener una comisión de afiliación. Aprende más
Entonces, ¿necesita una tarjeta gráfica de la difusión estable para que funcione? ? Vamos a averiguar.
¿Se requiere una GPU para la difusión estable??
. Para un mínimo, mire los modelos de 8-10 GB Nvidia. Además, asegúrese de tener 16 GB de RAM PC en el sistema de PC para evitar cualquier inestabilidad.
La GPU ejecutará difusión estable sin encontrar problemas como una velocidad de respuesta más lenta. Decir que la difusión estable se ejecuta exclusivamente en una tarjeta gráfica no estaría mal. En cuanto a qué GPU usar, sugerimos los modelos NVIDIA RTX 4080 y 4090 con VRAM de 16 o 24 GB para obtener mejores resultados. .
¿Es posible ejecutar difusión estable en una GPU AMD??
Sí, también puede ejecutar una difusión estable en las GPU AMD, aparte de los modelos de la serie Nvidia. Sin embargo, para usar AMD, asegúrese de tener un modelo por encima del RX470. Además, para obtener los mejores resultados, asegúrese de tener otros 8 GB o más para evitar cualquier inconveniente.
Preguntas frecuentes
¿Puede el funcionamiento de la difusión estable en los procesadores de Apple Mac??
Sí, la difusión estable admite los libros de Apple Mac. Sin embargo, solo admite los últimos modelos M1 y M1 basados en silicio. . .
Conclusión
Tener una GPU es un requisito obligatorio en el mundo tecnológico actual. . . Aunque hay algunas maneras de ejecutarlo sin una GPU, no son tan confiables como pueden parecer. Por lo tanto, asegúrese de tener una buena tarjeta gráfica antes de ejecutar difusión estable para los mejores resultados.
. Mejoran los juegos y las experiencias creativas diez veces. Si necesita ideas sobre a cuál ir, consulte nuestro resumen de las mejores tarjetas gráficas aquí.
. La mayoría de estas herramientas dependen de servidores complejos con mucho hardware para el entrenamiento, pero el uso de la red entrenada a través de la inferencia se puede hacer en su PC, utilizando su tarjeta gráfica. ?
. ! . . Pero eso no significa que no puedas obtener una difusión estable ejecutando en las otras GPU.
. . .Versión de tiburones de AI: verificamos el rendimiento en las GPU de NVIDIA (en los modos Vulkan y Cuda) y descubrimos que era. carente. Obtener las GPU de ARC de Intel fue un poco más difícil, debido a la falta de apoyo, pero la difusión estable Openvino nos dio algunos muy .
. . Estamos relativamente seguros de que las pruebas de la serie NVIDIA 30 hacen un buen trabajo al extraer cerca del rendimiento óptimo, particularmente cuando Xformers está habilitado, lo que proporciona un aumento adicional de ~ 20% en el rendimiento (aunque a una precisión reducida que puede afectar la calidad). .
. .Ai nos hace saber que todavía están trabajando en modelos ‘sintonizados’ para RDNA 2, lo que debería aumentar el rendimiento bastante (potencialmente doble) una vez que estén disponibles. .
También estamos utilizando diferentes modelos de difusión estable, debido a la elección de proyectos de software. .La versión de Shark de AI usa SD2.1, mientras que automático 1111 y OpenVino usan SD1..1 en automático 1111). Una vez más, si tiene algún conocimiento interno de difusión estable y desea recomendar diferentes proyectos de código abierto que pueden funcionar mejor de lo que usamos, háganos saber en los comentarios (o simplemente envíe un correo electrónico a Jarred).
Nuestros parámetros de prueba son los mismos para todas las GPU, aunque no hay opción para una opción de solicitud negativa en la versión Intel (al menos, no que pudiéramos encontrar). La galería anterior se generó utilizando las GPU WebUI de Automatic 1111 en NVIDIA, con salidas de mayor resolución (que toman mucho, . . .
Aviso negativo:
Pasos:
.0
Alguna variante Euler (Ancestral en Automatic 1111, Shark Euler Discrete en AMD)
El algoritmo de muestreo no parece afectar principalmente el rendimiento, aunque puede afectar la salida. Automatic 1111 proporciona la mayor cantidad de opciones, mientras que la compilación Intel Openvino no le da otra opción.
Estos son los resultados de nuestras pruebas de la serie AMD RX 7000/6000, la serie NVIDIA RTX 40/30 y GPU de la serie A Intel ARC A. Tenga en cuenta que cada GPU de NVIDIA tiene dos resultados, uno que usa el modelo computacional predeterminado (más lento y en negro) y un segundo que usa la biblioteca “Xformers” más rápida de Facebook (más rápido y en verde).
. . .
Las cosas se caen de una manera bastante consistente desde las tarjetas superiores para las GPU de Nvidia, desde el 3090 hasta el 3050. Mientras tanto, el RX 7900 XTX de AMD vincula el RTX 3090 Ti (después de la reestructuración adicional), mientras que el RX 7900 XT vincula el RTX 3080 Ti. . . .
Las optimizaciones adecuadas podrían duplicar el rendimiento en las tarjetas de la serie RX 6000. .AI dice que debería haber ajustado modelos para RDNA 2 en los próximos días, momento en el que la posición general debería comenzar a correlacionarse mejor con el rendimiento teórico. Hablando de asentimiento.AI, también hicimos algunas pruebas de algunas GPU de NVIDIA usando ese proyecto, y con los modelos Vulkan, las tarjetas NVIDIA fueron sustancialmente más lentas que con la construcción automática del 1111 (15….76 en el 3090: no pudimos probar las otras tarjetas, ya que primero necesitan ser habilitadas).
. En el papel, el 4090 tiene más de cinco veces el rendimiento del RX 7900 XTX – y 2.7 veces el rendimiento incluso si descartamos la escasez. En la práctica, el 4090 en este momento es solo alrededor del 50% más rápido que el XTX con las versiones que utilizamos (y eso cae a solo el 13% si omitimos el resultado de Xformers de menor precisión). .
Las GPU de ARC de Intel actualmente ofrecen resultados muy decepcionantes, especialmente porque admiten operaciones FP16 XMX (Matrix) que deberían entregar hasta 4x el rendimiento como cálculos regulares de FP32. Sospechamos que el proyecto actual de difusión estable Openvino que utilizamos también deja mucho espacio para mejorar. Por cierto, si desea intentar ejecutar SD en una GPU ARC, tenga en cuenta que debe editar el ‘stable_diffusion_engine.PY ‘FILE Y CAMBIAR “CPU” a “GPU”; de lo contrario, no usará las tarjetas gráficas para los cálculos y lleva sustancialmente más tiempo.
. . .
También realizamos algunas pruebas en GPU Legacy, específicamente la arquitectura Turing de Nvidia (Serie RTX 20 y GTX 16) y la serie RX 5000 de AMD. . Pero los resultados aquí son bastante interesantes.
Primero, el RTX 2080 Ti termina superando el RTX 3070 TI. . Más importante aún, estos números sugieren que las optimizaciones de “escasez” de Nvidia en la arquitectura de amperios no se están utilizando en absoluto, o tal vez simplemente no son aplicables.
Llegaremos a otros números de rendimiento computacional teórico en un momento, pero nuevamente considere el RTX 2080 TI y RTX 3070 TI como ejemplo. Los núcleos de tensor 2080 TI no admiten la escasez y tienen hasta 108 tflops de FP16 Compute. . . La misma lógica se aplica a otras comparaciones como 2060 y 3050, o 2070 Super y 3060 Ti.
En cuanto a las tarjetas RDNA de AMD, el RX 5700 XT y 5700, hay una amplia brecha en el rendimiento. . En el papel, la tarjeta XT debe ser hasta un 22% más rápido. En nuestras pruebas, sin embargo, es un 37% más rápido. De cualquier manera, ninguna de las GPU de las NAVI 10 mayores es particularmente desempeñada en nuestros puntos de referencia de difusión estables iniciales.
Finalmente, el GTX 1660 Super on Paper debe ser aproximadamente 1/5 del rendimiento teórico del RTX 2060, utilizando núcleos de tensor en este último. Si usamos el rendimiento del sombreador con FP16 (Turing tiene el doble de rendimiento en el código de sombreador FP16), la brecha se reduce a solo un déficit del 22%. Pero en nuestras pruebas, el GTX 1660 Super es solo 1/10 la velocidad del RTX 2060.
Una vez más, no está claro exactamente cuán optimizados están cualquiera de estos proyectos. Tampoco está claro si estos proyectos están aprovechando por completo cosas como los núcleos de tensor de Nvidia o los núcleos XMX de Intel. Como tal, pensamos que sería interesante observar el rendimiento teórico máximo (TFLOPS) de las diversas GPU. El siguiente cuadro muestra el rendimiento teórico de FP16 para cada GPU (solo mira las tarjetas gráficas más recientes), utilizando núcleos de tensor/matriz donde corresponda. .
. Por ejemplo, en el papel, el RTX 4090 (usando FP16) es hasta un 106% más rápido que el RTX 3090 Ti, mientras que en nuestras pruebas fue un 43% más rápido sin Xformers, y un 50% más rápido con Xformers X. Tenga en cuenta también que asumimos que el proyecto de difusión estable que utilizamos (automático 1111) no aprovecha las nuevas instrucciones FP8 en las GPU ADA Lovelace, que podría duplicar el rendimiento en la serie RTX 40 nuevamente.
Mientras tanto, mira las GPU del arco. Sus núcleos de matriz deben proporcionar un rendimiento similar al RTX 3060 TI y RX 7900 XTX, Prestar o Take, con el A380 hacia abajo alrededor del RX 6800. En la práctica, las GPU de ARC no están cerca de esas marcas. La tierra GPU A770 más rápida entre el RX 6600 y RX 6600 XT, el A750 se encuentra justo detrás del RX 6600, y el A380 es aproximadamente un cuarto de la velocidad del A750. .
. . Lo más probable es que las GPU de ARC están utilizando sombreadores para los cálculos, en modo FP32 de precisión total, y perdiendo algunas optimizaciones adicionales.
La otra cosa a notar es que el cálculo teórico en el RX 7900 XTX/XT de AMD mejoró mucho en comparación con la serie RX 6000. .Ai dijo que espera una mejora de 2x en el rendimiento en RDNA 2. El ancho de banda de memoria no fue un factor crítico, al menos para la resolución objetivo 512×512 que utilizamos: los modelos 3080 10GB y 12 GB aterrizan relativamente juntos.
Aquí hay una mirada diferente al rendimiento teórico de FP16, esta vez centrándose solo en lo que las GPUS pueden hacer a través de los cálculos de los sombreadores. . Las GPU de AMD e Intel en contraste tienen un doble rendimiento en los cálculos del sombreador FP16 en comparación con FP32.
. algo extra. Que nos lleva a un último cuadro.
. . Pero consulte los resultados de la serie RTX 40, con los DLL de antorcha reemplazados.
. El 4080 también supera el 3090 Ti en un 55%/18% con/sin Xformers. .
.
. Estamos viendo actualizaciones frecuentes de proyectos, soporte para diferentes bibliotecas de capacitación y más. Veremos sobre revisar más este tema en el próximo año, con suerte con un mejor código optimizado para todas las GPU.
Permanezca a la vanguardia
Únase a los expertos que leen la pista de hardware de Tom para la pista interior en entusiastas de las noticias de PC Tech, y tienen más de 25 años. .
.
. . Desde el primer S3 Virge ‘3D DeCeleratorators’ hasta las GPU de hoy, Jarred se mantiene al día con las últimas tendencias gráficas y es el que debe preguntar sobre el rendimiento del juego.