Los modelos de reducción de ruido probabilístico de difusión (DDPM) con pautas sin clasificadores como DALL E 2, GLIDE e Imagen han logrado resultados de vanguardia en la creación de imágenes de alta resolución. La desventaja de tales modelos es que su proceso de inferencia requiere que tanto el modelo de clase condicional como el modelo incondicional se evalúen cientos de veces, lo que los hace exorbitantemente costosos para muchas aplicaciones del mundo real.
en el nuevo papel Acerca de la destilación de modelos de difusión dirigidaInvestigadores de Google Brain y la Universidad de Stanford han propuesto un nuevo enfoque para destilar modelos de difusión dirigida sin clasificador con alta eficiencia de muestreo. Los modelos resultantes logran un rendimiento similar al modelo original pero con pasos de muestreo reducidos hasta 256 veces.
El enfoque de destilación del investigador consta de dos pasos: dado el modelo de maestro capacitado, el modelo de estudiante individual primero coincide con la salida combinada de los modelos de difusión de los dos maestros, y luego este modelo educado por el estudiante se destila progresivamente en un modelo sin pasos. El modelo de destilación simple resultante puede manejar una amplia gama de diferentes fortalezas de enrutamiento y permitir compensaciones efectivas entre la calidad y la diversidad de la muestra.
El método de muestreo propuesto utiliza un muestreo determinista y un nuevo proceso de muestreo aleatorio. Primero se aplica un paso de muestreo determinista del doble de la longitud del paso original, luego se realiza un solo paso aleatorio hacia atrás (es decir, perturbación con ruido) utilizando la longitud del paso original. Este enfoque está inspirado en Karras et al. papelExplicación del espacio para el diseño de modelos generativos basados en la difusiónFue publicado a principios de este año.
En su estudio experimental, el equipo aplicó su método a los DDPM de enrutamiento sin clasificador y realizó experimentos de generación de imágenes en los conjuntos de datos ImageNet 64×64 y CIFAR-10. Los resultados muestran que el enfoque propuesto puede lograr muestras «visualmente decentes» utilizando tan solo un paso y obtener puntajes FID/IS (distancia/inicio de Frechet) similares a los de los modelos base originales, mientras que es hasta 256 veces más rápido en la muestra. . De.
En general, este trabajo demuestra la efectividad del enfoque propuesto para abordar los altos costos computacionales que han limitado el despliegue de modelos de probabilidad de reducción de ruido.
el papel Acerca de la destilación de modelos de difusión dirigida correr arXiv.
autor: Hécate es | editor: Michael Sarrazín
Sabemos que no quiere perderse ninguna noticia o descubrimiento de investigación. Suscríbete a nuestro popular boletín Sincronización semanal global de IA Para actualizaciones semanales de IA.
«Adicto a la música. Gurú del café. Especialista en zombis. Defensor de las redes sociales. Introvertido. Aficionado extremo a la comida. Evangelista del alcohol».