OpenAI ha presentado su modelo de texto a imagen de próxima generación, DALL-E 3. Inicialmente solo estará disponible para clientes con una suscripción ChatGPT Pro y Enterprise, y se podrá acceder a él a través de indicaciones en la interfaz del chatbot. Este lanzamiento se produce en un momento en que Amazon presentó una nueva versión de su asistente de voz Alexa, impulsada por inteligencia artificial.
La primera versión de DALL-E fue lanzada en enero de 2021 por OpenAI y se basa en una versión modificada del modelo de adaptador GPT-3 que impulsó la primera versión de ChatGPT. La segunda versión se lanzó ampliamente en septiembre del año pasado con resolución y claridad de imagen mejoradas. También reflejan con mayor precisión la indicación del texto.
DALL-E 3 es la primera versión que se integra en ChatGPT, en lugar de estar disponible como un servicio independiente o mediante una API. OpenAI dice que puede comprender más matices y detalles que las versiones anteriores y crear «imágenes excepcionalmente precisas».
«Cuando se le solicite una idea, ChatGPT generará automáticamente mensajes personalizados y detallados para DALL·E 3 que darán vida a su idea», dijo OpenAI. «Si te gusta una imagen en particular, pero no queda del todo bien, puedes pedirle a ChatGPT que haga ajustes con solo unas pocas palabras».
El último lanzamiento de DALL-E se produce cuando OpenAI enfrenta una competencia cada vez mayor de otras herramientas de creación de imágenes como Stable Diffusion de Stability, Firefly de Adobe y Midjourney. También hay nuevas herramientas como Ideogram, que se centra específicamente en mejorar la legibilidad del texto dentro de las imágenes, y Runway, para la creación de vídeos.
En un esfuerzo por combatir las crecientes preocupaciones sobre la infracción de derechos de autor, OpenAI también ha emitido instrucciones especiales para que esta versión del modelo no cree ninguna obra al estilo de un artista vivo. Los creadores podrán optar por no utilizar su trabajo para entrenar modelos futuros. «Mejoramos el desempeño de seguridad en áreas de riesgo como la generación de caracteres genéricos y sesgos dañinos relacionados con la representación excesiva o insuficiente visual», dijo OpenAI.
Los esfuerzos para mejorar la representación y eliminar contenido inspirado en artistas vivos se realizaron en asociación con un nuevo «equipo rojo»: expertos en el dominio que enfatizaron las pruebas de modelos y la creación de informes para guiar y evaluar los esfuerzos de mitigación de riesgos.
«Nos damos cuenta de que es posible que algunos propietarios de contenido no quieran utilizar su trabajo disponible públicamente para ayudar a enseñar nuestros modelos», explicó el laboratorio de IA en un formulario que permite a los artistas optar por no utilizar el trabajo en la futura formación de modelos. La solución más sencilla, según OpenAI, es no permitir su rastreador web GTBot, pero los artistas también pueden enviar imágenes específicas para su eliminación.
Contenido de nuestros socios
DALL-E 3 se encuentra actualmente en fase preliminar de investigación para dos laboratorios seleccionados, con un enfoque en la seguridad y la claridad, según OpenAI. La compañía dice que lanzará ChatGPT para usuarios Pro y Enterprise el próximo mes y estará disponible a través de API a finales de este año.
OpenAI no fue la única empresa que anunció un nuevo modelo. Amazon ha confirmado que está trabajando para poner más capacidad intelectual detrás de su popular asistente de voz, Alexa. Casi una década después del lanzamiento de Amazon, Alexa ahora contará con un modelo de lenguaje de gran tamaño.
La plantilla diseñada a medida está diseñada para brindarle a Alexa cualidades de conversación más humanas, incluido hacer que su estilo sea más informal y responder una gama más amplia de preguntas. Estará disponible como avance en EE.UU. «pronto» sin fecha para el resto del mundo.
Durante el anuncio, Amazon anunció su intención de superar a plataformas como ChatGPT integrando “información en tiempo real” en Alexa LLM. La información de ChatGPT solo es precisa hasta 2021, cuando el modelo base finaliza su entrenamiento. Para obtener información en tiempo real, se necesitan complementos adicionales.
«Para ser realmente útil, Alexa necesita poder tomar acciones en el mundo real, lo cual ha sido uno de los desafíos no resueltos con los LLM: cómo integrar API a escala e invocarlas de manera confiable para tomar las acciones correctas», dijo Amazon. un permiso. «El nuevo Alexa LLM estará conectado a cientos de miles de dispositivos y servicios del mundo real a través de API. También mejora la capacidad de Alexa para procesar matices y ambigüedades, como lo haría una persona, y tomar medidas de manera inteligente.
Leer más: Intel lanza computadoras con tecnología de inteligencia artificial, pero ¿ya es tarde para la fiesta?
«Adicto a la música. Gurú del café. Especialista en zombis. Defensor de las redes sociales. Introvertido. Aficionado extremo a la comida. Evangelista del alcohol».