Los grandes modelos lingüísticos no pueden planificar, incluso si escriben excelentes artículos.

Este artículo es parte de nuestra cobertura de lo último en investigacion inteligencia artificial.

Los grandes paradigmas de lenguaje como GPT-3 han avanzado hasta tal punto que se ha vuelto difícil medir los límites de sus capacidades. Cuando tienes una red neuronal muy grande, puede Generar ArtículosEscribe Código de programaparticipar en conversaciones sobre Sensación y vidaDebería esperar poder pensar en tareas y planificar como lo haría un humano, ¿verdad?

mal – mal – agraviado a estudiar Por investigadores de la Universidad Estatal de Arizona, Tempe, demuestra que cuando se trata de planificar y razonar sistemáticamente, LLM se desempeña muy mal y sufre muchas de las mismas fallas observadas en los sistemas actuales de aprendizaje profundo.

Saludos gente

Suscríbase a nuestro boletín ahora para recibir un resumen semanal de nuestras historias favoritas de IA directamente en su bandeja de entrada.

Curiosamente, el estudio encontró que si bien el LLM es bastante grande, le gusta GPT-3 Y PaLM ha superado muchas pruebas destinadas a evaluar las capacidades de pensamiento de los sistemas de IA, lo hacen porque estos criterios son demasiado simplistas o demasiado defectuosos y pueden ser «engañados» por trucos estadísticos, algo en lo que los sistemas de aprendizaje profundo consideran muy buenos. .

Con los LLM abriendo nuevos caminos todos los días, los autores proponen un nuevo estándar para probar las capacidades de planificación e inferencia de los sistemas de IA. Los investigadores esperan que sus hallazgos ayuden a guiar la investigación de IA hacia el desarrollo de sistemas de IA que puedan manejar lo que se conoce ampliamente comoSistema de pensamiento 2» Tareas.

Están planeando y pensando.

«El año pasado, estábamos evaluando la capacidad de GPT-3 para extraer esquemas de descripciones de texto, una tarea que se había probado anteriormente con métodos de propósito especial, y descubrimos que el GPT-3 listo para usar funcionó muy bien en comparación a métodos especiales», dijo a TechTalks Subbarao Kambhampati, profesor de la Universidad Estatal de Arizona y coautor del estudio. «Naturalmente, esto nos hizo preguntarnos cuáles son las ‘capacidades emergentes’ de GPT3, si las hay, para resolver los problemas de planificación más simples (por ejemplo, crear esquemas en dominios de juegos). Inmediatamente descubrimos que GPT3 es muy pobre en pruebas anecdóticas».

Sin embargo, un hecho interesante es que GPT-3 y otros modelos de lenguaje extenso funcionan muy bien en los criterios diseñados para el razonamiento lógico, el razonamiento lógico y el razonamiento moral, habilidades que antes se pensaba que estaban prohibidas para los sistemas de aprendizaje profundo. a Estudio previo por el Grupo Kambhampati en la Universidad Estatal de Arizona que muestra la efectividad de los grandes modelos lingüísticos en la creación de esquemas a partir de descripciones de texto. Otros estudios recientes incluyen uno que demuestra que los LLM pueden hacer precisamente eso. pensando desde cero Si se suministra con una frase de ejecución especial.

Sin embargo, Campampati cree que la «lógica» a menudo se usa ampliamente en estos estándares y estudios. Lo que hace el LLM, de hecho, es crear la manifestación de la planificación y la inferencia a través del reconocimiento de patrones.

“La mayoría de los criterios se basan en un tipo de pensamiento superficial (de uno o dos pasos), así como en tareas para las que a veces no existe una realidad subyacente real (p. ej., persuadir a un LLM para que piense en dilemas morales)”, dijo, “que Es posible que un motor de finalización de patrones puramente sin capacidades lógicas aún pueda funcionar bien en algunos de estos criterios. Las ‘habilidades de pensamiento’ pueden ser solo respuestas reflejas de patrones que el sistema vio en sus datos de entrenamiento, sin hacer nada parecido al razonamiento lógico…”

Pensamiento del sistema 1 y del sistema 2

Sistema 1 y Sistema 2 El pensamiento fue popularizado por el psicólogo Daniel Kahneman en su libro Thinking Fast and Slow. El primero es el tipo de pensamiento y acción rápidos, reflexivos y automatizados que hacemos la mayor parte del tiempo, como caminar, cepillarnos los dientes, atarnos los zapatos o conducir en un territorio familiar. Incluso una gran parte del discurso es realizado por el Sistema 1.

El Sistema 2, por otro lado, es el modo de pensamiento más lento que usamos para tareas que requieren planificación y análisis sistemáticos. Usamos el Sistema 2 para resolver cálculos, jugar al ajedrez, diseñar software, planificar un viaje, resolver un rompecabezas, etc.

Pero la línea entre el Sistema 1 y el Sistema 2 no es tan clara. Tome la conducción, por ejemplo. Cuando aprenda a conducir, debe concentrarse completamente en cómo coordinar sus músculos para controlar las marchas, el volante y los pedales mientras vigila la carretera, los espejos laterales y los retrovisores. Obviamente este sistema 2 funciona. Requiere mucha energía, requiere toda su atención y es lento. Pero a medida que repites gradualmente las acciones, aprendes a hacerlas sin pensar. La tarea de conducir se transmite a tu System 1, permitiéndote hacerlo sin agotar tu mente. Uno de los criterios de tarea que se integra en el Sistema 1 es la capacidad de hacerlo inconscientemente mientras se concentra en otra tarea (por ejemplo, puede atarse los zapatos y hablar al mismo tiempo, cepillarse los dientes, leer, conducir, hablar, etc. ).

Incluso muchas de las tareas muy complejas que permanecen en el ámbito del Sistema 2 finalmente se integran parcialmente en el Sistema 1. Por ejemplo, los jugadores de ajedrez profesionales confían mucho en el reconocimiento de patrones para acelerar su toma de decisiones. Puedes ver ejemplos similares en matemáticas y programación, donde después de hacer las cosas una y otra vez, automáticamente se te ocurren algunas tareas que antes requerían una cuidadosa reflexión.

Un fenómeno similar puede ocurrir en los sistemas de aprendizaje profundo que han estado expuestos a conjuntos de datos muy grandes. Es posible que hayan aprendido a hacer la fase simple de reconocimiento de patrones de tareas de pensamiento complejas.

“Crear el plan requiere una secuencia de pasos de pensamiento para llegar a un plan, y se puede establecer una verdad establecida sobre lo correcto”, dijo Campambatti.

Nuevo estándar para la planificación de pruebas en LLM

«de acuerdo a Entusiasmo por las propiedades ocultas/emergentes Sin embargo, de los LLM, pensamos que sería más constructivo desarrollar un estándar que proporcione una variedad de tareas de planificación/inferencia que puedan servir como un estándar donde las personas mejoren su LLM a través de ajustes finos y otros métodos de asignación/mejora de su desempeño a/en tareas de pensamiento. «Eso es lo que terminamos haciendo», dijo Kambhampati.

El equipo desarrolló su estándar basado en los dominios utilizados en la Competencia Internacional de Planificación (CIP). El marco consta de múltiples tareas que evalúan diferentes aspectos del pensamiento. Por ejemplo, algunas tareas evalúan la capacidad del LLM para crear planes válidos para lograr un objetivo en particular, mientras que otras prueban si el plan generado es óptimo. Otras pruebas incluyen pensar en los resultados de un plan, ver si diferentes descripciones de texto se refieren al mismo objetivo, reutilizar partes de un plan en otro, mezclar planes y más.

Para ejecutar las pruebas, utilice el equipo mundo de bloques, un marco de problemas que gira en torno a colocar un grupo de bloques diferentes en un orden específico. Todo problema tiene una condición inicial, un objetivo final y un conjunto de acciones permisibles.

“El estándar en sí es escalable y está destinado a tomar pruebas de muchas áreas del IPC”, dijo Campambatti. «Usamos ejemplos del mundo de Blocks para ilustrar las diferentes tareas. Cada una de estas tareas (por ejemplo, crear el plan, mezclar objetivos, etc.) también se puede incluir en otras áreas de IPC».

La escala de desempeño de Kambhampati y colegas ha desarrollado usos un poco de aprendizajedonde el vector dado al modelo de aprendizaje automático incluye un ejemplo resuelto así como el problema principal a resolver.

A diferencia de otros estándares, las descripciones de los problemas de este nuevo estándar son muy largas y detalladas. Resolverlos requiere enfoque y planificación sistemática y no pueden ser engañados por el reconocimiento de patrones. Incluso un ser humano que quiera resolverlo debe pensar detenidamente en cada problema, tomar notas, tal vez hacer visualizaciones y planificar la solución paso a paso.

«Pensar es la tarea del Sistema 2 en general. El engaño colectivo de la sociedad era observar esos tipos de criterios de inferencia que probablemente se abordarían mediante la agregación al Sistema 1 (por ejemplo, ‘Responder a este dilema moral, completando el modelo, sería esto») en lugar de pensar realmente. Dijo Kamhampati».

Los modelos de lenguaje grande son malos para la planificación

Los investigadores probaron su marco en Davinci, la versión más grande de GPT-3. Sus experimentos muestran que GPT-3 tiene un rendimiento promedio en algunos tipos de tareas de planificación, pero un rendimiento muy bajo en áreas como la reutilización de planes, la generalización de planes, la planificación óptima y la replanificación.

“Los estudios preliminares que hemos visto básicamente muestran que el LLM es particularmente malo en todo lo que podría considerarse tareas de planificación, incluida la creación de planes, la creación óptima de planes, la reutilización o la replanificación de planes”, dijo Kamphpati. «Hacen un mejor trabajo en las tareas relacionadas con la planificación que no requieren cadenas de pensamiento, como cambiar los objetivos».

En el futuro, los investigadores agregarán casos de prueba basados ​​en otros dominios de IPC y proporcionarán líneas de base para el desempeño con personas con los mismos criterios.

«También tenemos curiosidad por ver si otras variantes del LLM funcionan mejor en estos parámetros», dijo Kampbhati.

Kampbhati enfatiza que el objetivo del proyecto es establecer el estándar y dar una idea de dónde está la línea de base actual. Los investigadores esperan que su trabajo abra nuevas ventanas para desarrollar la capacidad de planificar y razonar los sistemas de IA existentes. Por ejemplo, una dirección que sugieren es evaluar la efectividad del ajuste fino de LLM para el razonamiento y la planificación en áreas específicas. Kampbhati dijo que el equipo ya tiene hallazgos preliminares sobre la variante de seguimiento de instrucciones de GPT-3 que parece funcionar marginalmente mejor en tareas fáciles, aunque también se mantiene alrededor del nivel del 5 por ciento para tareas de creación de planes reales.

Kamphpati también cree que aprender y adquirir modelos globales será un paso esencial para cualquier sistema de IA que pueda pensar y planificar. Otros estudiosos, incluidos El pionero del aprendizaje profundo Yann LeCunHicieron sugerencias similares.

“Si estamos de acuerdo en que pensar es parte de la inteligencia, y queremos afirmar que el LLM lo hace, entonces definitivamente necesitamos criterios para poner un plan allí”, dijo Kampbhati. «En lugar de adoptar una actitud mágicamente negativa, introducimos un criterio para que las personas que creen que el pensamiento puede surgir del LLM incluso sin ningún mecanismo especial, como modelos globales y pensamiento dinámico, puedan usar el criterio para respaldar su punto de vista».

Este artículo fue publicado originalmente por Ben Dixon el Charlas tecnológicas, una publicación que examina las tendencias en tecnología, cómo afectan la forma en que vivimos y hacemos negocios, y los problemas que resuelven. Pero también discutimos el lado malvado de la tecnología, los efectos oscuros de la nueva tecnología y lo que debemos buscar. Puedes leer el artículo original aqui.

READ  Rocket Lab despega en su último lanzamiento

Deja una respuesta

Tu dirección de correo electrónico no será publicada.