(Noticias de NanwerkCuando los humanos miran una escena, ven cosas y las relaciones entre ellas. Sobre su escritorio, puede haber una computadora portátil ubicada a la izquierda del teléfono, que está frente a la pantalla de la computadora.
Muchos modelos de aprendizaje profundo luchan por ver el mundo de esta manera porque no comprenden las interrelaciones entre cosas individuales. Sin conocer estas relaciones, un robot diseñado para ayudar a alguien en la cocina tendría problemas para seguir un comando como «levante la cuchara a la izquierda de la estufa y colóquela encima de la tabla de cortar».
En un esfuerzo por resolver este problema, los investigadores del MIT han desarrollado un modelo que comprende las relaciones básicas entre los objetos en una escena. Su modelo representa las relaciones individuales una por una y luego combina estas representaciones para describir el paisaje general. Esto permite que el modelo genere imágenes más precisas a partir de descripciones de texto, incluso cuando la escena incluye varios objetos dispuestos en diferentes relaciones entre sí.
Este trabajo se puede aplicar en situaciones en las que los robots industriales deben realizar tareas complejas de procesamiento de varios pasos, como apilar artículos en un almacén o ensamblar máquinas. También lleva el campo un paso más cerca de habilitar máquinas que puedan aprender e interactuar con sus entornos tal como lo hacen los humanos.
«Cuando miro una mesa, no puedo decir que haya algo en XYZ. Nuestras mentes no funcionan así. En nuestra mente, cuando entendemos una escena, realmente la entendemos basándonos en las relaciones entre las cosas. Pensamos que al construir un sistema puede comprender las relaciones entre los objetos. Podemos usar este sistema para manipular y cambiar nuestros entornos de manera más efectiva ”, dice Yilon Do, estudiante de doctorado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y sus colegas – líder autor del artículoAprenda a formar relaciones visuales).
Du escribió el artículo con los coautores principales Shuang Li, estudiante de doctorado en CSAIL, y Nan Liu, estudiante de posgrado en la Universidad de Illinois en Urbana-Champaign; Además de Joshua B. Tenenbaum, profesor de Ciencias Cognitivas Computacionales en el Departamento de Ciencias Cognitivas y Cerebrales y miembro de CSAIL; y el autor principal Antonio Torralba, profesor de Delta Electronics de Ingeniería Eléctrica e Informática y miembro de CSAIL. La investigación se presentará en la conferencia Neural Information Processing Systems en diciembre.
Una relación a la vez
El marco desarrollado por los investigadores puede crear una imagen de una escena basada en una descripción textual de los objetos y sus relaciones, como «una mesa de madera a la izquierda de una silla azul. Un sofá rojo a la derecha de una silla azul».
Su sistema dividirá estas oraciones en dos partes más pequeñas para describir cada relación individual (“mesa de madera a la izquierda de una silla azul” y “sofá rojo a la derecha de una silla azul”), luego modelará cada parte por separado. Luego, estas piezas se combinan a través de un proceso de optimización que crea una imagen de la escena.
Los investigadores utilizaron una técnica de aprendizaje automático llamada modelos basados en energía para representar las relaciones de objetos individuales en la descripción de una escena. Esta técnica les permite usar un único modelo basado en energía para codificar cada descripción relacional y luego componerlos juntos de una manera que infiera todos los objetos y relaciones.
Al dividir las oraciones en partes más cortas para cada relación, el sistema puede recombinarlas de varias formas, por lo que es más capaz de adaptarse a las descripciones de una escena que no ha visto antes, explica Lee.
«Otros sistemas toman todas las relaciones de manera integral y la imagen genera una sola instantánea de la descripción. Sin embargo, tales métodos fallan cuando tenemos descripciones fuera de la distribución, como descripciones con más relaciones, ya que este modelo no puede realmente adaptar una sola instantánea para generar imágenes que contienen Más relaciones. Sin embargo, debido a que compusimos estos micro-modelos separados juntos, podemos modelar más relaciones y adaptarnos a nuevas combinaciones «, dice Doe.
El sistema también funciona en la dirección opuesta: al mirar la imagen, puede encontrar descripciones de texto que corresponden a las relaciones entre los objetos en la escena. Además, su modelo se puede utilizar para editar una imagen reorganizando los objetos en la escena para que coincidan con una nueva descripción.
Comprender escenas complejas
Los investigadores compararon su modelo con otros métodos de aprendizaje profundo a los que se les dio descripciones textuales y se les asignó la tarea de generar imágenes que mostraran los objetos correspondientes y sus relaciones. En cada caso, su modelo superó las líneas de base.
También pidieron a los humanos que calificaran si las imágenes generadas coincidían con la descripción de la escena original. En los ejemplos más complejos, donde las descripciones contenían tres relaciones, el 91 por ciento de los encuestados concluyó que el nuevo modelo funcionaba mejor.
«Una de las cosas interesantes que encontramos es que para nuestro modelo, podemos aumentar nuestra oración de describir una relación a dos, tres o incluso cuatro descripciones, y nuestro enfoque continúa generando imágenes que se describen correctamente por esas descripciones, mientras que otras los métodos fallan «, dice Doe.
Los investigadores también mostraron imágenes típicas de escenas nunca antes vistas, así como muchas descripciones textuales diferentes de cada imagen, y pudieron identificar la que mejor se adapta a las relaciones del objeto en la imagen.
Y cuando los investigadores le dieron al sistema dos descripciones de escenas relacionales que describen la misma imagen pero de diferentes maneras, el modelo pudo entender que las descripciones eran equivalentes.
Los investigadores quedaron impresionados por el poder de su modelo, especialmente cuando trabajaban con descripciones nunca antes vistas.
«Esto es muy prometedor porque está más cerca de cómo funcionan los humanos. Es posible que los humanos solo vean varios ejemplos, pero podemos extraer información útil de esos pocos ejemplos y combinarlos para crear conjuntos infinitos. Y nuestro modelo tiene una propiedad tal que permite para aprender de menos datos, pero generalizando a escenas o generaciones de imágenes más complejas ”, dice Lee.
Si bien estos primeros resultados son alentadores, a los investigadores les gustaría ver cómo funciona su modelo en imágenes más complejas del mundo real, con fondos y objetos ruidosos que se oscurecen entre sí.
También están interesados en integrar su modelo en sistemas robóticos, lo que permite al robot inferir relaciones de objetos a partir de videos y luego aplicar ese conocimiento para manipular los objetos en el mundo.
El desarrollo de representaciones visuales que puedan lidiar con la naturaleza sintética del mundo que nos rodea es uno de los principales problemas abiertos en la visión por computadora. Esta investigación avanza este problema al proponer un modelo basado en energía que modela explícitamente múltiples relaciones entre los objetos representados en la imagen. Los resultados son realmente impresionantes, dice Josef Civic, un distinguido investigador del Instituto Checo de Informática, Robótica y Cibernética de la Universidad Técnica Checa, que no participó en esta investigación.
«Solucionador de problemas. Gurú de los zombis. Entusiasta de Internet. Defensor de los viajes sin disculpas. Organizador. Lector. Aficionado al alcohol».