Al combinar imágenes 2D con modelos básicos para construir campos de características 3D, un nuevo método del MIT ayuda a los robots a comprender y manipular objetos cercanos con instrucciones en lenguaje abierto.
Imagina que estás visitando a un amigo en el extranjero y miras dentro de su refrigerador para ver qué sería un excelente desayuno. Muchos de los artículos inicialmente le parecen extraños, cada uno de ellos envuelto en envases y contenedores desconocidos. A pesar de estas distinciones visuales, comienzas a comprender para qué sirve cada uno y a seleccionarlos según sea necesario.
Inspirándose en la capacidad humana para manejar objetos desconocidos, un grupo del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT diseñó Feature Fields for Robotic Manipulation (F3RM), un sistema que combina imágenes 2D con características básicas del modelo en escenas 3D para ayudar a los robots. Identificar y agarrar objetos cercanos. F3RM puede interpretar instrucciones en lenguaje abierto de humanos, lo que hace que el método sea útil en entornos del mundo real que contienen miles de objetos, como almacenes y hogares.
Adaptabilidad robótica y generalización de tareas.
F3RM brinda a los robots la capacidad de interpretar indicaciones de texto abiertas utilizando lenguaje natural, lo que ayuda a las máquinas a manipular objetos. Como resultado, las máquinas pueden comprender solicitudes menos específicas de los humanos y aun así completar la tarea deseada. Por ejemplo, si un usuario le pide al robot que «consiga una taza alta», el robot puede localizar y recoger el artículo que mejor se ajuste a esa descripción.
«Hacer robots que realmente puedan generalizarse al mundo real es increíblemente difícil», dice Ge Yang, becario postdoctoral en el Instituto de Inteligencia Artificial e Interacciones Fundamentales de la Fundación Nacional de Ciencias y MIT CSAIL. “Realmente queremos descubrir cómo hacerlo, así que con este proyecto estamos tratando de promover un nivel agresivo de generalización, desde sólo tres o cuatro objetos hasta cualquier cosa que encontremos en el Stata Center del MIT. Queríamos aprender cómo hacer que los robots sean tan flexibles como nosotros, capaces de agarrar y posicionar objetos incluso si nunca los hemos visto antes”.
Aprender “qué es hacia dónde mirar”
El método podría ayudar a los robots a seleccionar artículos en grandes centros de distribución con un desorden e imprevisibilidad inevitables. En estos almacenes, los robots suelen recibir una descripción del inventario que necesitan identificar. Los robots deben hacer coincidir el texto proporcionado con un objeto, independientemente de las variaciones en el embalaje, para que los pedidos de los clientes se envíen correctamente.
Por ejemplo, los centros logísticos de los principales minoristas en línea pueden contener millones de artículos, muchos de los cuales nunca antes habría encontrado un robot. Para operar a tal escala, los robots necesitan comprender la geometría y la semántica de diferentes elementos, algunos de ellos en espacios reducidos. Con la percepción espacial avanzada y las capacidades semánticas de F3RM, un robot podría volverse más eficaz a la hora de localizar un objeto, colocarlo en un contenedor y luego enviarlo a empaquetar. En última instancia, esto ayudaría a los trabajadores de las fábricas a enviar los pedidos de los clientes de manera más eficiente.
«Una cosa que a menudo sorprende a la gente con F3RM es que el mismo sistema también funciona a escala de habitación y edificio, y puede usarse para construir entornos de simulación para el aprendizaje de robots y mapas grandes», dice Yang. “Pero antes de ampliar aún más este trabajo, primero queremos que este sistema funcione muy rápidamente. De esta manera, podemos utilizar este tipo de representación para tareas de control robótico más dinámicas, con suerte en tiempo real, de modo que los robots que se ocupan de tareas más dinámicas puedan utilizarla para la percepción”.
Aplicación en diversos entornos.
El equipo del MIT señala que la capacidad del F3RM para comprender diferentes escenas podría hacerlo útil en entornos urbanos y domésticos. Por ejemplo, este enfoque podría ayudar a robots personalizados a identificar y recopilar elementos específicos. El sistema ayuda a los robots a comprender su entorno, tanto física como perceptualmente.
«David Marr definió la percepción visual como el problema de saber ‘qué hay y dónde mirando'», dice el autor principal Phillip Isola, profesor asociado de ingeniería eléctrica e informática en el MIT e investigador principal de CSAIL. “Los modelos de fundaciones recientes se han vuelto muy buenos a la hora de saber lo que están mirando; pueden reconocer miles de categorías de objetos y proporcionar descripciones detalladas de imágenes. Al mismo tiempo, los campos luminosos se han vuelto muy buenos para representar dónde están las cosas en una escena. La combinación de estos dos enfoques puede crear una representación de qué es dónde en 3D, y lo que nuestro trabajo muestra es que esta combinación es especialmente útil para tareas robóticas, que requieren manipular objetos en 3D”.
Creando un “gemelo digital”
F3RM comienza a comprender su entorno tomando fotografías con un palo para selfies. La cámara montada captura 50 imágenes en diferentes poses, lo que le permite construir un campo de radiación neuronal (NeRF), un método de aprendizaje profundo que utiliza imágenes 2D para construir una escena 3D. Este collage de fotografías RGB crea un “gemelo digital” del entorno en forma de una representación de 360 grados de lo que hay cerca.
Además de un campo de radiación neuronal muy detallado, F3RM también crea un campo de características para aumentar la geometría con información semántica. El sistema utiliza CLIP, un modelo de visión básico entrenado en cientos de millones de imágenes para aprender conceptos visuales de manera eficiente. Al reconstruir las características CLIP 2D de las imágenes tomadas con el palo selfie, F3RM transforma efectivamente las características 2D en una representación 3D.
Interacción abierta
Después de recibir algunas demostraciones, el robot aplica lo que sabe sobre geometría y semántica para capturar objetos que nunca antes había encontrado. Después de que un usuario envía una consulta de texto, el robot busca en el espacio de posibles capturas para identificar aquellas con más probabilidades de lograr capturar el objeto solicitado por el usuario. Cada opción potencial se califica según su relevancia para el mensaje, su similitud con las demostraciones en las que se entrenó al robot y si causa alguna colisión. Luego se elige y ejecuta la comprensión con la puntuación más alta.
Para demostrar la capacidad del sistema para interpretar solicitudes abiertas de humanos, los investigadores hicieron que el robot recogiera a Baymax, un personaje de «Big Hero 6» de Disney. Aunque F3RM nunca fue entrenado directamente para agarrar un juguete de superhéroe de dibujos animados, el robot utilizó su conciencia espacial y sus capacidades de lenguaje visual de los modelos base para decidir qué objeto agarrar y cómo agarrarlo.
F3RM también permite a los usuarios especificar qué objeto quieren que manipule el robot en diferentes niveles de detalle lingüístico. Por ejemplo, si hay una taza de metal y una taza de cristal, el usuario puede pedirle al robot la “taza de cristal”. Si el robot ve dos tazas de cristal y una de ellas está llena de café y la otra de zumo, el usuario puede pedir la “taza de cristal con café”. Las características del modelo base integradas en el campo de características permiten este nivel de comprensión abierta.
“Si le mostrara a alguien cómo levantar una taza por el borde, fácilmente podría transferir ese conocimiento para levantar objetos con geometrías similares, como tazones, tazas medidoras o incluso rollos de cinta adhesiva. Para los robots, lograr este nivel de adaptabilidad ha sido todo un desafío”, dice el estudiante de doctorado del MIT, afiliado a CSAIL y coautor principal William Shen. «F3RM combina la comprensión geométrica con la semántica de modelos básicos entrenados con datos a escala de Internet para permitir este nivel de generalización agresiva a partir de solo una pequeña cantidad de demostraciones».
Referencia: “Los campos de funciones destiladas permiten una manipulación guiada por lenguaje de pocas tomas” por William Shen, Ge Yang, Alan Yu, Jansen Wong, Leslie Pack Kaelbling y Phillip Isola, 27 de julio de 2023, Ciencias de la Computación > Estándares de visión por computadora y reconocimiento de funciones.
arXiv:2308.07931
Shen y Yang escribieron el artículo bajo la supervisión de Isola, con la profesora del MIT e investigadora principal de CSAIL Leslie Pack Kaelbling y los estudiantes graduados Alan Yu y Jansen Wong como coautores. El equipo contó con el apoyo, en parte, de Amazon.com Services, la Fundación Nacional de Ciencias, la Oficina de Investigación Científica de la Fuerza Aérea, la Iniciativa Universitaria Multidisciplinaria de la Oficina de Investigación Naval, la Oficina de Investigación del Ejército, el Laboratorio Watson del MIT-IBM y el Centro de Búsqueda del MIT. Inteligencia. Su trabajo se presentará en la Conferencia sobre robots de aprendizaje de 2023.