Los investigadores han persuadido a una familia de modelos de IA generativa para que trabajen juntos para resolver problemas de manipulación de robots de varios pasos.
Cualquiera que haya intentado alguna vez meter equipaje de tamaño familiar en el maletero de un sedán sabe que se trata de un problema difícil. Los robots también se ocupan de tareas de embalaje denso.
Para el robot, resolver el problema del embalaje implica satisfacer muchas limitaciones, como apilar el equipaje para que las bolsas no se caigan del maletero, no colocar objetos pesados encima de los más ligeros y colisiones entre el brazo robótico y el tope. .-choque de coche. se evitan.
Algunos métodos tradicionales abordan este problema de forma secuencial, adivinando una solución parcial que cumpla una restricción a la vez y luego verificando si se viola alguna otra restricción. Con una larga secuencia de acciones que tomar y un montón de equipaje que empacar, este proceso puede llevar mucho tiempo de manera poco práctica.
Enfoque innovador de los investigadores del MIT
Los investigadores del MIT utilizaron una forma de IA generativa, llamada modelo de difusión, para resolver este problema de manera más eficiente. Su método utiliza una colección de modelos de aprendizaje automático, cada uno de ellos entrenado para representar un tipo específico de restricción. Estos modelos se combinan para generar soluciones globales al problema del embalaje, teniendo en cuenta todas las limitaciones a la vez.
Su método fue capaz de generar soluciones efectivas más rápidamente que otras técnicas y produjo una mayor cantidad de soluciones exitosas en el mismo período de tiempo. Es importante destacar que su técnica también pudo resolver problemas con nuevas combinaciones de restricciones y una mayor cantidad de objetos, que los modelos no vieron durante el entrenamiento.
Debido a esta generalización, su técnica se puede utilizar para enseñar a los robots cómo comprender y cumplir las limitaciones generales de los problemas de empaquetado, como la importancia de evitar colisiones o el deseo de que un objeto esté cerca de otro objeto. Los robots entrenados de esta manera podrían aplicarse a una amplia gama de tareas complejas en diversos entornos, desde cumplir pedidos en un almacén hasta organizar una estantería en la casa de alguien.
“Mi visión es obligar a los robots a realizar tareas más complicadas que tienen muchas restricciones geométricas y decisiones más continuas que deben tomarse; estos son los tipos de problemas que enfrentan los robots de servicios en nuestros entornos humanos diversos y desestructurados. Con la poderosa herramienta de los modelos de difusión composicional, ahora podemos resolver estos problemas más complejos y obtener excelentes resultados de generalización”, afirma Zhutian Yang, estudiante de posgrado en ingeniería eléctrica e informática y autor principal de un artículo sobre esta nueva técnica de aprendizaje automático.
Entre sus coautores se encuentran los estudiantes graduados del MIT Jiayuan Mao y Yilun Du; Jiajun Wu, profesor asistente de informática en la Universidad de Stanford; Joshua B. Tenenbaum, profesor del Departamento de Ciencias Cognitivas y del Cerebro del MIT y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); Tomás Lozano-Pérez, profesor de informática e ingeniería del MIT y miembro del CSAIL; y la autora principal Leslie Kaelbling, profesora Panasonic de Ciencias de la Computación e Ingeniería en el MIT y miembro de CSAIL. La investigación se presentará en la Conferencia sobre Robots de Aprendizaje.
Las complejidades de las restricciones
Los problemas continuos de satisfacción de restricciones son particularmente desafiantes para los robots. Estos problemas aparecen en tareas de manipulación de robots de varios pasos, como colocar artículos en una caja o poner una mesa de comedor. A menudo implican el cumplimiento de una serie de restricciones, incluidas restricciones geométricas como evitar colisiones entre el brazo del robot y el entorno; limitaciones físicas, como apilar objetos para que sean estables; y restricciones cualitativas, como colocar una cuchara a la derecha de un cuchillo.
Puede haber muchas restricciones y varían según los problemas y entornos, según la geometría de los objetos y los requisitos especificados por los humanos.
Para resolver estos problemas de manera eficiente, los investigadores del MIT desarrollaron una técnica de aprendizaje automático llamada Diffusion-CCSP. Los modelos de difusión aprenden a generar nuevas muestras de datos que se asemejan a muestras en un conjunto de datos de entrenamiento refinando iterativamente su salida.
Para ello, los modelos de difusión aprenden un procedimiento para realizar pequeñas mejoras en una solución potencial. Entonces, para resolver un problema, comienzan con una solución aleatoria y muy mala y luego la mejoran gradualmente.
Por ejemplo, imagine colocar platos y utensilios al azar en una mesa simulada, permitiendo que se superpongan físicamente. Las restricciones de no colisión entre objetos harán que se alejen, mientras que las restricciones cualitativas arrastrarán el plato hacia el centro, alinearán el tenedor para ensalada y el tenedor para cenar, etc.
Los modelos de difusión se adaptan bien a este tipo de problema continuo de satisfacción de restricciones porque las influencias de múltiples modelos en la pose de un objeto pueden combinarse para fomentar la satisfacción de todas las restricciones, explica Yang. Partiendo siempre de una estimación inicial aleatoria, los modelos pueden obtener un conjunto diverso de buenas soluciones.
Trabajando juntos
Para Diffusion-CCSP, los investigadores querían capturar la interconectividad de las restricciones. En el empaquetado, por ejemplo, una restricción podría requerir que un determinado objeto esté cerca de otro objeto, mientras que una segunda restricción podría especificar dónde debe ubicarse uno de esos objetos.
Diffusion-CCSP aprende una familia de modelos de difusión, uno para cada tipo de restricción. Los modelos se entrenan juntos, por lo que comparten algunos conocimientos, como la geometría de los objetos a empaquetar.
Luego, los modelos trabajan juntos para encontrar soluciones, en este caso locales a los objetos a colocar, que satisfagan conjuntamente las restricciones.
“No siempre llegamos a una solución en el primer intento. Pero cuando sigues perfeccionando la solución y se produce alguna infracción, debería llevarte a una solución mejor. Recibes orientación cuando haces algo mal”, dice.
Entrenar modelos individuales para cada tipo de restricción y luego combinarlos para hacer predicciones reduce en gran medida la cantidad de datos de entrenamiento necesarios en comparación con otros enfoques.
Sin embargo, entrenar estos modelos todavía requiere una gran cantidad de datos que demuestren los problemas resueltos. Los humanos necesitarían resolver cada problema con métodos lentos tradicionales, lo que haría prohibitivo el costo de generar dichos datos, dice Yang.
En cambio, los investigadores revirtieron el proceso y encontraron primero las soluciones. Utilizaron algoritmos rápidos para generar cajas segmentadas y encajar un conjunto diverso de objetos 3D en cada segmento, garantizando un embalaje compacto, poses estables y soluciones sin colisiones.
“Con este proceso la generación de datos es casi instantánea en la simulación. Podemos generar decenas de miles de entornos donde sabemos que los problemas se pueden resolver”, afirma.
Entrenados con estos datos, los modelos de difusión trabajan juntos para determinar las ubicaciones donde la pinza robótica debe colocar los objetos que realiza la tarea de embalaje cumpliendo todas las restricciones.
Realizaron estudios de viabilidad y luego demostraron Diffusion-CCSP con un robot real resolviendo una serie de problemas difíciles, incluido encajar triángulos 2D en una caja, empaquetar formas 2D con restricciones de relación espacial, apilar objetos 3D con restricciones de estabilidad y empaquetar objetos 3D con un brazo robotico.
Su método superó a otras técnicas en muchos experimentos, generando una mayor cantidad de soluciones efectivas que eran estables y libres de colisiones.
En el futuro, Yang y sus colaboradores quieren probar Diffusion-CCSP en situaciones más complicadas, como con robots que puedan moverse por una habitación. También quieren permitir que Diffusion-CCSP resuelva problemas en diferentes dominios sin necesidad de volver a capacitarse con nuevos datos.
“Diffusion-CCSP é uma solução de aprendizado de máquina que se baseia em poderosos modelos generativos existentes”, diz Danfei Xu, professor assistente na Escola de Computação Interativa do Instituto de Tecnologia da Geórgia e cientista pesquisador da NVIDIA AI, que não esteve envolvido com este trabajo. “Puede generar rápidamente soluciones que satisfacen simultáneamente múltiples restricciones al componer modelos de restricciones individuales conocidos. Aunque todavía se encuentran en las primeras fases de desarrollo, los avances continuos en este enfoque prometen permitir sistemas autónomos más eficientes, seguros y confiables en diversas aplicaciones”.
Referencia: “Solucionadores de restricciones continuas basados en difusión composicional” por Zhutian Yang, Jiayuan Mao, Yilun Du, Jiajun Wu, Joshua B. Tenenbaum, Tomás Lozano-Pérez y Leslie Pack Kaelbling, 2 de septiembre de 2023, Ciencias de la Computación > Robótica.
arXiv:2309.00966
Esta investigación fue financiada, en parte, por la Fundación Nacional de Ciencias, la Oficina de Investigación Científica de la Fuerza Aérea, la Oficina de Investigación Naval, el Laboratorio de IA Watson del MIT-IBM, el Quest for Intelligence del MIT, el Centro para Cerebros, Mentes y Machines, Boston Dynamics Artificial Intelligence Institute, Stanford Institute for Human-Centered Artificial Intelligence, Analog Devices, JPMorgan Chase and Co. y Salesforce.