La investigación muestra una nueva promesa para la «generalización composicional»
Los humanos comprenden de forma innata cómo relacionar conceptos; Una vez que aprenden la noción de «saltar», inmediatamente comprenden lo que significa «saltar dos veces a través de la habitación» o «saltar con las manos en alto».
Pero, ¿son las máquinas capaces de este tipo de pensamiento? A finales de la década de 1980, Jerry Fodor y Zenon Pylyshyn, filósofos y científicos cognitivos, postularon que las redes neuronales artificiales -los motores que impulsan la inteligencia artificial y el aprendizaje automático- no son capaces de establecer estas conexiones, conocidas como “generalizaciones composicionales”. Sin embargo, en las décadas posteriores, los científicos han desarrollado formas de infundir esta capacidad en las redes neuronales y tecnologías relacionadas, pero con un éxito desigual, manteniendo vivo este debate de décadas.
Técnica innovadora: metaaprendizaje para la composicionalidad
Investigadores de la Universidad de Nueva York y la Universidad Pompeu Fabra de España han desarrollado una técnica, publicada en la revista Nature, que mejora la capacidad de estas herramientas, como ChatGPT, para hacer generalizaciones de composición. Esta técnica, Metaaprendizaje para la composicionalidad (MLC), supera los enfoques existentes y está a la par, y en algunos casos mejor, que el desempeño humano. MLC se centra en el entrenamiento de redes neuronales (los motores que impulsan ChatGPT y tecnologías relacionadas para el reconocimiento de voz y el procesamiento del lenguaje natural) para mejorar la generalización compositiva a través de la práctica.
Los desarrolladores de sistemas existentes, incluidos grandes modelos de lenguaje, esperan que surja una generalización compositiva a partir de métodos de entrenamiento estándar, o han desarrollado arquitecturas de propósito especial para lograr estas habilidades. MLC, por otro lado, muestra cómo la práctica explícita de estas habilidades permite a estos sistemas desbloquear nuevos poderes, señalan los autores.
«Durante 35 años, los investigadores en ciencias cognitivas, inteligencia artificial, lingüística y filosofía han debatido si las redes neuronales pueden lograr una generalización sistemática similar a la humana», dice Brenden Lake, profesor asistente en el Centro de Ciencia de Datos y el Departamento de Psicología de la Universidad de Nueva York. y uno de los autores del artículo. «Mostramos, por primera vez, que una red neuronal genérica puede imitar o superar la generalización sistemática humana en una comparación directa».
Cómo funciona MLC
Al explorar la posibilidad de reforzar el aprendizaje compositivo en redes neuronales, los investigadores crearon MLC, un nuevo procedimiento de aprendizaje en el que una red neuronal se actualiza continuamente para mejorar sus capacidades a lo largo de una serie de episodios. En un episodio, a MLC se le da una nueva palabra y se le pide que la use en términos de composición; por ejemplo, tomando la palabra «saltar» y creando nuevas combinaciones de palabras, como «saltar dos veces» o «saltar dos veces hacia la derecha». Luego, el MLC recibe un nuevo episodio que presenta una palabra diferente, y así sucesivamente, mejorando cada vez las habilidades de composición de la cadena.
Probando la técnica
Para comprobar la eficacia de MLC, Lake, codirectora de la Iniciativa Mentes, Cerebros y Máquinas de la Universidad de Nueva York, y Marco Baroni, investigador del Instituto Catalán de Investigación y Estudios Avanzados y profesor del Departamento de Traducción y Ciencias del Lenguaje de la Pompeu La Universidad Fabra, llevó a cabo una serie de experimentos con participantes humanos que eran idénticos a las tareas realizadas por el MLC.
Además, en lugar de aprender el significado de palabras reales (términos que los humanos ya conocerían), también tuvieron que aprender el significado de términos sin sentido (por ejemplo, “zup” y “dax”) tal como los definieron los investigadores y saber cómo aplicarlos. En maneras diferentes. El MLC funcionó tan bien como los participantes humanos y, en algunos casos, mejor que sus homólogos humanos. MLC y People también superaron a ChatGPT y GPT-4, que a pesar de sus impresionantes habilidades generales, mostraron dificultades en esta tarea de aprendizaje.
“Los grandes modelos de lenguaje como ChatGPT todavía luchan con la generalización compositiva, aunque han mejorado en los últimos años”, señala Baroni, miembro del grupo de investigación de Lingüística Computacional y Teoría Lingüística de la Universidad Pompeu Fabra. «Pero creemos que MLC puede mejorar aún más las capacidades de composición de modelos de lenguaje grandes».
Referencia: “Generalización sistemática similar a la humana a través de una red neuronal de metaaprendizaje” por Brenden M. Lake y Marco Baroni, 25 de octubre de 2023, Naturaleza.
DOI: 10.1038/s41586-023-06668-3