Este sistema de IA solo necesita una pequeña cantidad de datos para predecir las propiedades moleculares, lo que puede acelerar el descubrimiento de fármacos y el desarrollo de materiales.
El descubrimiento de nuevos materiales y medicamentos a menudo implica un proceso manual de prueba y error que puede llevar décadas y costar millones de dólares. Para agilizar este proceso, los científicos suelen utilizar el aprendizaje automático para predecir las propiedades moleculares y reducir las moléculas que necesitan para sintetizar y probar en el laboratorio.
Los investigadores del MIT y el MIT-Watson AI Lab han desarrollado un nuevo marco unificado que puede predecir simultáneamente las propiedades moleculares y generar nuevas moléculas de manera mucho más eficiente que estos populares enfoques de aprendizaje profundo.
Para enseñar a un modelo de aprendizaje automático a predecir las propiedades biológicas o mecánicas de una molécula, los investigadores deben mostrar millones de estructuras moleculares etiquetadas, un proceso conocido como entrenamiento. Debido al costo de descubrir moléculas y los desafíos de etiquetar manualmente millones de estructuras, a menudo es difícil obtener grandes conjuntos de datos de entrenamiento, lo que limita la efectividad de los enfoques de aprendizaje automático.
Por otro lado, el sistema creado por los investigadores del MIT puede predecir de manera efectiva las propiedades moleculares utilizando solo una pequeña cantidad de datos. Su sistema tiene una comprensión subyacente de las reglas que determinan cómo se combinan los componentes básicos para producir moléculas válidas. Estas reglas capturan las similitudes entre las estructuras moleculares, lo que ayuda al sistema a generar nuevas moléculas y predecir sus propiedades de manera eficiente en datos.
Este método superó a otros enfoques de aprendizaje automático en conjuntos de datos pequeños y grandes y pudo predecir con precisión las propiedades moleculares y generar moléculas viables cuando se le proporcionó un conjunto de datos de menos de 100 muestras.
«Nuestro objetivo con este proyecto es utilizar algunos métodos basados en datos para acelerar el descubrimiento de nuevas moléculas, de modo que pueda entrenar un modelo para hacer la predicción sin todos estos costosos experimentos», dice el autor principal Minghao Guo, estudiante de grado. en informática e ingeniería eléctrica (EECS).
Los coautores de Guo incluyen a los miembros del equipo de investigación de MIT-IBM Watson AI Lab, Veronika Thost, Payel Das y Jie Chen; los graduados del MIT Samuel Song ’23 y Adithya Balachandran ’23; y el autor principal Wojciech Matusik, profesor de ingeniería eléctrica e informática y miembro del MIT-IBM Watson AI Lab, que dirige el Grupo de diseño y fabricación computacional en el Laboratorio de informática e inteligencia artificial (CSAIL) del MIT. La investigación se presentará en la Conferencia Internacional de Aprendizaje Automático.
Aprendiendo el lenguaje de las moléculas
Para obtener los mejores resultados con los modelos de aprendizaje automático, los científicos necesitan conjuntos de datos de entrenamiento con millones de moléculas con propiedades similares a las que esperan descubrir. En realidad, estos conjuntos de datos específicos de dominio suelen ser muy pequeños. Entonces, los investigadores usan modelos que han sido entrenados previamente en grandes conjuntos de datos de moléculas generales, que luego aplican a un conjunto de datos objetivo mucho más pequeño. Sin embargo, debido a que estos modelos no han adquirido mucho conocimiento específico del dominio, tienden a funcionar de manera deficiente.
El equipo del MIT adoptó un enfoque diferente. Crearon un sistema de aprendizaje automático que aprende automáticamente el «lenguaje» de las moléculas, lo que se conoce como gramática molecular, utilizando solo un pequeño conjunto de datos específico del dominio. Utiliza esta gramática para construir moléculas viables y predecir sus propiedades.
En la teoría del lenguaje, las palabras, oraciones o párrafos se generan en función de un conjunto de reglas gramaticales. Puedes pensar en una gramática molecular de la misma manera. Es un conjunto de reglas de producción que determinan cómo generar moléculas o polímeros mediante la combinación de átomos y subestructuras.
Al igual que una gramática del lenguaje, que puede generar un número infinito de oraciones usando las mismas reglas, una gramática molecular puede representar una gran cantidad de moléculas. Las moléculas con estructuras similares usan las mismas reglas de producción gramatical y el sistema aprende a comprender estas similitudes.
Dado que las moléculas estructuralmente similares a menudo tienen propiedades similares, el sistema utiliza su conocimiento subyacente de la similitud molecular para predecir de manera más eficiente las propiedades de las nuevas moléculas.
“Una vez que tengamos esta gramática como representación de todas las diferentes moléculas, podemos usarla para impulsar el proceso de predicción de propiedades”, dice Guo.
El sistema aprende las reglas de producción de una gramática molecular mediante el aprendizaje por refuerzo, un proceso de prueba y error en el que el modelo es recompensado por el comportamiento que lo acerca a lograr un objetivo.
Pero dado que puede haber miles de millones de formas de combinar átomos y subestructuras, el proceso de aprendizaje de las reglas de producción gramatical sería demasiado costoso desde el punto de vista computacional para cualquier cosa que no sea el conjunto de datos más pequeño.
Los investigadores separaron la gramática molecular en dos partes. La primera parte, llamada metagramática, es una gramática general y de amplia aplicación que diseñan manualmente y proporcionan al sistema desde el principio. Luego, solo necesita aprender una gramática específica de moléculas mucho más pequeña del conjunto de datos del dominio. Este enfoque jerárquico acelera el proceso de aprendizaje.
Grandes resultados, pequeños conjuntos de datos
En los experimentos, el nuevo sistema de los investigadores generó simultáneamente moléculas y polímeros viables y predijo sus propiedades con mayor precisión que varios enfoques populares de aprendizaje automático, incluso cuando los conjuntos de datos específicos del dominio tenían solo unos pocos cientos de muestras. Algunos otros métodos también requerían un costoso paso previo al entrenamiento que el nuevo sistema evita.
La técnica fue especialmente efectiva para predecir las propiedades físicas de los polímeros, como la temperatura de transición vítrea, que es la temperatura requerida para que un material haga la transición de sólido a líquido. Obtener esta información manualmente suele ser extremadamente costoso porque los experimentos requieren temperaturas y presiones extremadamente altas.
Para llevar su enfoque aún más lejos, los investigadores redujeron un conjunto de entrenamiento a más de la mitad, a solo 94 muestras. Su modelo todavía logró resultados que estaban a la par con los métodos entrenados usando todo el conjunto de datos.
“Esta representación basada en la gramática es muy poderosa. Y dado que la gramática en sí es una representación muy general, se puede implementar en diferentes tipos de datos en forma de gráfico. Estamos tratando de identificar otras aplicaciones además de la química o la ciencia de los materiales”, dice Guo.
En el futuro, también quieren ampliar su gramática molecular actual para incluir la geometría 3D de moléculas y polímeros, que es clave para comprender las interacciones entre las cadenas de polímeros. También están desarrollando una interfaz que mostraría al usuario las reglas de producción gramatical aprendidas y pediría retroalimentación para corregir las reglas que puedan estar equivocadas, aumentando la precisión del sistema.
Referencia: geometría inducida por la gramática para la predicción eficiente de datos de propiedades moleculares
Este trabajo está financiado, en parte, por MIT-IBM Watson AI Lab y su empresa miembro, Evonik.