Un modelo de lenguaje natural impulsó el proceso de diseño de proteínas mediante la creación de enzimas activas.
Los investigadores han desarrollado un sistema de IA que puede generar enzimas artificiales desde cero. En experimentos de laboratorio, algunas de estas enzimas demostraron una eficacia comparable a las enzimas naturales, incluso cuando sus secuencias de aminoácidos creadas artificialmente se desviaban mucho de cualquier proteína natural conocida.
El experimento muestra que el procesamiento del lenguaje natural, inicialmente creado para leer y escribir textos en lenguaje, puede aprehender ciertos conceptos fundamentales de la biología. El programa de IA, conocido como ProGen, fue desarrollado por Salesforce Research y emplea la predicción del siguiente token para construir proteínas artificiales a partir de secuencias de aminoácidos.
Los científicos dijeron que la nueva tecnología podría volverse más poderosa que la evolución dirigida, la tecnología de diseño de proteínas ganadora del Premio Nobel, y energizará el campo de ingeniería de proteínas de 50 años, acelerando el desarrollo de nuevas proteínas que pueden usarse para casi cualquier cosa. de la terapéutica al plástico degradante.
«Los diseños artificiales funcionan mucho mejor que los diseños inspirados en el proceso evolutivo», dijo James Fraser, Ph.D., profesor de bioingeniería y ciencias terapéuticas en la Facultad de Farmacia de la UCSF y autor del trabajo, que se publicó recientemente en Nature Biotechnology. Una versión anterior del artículo ha estado disponible en el servidor de preimpresión de BiorXiv desde julio de 2021, donde recibió varias docenas de citas antes de publicarse en una revista revisada por pares.
«El modelo de lenguaje está aprendiendo aspectos de la evolución, pero es diferente del proceso evolutivo normal», dijo Fraser. “Ahora tenemos la capacidad de ajustar la generación de estas propiedades para efectos específicos. Por ejemplo, a una enzima que es increíblemente termoestable le gustan los ambientes ácidos o no interactúa con otras proteínas».
Para crear el modelo, los científicos simplemente introdujeron las secuencias de aminoácidos de 280 millones de proteínas diferentes de todo tipo en el modelo de aprendizaje automático y dejaron que digiriera la información durante algunas semanas. Luego, ajustaron el modelo preparándolo con 56 000 secuencias de cinco familias de lisozimas, junto con información contextual sobre estas proteínas.
El modelo generó rápidamente un millón de secuencias, y el equipo de investigación seleccionó 100 para probar, en función de su similitud con las secuencias de proteínas naturales, así como de la naturalidad de la «gramática» y la «semántica» subyacentes a las secuencias. .
A partir de ese primer lote de 100 proteínas, que fueron analizadas in vitro por Tierra Biosciences, el equipo produjo cinco proteínas artificiales para probar en células y comparó su actividad con una enzima que se encuentra en la clara de los huevos de gallina, conocida como lisozima de clara de pollo. . (HEWL). Lisozimas similares se encuentran en las lágrimas, la saliva y la leche humanas, donde se defienden contra las bacterias y los hongos.
Dos de las enzimas artificiales pudieron descomponer las paredes celulares bacterianas con una actividad comparable a HEWL, pero sus secuencias eran solo un 18% idénticas entre sí. Las dos secuencias eran aproximadamente 90% y 70% idénticas a cualquier proteína conocida.
Solo una mutación en una proteína natural puede hacer que deje de funcionar, pero en una ronda diferente de evaluación, el equipo encontró que las enzimas generadas por IA mostraron actividad incluso cuando solo el 31,4 % de su secuencia se parecía a cualquier proteína natural conocida.
La IA incluso pudo aprender cómo se deben dar forma a las enzimas, simplemente estudiando los datos de secuencia sin procesar. Medidas con cristalografía de rayos X, las estructuras atómicas de las proteínas artificiales se veían exactamente como deberían, pero las secuencias no se parecían a nada visto antes.
Salesforce Research desarrolló ProGen en 2020, basado en un tipo de programación de lenguaje natural que sus investigadores desarrollaron originalmente para generar texto en inglés.
Sabían por su trabajo anterior que el sistema de IA podía aprender la gramática y el significado de las palabras, junto con otras reglas subyacentes que contribuyen a una escritura bien compuesta.
“Cuando entrenas modelos basados en secuencias con una gran cantidad de datos, son realmente poderosos para aprender estructuras y reglas”, dijo Nikhil Naik, Ph.D., director de investigación de IA en Salesforce Research y autor principal del artículo. “Aprenden qué palabras pueden ocurrir simultáneamente y también la composicionalidad”.
Con las proteínas, las opciones de diseño eran casi ilimitadas. Las lisozimas son pequeñas como las proteínas, con hasta unos 300 aminoácidos. Pero con 20 aminoácidos posibles, hay un número enorme (20.300) de combinaciones posibles. Eso es más grande que tomar todos los humanos que han vivido a lo largo del tiempo, multiplicado por la cantidad de granos de arena en la Tierra, multiplicada por la cantidad de átomos en el universo.
Dadas las posibilidades ilimitadas, es notable que el modelo pueda generar enzimas de trabajo tan fácilmente.
«La capacidad de generar proteínas funcionales desde cero demuestra que estamos entrando en una nueva era de diseño de proteínas», dijo Ali Madani, Ph.D., fundador de Profluent Bio, excientífico de Salesforce Research y primer autor del artículo. «Esta es una nueva herramienta versátil disponible para los ingenieros de proteínas y esperamos ver las aplicaciones terapéuticas».
Referencia: «Los modelos de lenguaje grande generan secuencias de proteínas funcionales en varias familias» por Ali Madani, Ben Krause, Eric R. Greene, Subu Subramanian, Benjamin P. Mohr, James M. Holton, Jose Luis Olmos Jr., Caiming Xiong, Zachary Z Sun, Richard Socher, James S. Fraser y Nikhil Naik, 26 de enero de 2023, Nature Biotechnology.
DOI: 10.1038/s41587-022-01618-2
Consulte el documento para obtener una lista completa de autores y financiadores. Una base de código integral para los métodos descritos en el documento está disponible públicamente en https://github.com/salesforce/progen.