Al centrarse en las relaciones causales en la regulación del genoma, un nuevo método de IA podría ayudar a los científicos a identificar nuevas técnicas de inmunoterapia o terapias regenerativas. Crédito: iStock
Un diseño experimental más eficaz para transformar una célula en un nuevo estado
Investigadores del MIT y Harvard han desarrollado una nueva técnica computacional que puede identificar de manera eficiente intervenciones genéticas óptimas en la reprogramación celular utilizando menos experimentos. Su enfoque único aprovecha las relaciones de causa y efecto dentro de los sistemas, priorizando las intervenciones más efectivas para cada ronda de pruebas. Cuando se aplican a datos biológicos reales, sus algoritmos han superado consistentemente a los métodos estándar, ofreciendo un camino más eficiente hacia la reprogramación celular y aplicaciones potenciales en otros campos. El nuevo método de IA podría ayudar a los científicos a identificar nuevas técnicas de inmunoterapia o terapias regenerativas.
Una estrategia para la reprogramación celular implica el uso de intervenciones genéticas específicas para transformar una célula a un nuevo estado. La técnica es muy prometedora en inmunoterapia, por ejemplo, donde los investigadores podrían reprogramar las células T de un paciente para que sean más potentes en la lucha contra el cáncer. Algún día, este enfoque también podría ayudar a identificar tratamientos contra el cáncer que salven vidas o terapias regenerativas que reparen órganos devastados por la enfermedad.
Sin embargo, el cuerpo humano tiene alrededor de 20.000 genes y un trastorno genético puede estar en una combinación de genes o en cualquiera de los más de 1.000 factores de transcripción que regulan los genes. Debido a que el espacio de búsqueda es vasto y los experimentos genéticos son costosos, los científicos a menudo tienen dificultades para encontrar la perturbación óptima para su aplicación específica.
Innovación Computacional del MIT y Harvard
Investigadores del MIT y la Universidad de Harvard han desarrollado un nuevo enfoque computacional que puede identificar de manera eficiente perturbaciones genéticas óptimas basándose en un número mucho menor de experimentos que los métodos tradicionales.
Su técnica algorítmica aprovecha la relación causa-efecto entre factores de un sistema complejo, como la regulación del genoma, para priorizar la mejor intervención en cada ronda de experimentos secuenciales.
Los investigadores realizaron un riguroso análisis teórico para determinar si su técnica, de hecho, identificó intervenciones óptimas. Una vez establecido este marco teórico, aplicaron los algoritmos a datos biológicos reales diseñados para imitar un experimento de reprogramación celular. Sus algoritmos fueron los más eficientes y efectivos.
Investigadores del MIT y la Universidad de Harvard han desarrollado un nuevo enfoque computacional que puede identificar de manera eficiente perturbaciones genéticas óptimas basándose en un número mucho menor de experimentos que los métodos tradicionales. Caroline Uhler, profesora del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS), es coautora principal del artículo. Crédito: Adam Glanzman
“Los experimentos a gran escala suelen diseñarse de forma empírica. Un marco causal cuidadoso para la experimentación secuencial podría permitir la identificación de intervenciones óptimas con menos ensayos, reduciendo así los costos experimentales”, dice la coautora Caroline Uhler, profesora del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) que también es codirectora. . del Centro Eric y Wendy Schmidt del Broad Institute del MIT y Harvard, e investigador del Laboratorio de Sistemas de Información y Decisión (LIDS) del MIT y del Instituto de Datos, Sistemas y Sociedad (IDSS).
Junto a Uhler en el artículo, que se publicó el 2 de octubre en Nature Machine Intelligence, se encuentran el autor principal Jiaqi Zhang, estudiante de posgrado y miembro del Centro Eric y Wendy Schmidt; el coautor principal Themistoklis P. Sapsis, profesor de ingeniería mecánica y oceánica en el MIT y miembro del IDSS; y otros en Harvard y MIT.
Aprendizaje activo en la investigación genética
Cuando los científicos intentan idear una intervención eficaz para un sistema complejo, como en la reprogramación celular, a menudo realizan experimentos de forma secuencial. Estas configuraciones son ideales para utilizar un enfoque de aprendizaje automático llamado aprendizaje activo. Se recopilan muestras de datos y se utilizan para aprender un modelo del sistema que incorpora el conocimiento adquirido hasta la fecha. A partir de este modelo, se diseña una función de adquisición: una ecuación que evalúa todas las intervenciones potenciales y elige la mejor para probar en el siguiente ensayo.
Este proceso se repite hasta que se identifica una intervención óptima (o se agotan los recursos para financiar experimentos posteriores).
“Aunque existen varias funciones de adquisición genéricas para diseñar experimentos de forma secuencial, no son efectivas para problemas de esta complejidad, lo que lleva a una convergencia muy lenta”, explica Sapsis.
Las funciones de adquisición suelen considerar la correlación entre factores, como qué genes se coexpresan. Sin embargo, centrarse únicamente en la correlación ignora las relaciones regulatorias o la estructura causal del sistema. Por ejemplo, una intervención genética sólo puede afectar la expresión de genes posteriores, pero un enfoque basado en la correlación no sería capaz de distinguir entre genes anteriores o posteriores.
«Se puede aprender parte de este conocimiento causal a partir de los datos y utilizarlo para diseñar una intervención de manera más eficiente», explica Zhang.
Los investigadores del MIT y Harvard aprovecharon esta estructura causal subyacente para su técnica. Primero, construyeron cuidadosamente un algoritmo para que solo pudiera aprender modelos del sistema que tuvieran en cuenta las relaciones causales.
A continuación, los investigadores diseñaron la función de adquisición para evaluar automáticamente las intervenciones utilizando información sobre estas relaciones causales. Crearon esta función para priorizar las intervenciones más informativas, es decir, aquellas con mayor probabilidad de conducir a la intervención óptima en experimentos posteriores.
“Al considerar modelos causales en lugar de modelos basados en correlaciones, ya podemos descartar ciertas intervenciones. Luego, cada vez que obtenga nuevos datos, podrá aprender un modelo causal más preciso y así reducir aún más el espacio de intervención”, explica Uhler.
Este espacio de búsqueda más pequeño, combinado con el enfoque especial de la función de adquisición en las intervenciones más informativas, es lo que hace que su enfoque sea tan eficiente.
Los investigadores mejoraron aún más su función de adquisición utilizando una técnica conocida como ponderación de salida, inspirada en el estudio de eventos extremos en sistemas complejos. Este método enfatiza cuidadosamente las intervenciones que probablemente se acerquen más a la intervención ideal.
«Básicamente, consideramos una intervención ideal como un ‘evento extremo’ dentro del espacio de todas las posibles intervenciones subóptimas y utilizamos algunas de las ideas que desarrollamos para estos problemas», dice Sapsis.
Mejora de la eficiencia y aplicaciones futuras
Probaron sus algoritmos utilizando datos biológicos reales en un experimento de reprogramación celular simulado. Para esta prueba, buscaron una perturbación genética que resultara en un cambio deseado en la expresión genética promedio. Sus funciones de adquisición identificaron consistentemente mejores intervenciones que los métodos de referencia en cada paso del experimento de múltiples etapas.
“Si detienes el experimento en cualquier etapa, el nuestro seguirá siendo más eficiente que las líneas de base. Esto significa que puedes realizar menos experimentos y obtener los mismos o mejores resultados”, afirma Zhang.
Actualmente, los investigadores están trabajando con experimentadores para aplicar su técnica a la reprogramación celular en el laboratorio.
Su enfoque también podría aplicarse a problemas fuera de la genómica, como identificar precios óptimos para productos de consumo o permitir un control de retroalimentación óptimo en aplicaciones de mecánica de fluidos.
En el futuro, planean mejorar sus técnicas de optimización más allá de aquellas que buscan igualar un promedio deseado. Además, su método supone que los científicos ya comprenden las relaciones causales en su sistema, pero el trabajo futuro también podría explorar cómo utilizar la IA para aprender esta información.
Referencia: “Aprendizaje activo para un diseño de intervención óptimo en modelos causales” por Jiaqi Zhang, Louis Cammarata, Chandler Squires, Themistoklis P. Sapsis y Caroline Uhler, 2 de octubre de 2023, La inteligencia artificial de la naturaleza.
DOI: 10.1038/s42256-023-00719-0
Este trabajo fue apoyado, en parte, por la Oficina de Investigación Naval, el Laboratorio de IA Watson del MIT-IBM, la Clínica J del MIT para el Aprendizaje Automático y la Salud, el Centro Eric y Wendy Schmidt del Instituto Broad, un Premio al Investigador Simons, la Oficina de Investigación Científica de la Fuerza Aérea y una beca de posgrado de la Fundación Nacional de Ciencias.