Por Elizabeth A. Thomson, Laboratorio de Investigación de Materiales del MIT, 24 de septiembre de 2023
El sistema MIT demuestra una mejora de más de 100 veces en eficiencia energética y una mejora de 25 veces en densidad computacional en comparación con los sistemas actuales.
ChatGPT ha aparecido en los titulares de todo el mundo por su capacidad para escribir ensayos, correos electrónicos y códigos informáticos basados en unas pocas instrucciones de un usuario. Ahora, un equipo liderado por el MIT informa sobre un sistema que podría conducir a programas de aprendizaje automático varios órdenes de magnitud más poderosos que el que está detrás de ChatGPT. El sistema que desarrollaron también podría utilizar varios órdenes de magnitud menos de energía que las supercomputadoras de última generación detrás de los modelos de aprendizaje automático actuales.
En un número reciente de Nature Photonics, los investigadores informan sobre la primera demostración experimental del nuevo sistema, que realiza sus cálculos basándose en el movimiento de la luz, en lugar de los electrones, utilizando cientos de láseres de escala micrométrica. Con el nuevo sistema, el equipo informa una mejora de más de 100 veces en la eficiencia energética y una mejora de 25 veces en la densidad computacional, una medida de la potencia de un sistema, en relación con las computadoras digitales de última generación para el aprendizaje automático. .
Hacia el futuro
En el documento, el equipo también cita «sustancialmente varios órdenes de magnitud más para futuras mejoras». Como resultado, continúan los autores, la técnica «abre un camino para que los procesadores optoelectrónicos a gran escala aceleren las tareas de aprendizaje automático, desde centros de datos hasta dispositivos de borde descentralizados». En otras palabras, los teléfonos móviles y otros dispositivos pequeños podrían llegar a ser capaces de ejecutar programas que actualmente sólo pueden computarse en grandes centros de datos.
Además, como los componentes del sistema pueden crearse utilizando procesos de fabricación que ya se utilizan hoy en día, “esperamos que pueda ampliarse para uso comercial dentro de unos años. Por ejemplo, los conjuntos de láser involucrados se usan ampliamente en la identificación facial de teléfonos celulares y en la comunicación de datos”, dice el primer autor Zaijun Chen, quien realizó el trabajo mientras era becario postdoctoral en el Laboratorio de Investigación de Electrónica (RLE) del MIT. Ahora es asistente. Profesor de la Universidad del Sur de California.
Dice Dirk Englund, profesor asociado en el Departamento de Ingeniería Eléctrica e Informática del MIT y líder del trabajo: “El tamaño de ChatGPT está limitado por la potencia de las supercomputadoras actuales. Simplemente no es económicamente viable entrenar modelos mucho más grandes. Nuestra nueva tecnología podría hacer posible dar el salto a modelos de aprendizaje automático que de otro modo no serían accesibles en un futuro próximo”.
Y continúa: «No sabemos qué capacidades tendrá ChatGPT de próxima generación si es 100 veces más potente, pero ese es el régimen de descubrimiento que este tipo de tecnología podría permitir». Englund también es líder del Laboratorio de Fotónica Cuántica del MIT y está afiliado a RLE y al Laboratorio de Investigación de Materiales.
Un latido de progreso
El trabajo actual es el último logro logrado en los últimos años por Englund y muchos de los mismos colegas. Por ejemplo, en 2019, un equipo de Englund informó sobre el trabajo teórico que condujo a la demostración actual. El primer autor de ese artículo, Ryan Hamerly, ahora de RLE y NTT Research Inc., también es autor del artículo actual.
Otros coautores del artículo actual de Nature Photonics son Alexander Sludds, Ronald Davis, Ian Christen, Liane Bernstein y Lamia Ateshian, todos de RLE; y Tobias Heuser, Niels Heermeier, James A. Lott y Stephan Reitzensttein de la Technische Universitat Berlin.
Las redes neuronales profundas (DNN), como la que está detrás de ChatGPT, se basan en modelos masivos de aprendizaje automático que simulan cómo el cerebro procesa la información. Sin embargo, las tecnologías digitales detrás de las DNN actuales están llegando a sus límites, incluso a medida que crece el campo del aprendizaje automático. Además, requieren enormes cantidades de energía y se limitan en gran medida a grandes centros de datos. Esto está motivando el desarrollo de nuevos paradigmas informáticos.
Redes neuronales ópticas y su potencial
El uso de luz en lugar de electrones para realizar cálculos DNN tiene el potencial de romper los cuellos de botella actuales. Los cálculos que utilizan la óptica, por ejemplo, tienen el potencial de utilizar mucha menos energía que los basados en la electrónica. Además, con la óptica, “se pueden tener anchos de banda” o densidades informáticas mucho mayores, afirma Chen. La luz puede transferir mucha más información en un área mucho más pequeña.
Sin embargo, las redes neuronales ópticas (ONN) actuales presentan desafíos importantes. Por ejemplo, utilizan mucha energía porque son ineficientes a la hora de convertir en luz los datos entrantes basados en energía eléctrica. Además, los componentes implicados son voluminosos y ocupan mucho espacio. Si bien los ONN son muy buenos en cálculos lineales como la suma, no son buenos en cálculos no lineales como la multiplicación y las declaraciones «si».
En el trabajo actual, los investigadores presentan una arquitectura compacta que, por primera vez, resuelve todos estos desafíos y dos más simultáneamente. Esta arquitectura se basa en conjuntos de última generación de láseres emisores de superficie verticales (VCSEL), una tecnología relativamente nueva utilizada en aplicaciones que incluyen la detección remota lidar y la impresión láser. Los VCEL específicos informados en el artículo de Nature Photonics fueron desarrollados por el grupo Reitzenstein de la Technische Universitat Berlin. «Este fue un proyecto de colaboración que no habría sido posible sin ellos», dice Hamerly.
Logan Wright, profesor asistente de la Universidad de Yale que no participó en la investigación actual, comenta: “El trabajo de Zaijun Chen et al. Es inspirador, alentador para mí y probablemente para muchos otros investigadores en esta área, que los sistemas basados en matrices VCSEL moduladas puedan ser una ruta viable hacia redes neuronales ópticas de alta velocidad y gran escala. Por supuesto, el estado del arte aquí todavía está lejos de la escala y el costo que se necesitarían para dispositivos prácticamente útiles, pero soy optimista sobre lo que se puede lograr en los próximos años, especialmente teniendo en cuenta el potencial que tienen estos sistemas para acelerar. Sistemas de inteligencia artificial a gran escala y muy costosos, como los utilizados en los populares sistemas textuales ‘GPT’ como ChatGPT.
Referencia: “Aprendizaje profundo con redes neuronales VCSEL coherentes” por Zaijun Chen, Alexander Sludds, Ronald Davis III, Ian Christen, Liane Bernstein, Lamia Ateshian, Tobias Heuser, Niels Heermeier, James A. Lott, Stephan Reitzenstein, Ryan Hamerly y Dirk Englund, 17 de julio de 2023, Nature Photonics.
DOI: 10.1038/s41566-023-01233-w
Chen, Hamerly y Englund solicitaron una patente para el trabajo, que fue patrocinada por la Oficina de Investigación del Ejército de EE. UU., NTT Research, el Programa de Becas para Graduados en Ciencias e Ingeniería de la Defensa Nacional de EE. UU., la Fundación Nacional de Ciencias de EE. UU., Ciencias Naturales e Ingeniería. Consejo Canadiense de Investigación y Fundación Volkswagen.