¿Cómo funcionan los potentes sistemas de IA generativa como ChatGPT y qué los diferencia de otros tipos de inteligencia artificial?
Un vistazo rápido a los titulares hace que parezca que la inteligencia artificial generativa está en todas partes estos días. De hecho, algunos de estos titulares pueden haber sido escritos por IA generativa, como ChatGPT de OpenAI, un chatbot que ha demostrado una capacidad increíble para producir texto que parece escrito por un humano.
Comprender la IA generativa
Pero, ¿a qué se refiere realmente la gente cuando habla de “IA generativa”?
Antes del auge de la IA generativa de los últimos años, cuando la gente hablaba de IA, normalmente hablaba de modelos de aprendizaje automático que pueden aprender a hacer predicciones basadas en datos. Por ejemplo, estos modelos se entrenan, utilizando millones de ejemplos, para predecir si una radiografía determinada muestra signos de un tumor o si es probable que un prestatario determinado no pague un préstamo.
La IA generativa puede considerarse como un modelo de aprendizaje automático entrenado para crear nuevos datos, en lugar de hacer una predicción sobre un conjunto de datos específico. Un sistema de IA generativa es aquel que aprende a generar más objetos que se parecen a los datos con los que fue entrenado.
“Cuando se trata de la maquinaria real que subyace a la IA generativa y otros tipos de IA, las distinciones pueden ser un poco borrosas. A menudo se pueden utilizar los mismos algoritmos para ambos”, afirma Phillip Isola, profesor asociado de ingeniería eléctrica e informática en el MIT y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL).
Contexto histórico y complejidad del modelo.
Y a pesar del entusiasmo que surgió con el lanzamiento de ChatGPT y sus homólogos, la tecnología en sí no es del todo nueva. Estos potentes modelos de aprendizaje automático se basan en investigaciones y avances computacionales que se remontan a más de 50 años.
Uno de los primeros ejemplos de IA generativa es un modelo mucho más simple conocido como cadena de Markov. La técnica lleva el nombre de Andrey Markov, un matemático ruso que en 1906 introdujo este método estadístico para modelar el comportamiento de procesos aleatorios. En el aprendizaje automático, los modelos de Markov se han utilizado durante mucho tiempo para tareas de predicción de la siguiente palabra, como la función de autocompletar en un programa de correo electrónico.
En la predicción de texto, un modelo de Markov genera la siguiente palabra de una oración mirando la palabra anterior o algunas palabras anteriores. Pero como estos modelos simples sólo pueden mirar hacia atrás hasta cierto punto, no son buenos para generar texto plausible, dice Tommi Jaakkola, profesor Thomas Siebel de Ingeniería Eléctrica y Ciencias de la Computación en el MIT, quien también es miembro de CSAIL y del Instituto de Datos. , Sistemas y Sociedad (IDSS).
«Ya estábamos generando cosas mucho antes de la última década, pero la principal distinción aquí está en términos de la complejidad de los objetos que podemos generar y la escala a la que podemos entrenar estos modelos», explica.
Hace apenas unos años, los investigadores tendían a centrarse en encontrar un algoritmo de aprendizaje automático que hiciera el mejor uso de un conjunto de datos específico. Pero ese enfoque ha cambiado un poco, y muchos investigadores ahora están utilizando conjuntos de datos más grandes, quizás con cientos de millones o incluso miles de millones de puntos de datos, para entrenar modelos que puedan lograr resultados impresionantes.
Cambios recientes de enfoque en la investigación de la IA
Los modelos básicos subyacentes a ChatGPT y sistemas similares funcionan de la misma manera que un modelo de Markov. Pero una gran diferencia es que ChatGPT es mucho más grande y complejo, con miles de millones de parámetros. Y se basó en una enorme cantidad de datos (en este caso, gran parte del texto disponible públicamente en Internet).
En este enorme corpus de texto, las palabras y frases aparecen en secuencias con ciertas dependencias. Esta recurrencia ayuda al modelo a comprender cómo dividir el texto en fragmentos estadísticos que tengan cierta previsibilidad. Aprende los patrones en estos bloques de texto y utiliza este conocimiento para proponer lo que podría venir a continuación.
Avances en arquitecturas de aprendizaje profundo
Si bien conjuntos de datos más grandes fueron un catalizador que condujo al auge generativo de la IA, una variedad de avances importantes en la investigación también han dado lugar a arquitecturas de aprendizaje profundo más complejas.
En 2014, investigadores de la Universidad de Montreal propusieron una arquitectura de aprendizaje automático conocida como red generativa adversarial (GAN). Las GAN utilizan dos modelos que funcionan juntos: uno aprende a generar una salida objetivo (como una imagen) y el otro aprende a discriminar los datos verdaderos de la salida del generador. El generador intenta engañar al discriminador y en el proceso aprende a obtener resultados más realistas. El generador de imágenes StyleGAN se basa en este tipo de modelos.
Los modelos de difusión fueron introducidos un año después por investigadores de la Universidad de Stanford y la Universidad de California en Berkeley. Al refinar iterativamente sus resultados, estos modelos aprenden a generar nuevas muestras de datos que se asemejan a muestras en un conjunto de datos de entrenamiento y se han utilizado para crear imágenes de apariencia realista. Un modelo de difusión es el núcleo del sistema de generación de texto a imagen de Stable Diffusion.
En 2017, investigadores de Google introdujeron la arquitectura transformadora, que se ha utilizado para desarrollar grandes modelos de lenguaje, como los que impulsan ChatGPT. En el procesamiento del lenguaje natural, un transformador codifica cada palabra en un corpus de texto como un token y luego genera un mapa de atención, que captura las relaciones de cada token con todos los demás tokens. Este mapa de atención ayuda al transformador a comprender el contexto al generar texto nuevo.
Estos son sólo algunos de los muchos enfoques que se pueden utilizar para la IA generativa.
Aplicaciones de IA generativa
Lo que todos estos enfoques tienen en común es que convierten las entradas en un conjunto de tokens, que son representaciones numéricas de bloques de datos. Siempre que sus datos puedan convertirse a este formato de token estándar, en teoría podría aplicar estos métodos para generar nuevos datos similares.
«Su kilometraje puede variar dependiendo del nivel de ruido de sus datos y la dificultad de extraer la señal, pero realmente se acerca a la forma en que una CPU de uso general puede tomar cualquier tipo de datos y comenzar a procesarlos de manera unificada. . manera”, dice Isola.
Esto abre una amplia gama de aplicaciones para la IA generativa.
Por ejemplo, el grupo de Isola está utilizando IA generativa para crear datos de imágenes sintéticas que podrían usarse para entrenar otro sistema inteligente, como enseñar a un modelo de visión por computadora cómo reconocer objetos.
El grupo de Jaakkola está utilizando IA generativa para diseñar nuevas estructuras proteicas o estructuras cristalinas válidas que especifiquen nuevos materiales. De la misma manera que un modelo generativo aprende las dependencias del lenguaje, si en cambio se le muestran estructuras cristalinas, puede aprender las relaciones que hacen que las estructuras sean estables y realizables, explica.
Pero si bien los modelos generativos pueden lograr resultados increíbles, no son la mejor opción para todo tipo de datos. Para tareas que implican hacer predicciones sobre datos estructurados, como datos tabulares en una hoja de cálculo, los modelos generativos de IA tienden a ser superados por los métodos tradicionales de aprendizaje automático, dice Devavrat Shah, profesor Andrew y Erna Viterbi de Ingeniería Eléctrica y Computación en el MIT. y miembro del IDSS y del Laboratorio de Sistemas de Información y Decisión.
“En mi opinión, el mayor valor que tienen es que se convierten en una interfaz increíble para máquinas amigables con los humanos. Anteriormente, los humanos tenían que hablar con las máquinas en lenguaje de máquina para que las cosas sucedieran. Ahora, esta interfaz ha descubierto cómo comunicarse tanto con humanos como con máquinas”, afirma Shah.
Desafíos y consideraciones éticas
Los chatbots de IA generativa se están utilizando ahora en los centros de llamadas para responder preguntas de clientes humanos, pero esta aplicación destaca una posible señal de advertencia en la implementación de estos modelos: el desplazamiento de trabajadores.
Además, la IA generativa puede heredar y propagar sesgos que existen en los datos de entrenamiento o amplificar el discurso de odio y las declaraciones falsas. Las plantillas tienen la capacidad de plagiar y pueden generar contenido que parece haber sido producido por un creador humano específico, lo que plantea posibles problemas de derechos de autor.
Por otro lado, Shah propone que la IA generativa podría empoderar a los artistas, quienes podrían utilizar herramientas generativas para ayudarlos a crear contenido creativo que de otro modo no tendrían los medios para producir.
El futuro de la IA generativa
En el futuro, ve que la IA generativa cambiará la economía en muchas disciplinas.
Una dirección futura prometedora que Isola ve para la IA generativa es su uso para la fabricación. En lugar de que un modelo haga la imagen de una silla, tal vez se podría generar un plan para una silla que podría producirse.
También ve usos futuros para los sistemas de IA generativa en el desarrollo de agentes de IA más inteligentes en general.
“Hay diferencias en cómo funcionan estos modelos y en cómo pensamos que funciona el cerebro humano, pero creo que también hay similitudes. Tenemos la capacidad de pensar y soñar mentalmente, de proponer ideas o planes interesantes, y creo que la IA generativa es una de las herramientas que permitirá a los agentes hacer esto también”, afirma Isola.