El método de aprendizaje por refuerzo fotónico simulado aprende más rápido y tiene objetivos más altos.
¿Cómo maximiza un jugador las ganancias en una fila de una máquina tragamonedas? Esta pregunta inspiró el “problema de los bandidos con múltiples brazos”, una tarea común en el aprendizaje por refuerzo en la que los “agentes” toman decisiones para ganar recompensas. Recientemente, un equipo internacional de investigadores, dirigido por Hiroaki Shinkawa de la Universidad de Tokio, introdujo un método avanzado de aprendizaje por refuerzo fotónico que realiza la transición del problema estático del malo a un escenario dinámico más complejo. Sus hallazgos fueron publicados recientemente en la revista Intelligent Computing.
El éxito del plan depende tanto de un sistema fotónico para mejorar la calidad del aprendizaje como de un algoritmo de apoyo. Al analizar una “posible implementación fotónica”, los autores desarrollaron un algoritmo bandit Q-learning modificado y validaron su eficacia mediante simulaciones numéricas. También probaron su algoritmo con una arquitectura paralela, donde varios agentes operan al mismo tiempo, y descubrieron que la clave para acelerar el proceso de aprendizaje paralelo es evitar decisiones conflictivas, aprovechando la interferencia cuántica de los fotones.
Aunque el uso de la interferencia cuántica de fotones no es nuevo en este campo, los autores creen que este estudio es «el primero en conectar la noción de toma de decisiones cooperativa fotónica con Q-learning y aplicarlo a un entorno dinámico». Los problemas de aprendizaje por refuerzo generalmente se establecen en un entorno dinámico que cambia con las acciones de los agentes y, por lo tanto, son más complejos que el entorno estático de un problema de bandidos.
Este estudio se centra en un mundo cuadriculado, una colección de celdas que contienen diferentes recompensas. Cada agente puede moverse hacia arriba, abajo, izquierda o derecha y recibir una recompensa según su movimiento y ubicación actual. En este entorno, el próximo movimiento del agente está determinado enteramente por su movimiento y ubicación actuales.
Las simulaciones en este estudio utilizan una cuadrícula de celdas de 5 × 5; cada celda se llama “estado”, cada movimiento realizado por un agente en cada intervalo de tiempo se llama “acción”, y la regla que determina cómo un agente selecciona una acción determinada en cada estado se llama “política”. El proceso de toma de decisiones se concibe como un escenario de problema de delincuentes, donde cada par estado-acción se considera como una máquina tragamonedas y los cambios en el valor Q (los valores de los pares estado-acción) se consideran recompensas.
A diferencia de los algoritmos básicos de Q-learning, que generalmente se centran en encontrar el camino óptimo para maximizar las recompensas, el algoritmo bandit Q-learning modificado tiene como objetivo aprender el valor Q óptimo para cada par estado-acción en todo el entorno, de manera eficiente y precisa. Por lo tanto, es esencial que un agente mantenga un buen equilibrio entre «explotar» a pares familiares con valores altos para un aprendizaje más rápido y «explorar» a pares poco frecuentados en busca de valores potencialmente más altos. Como política se utiliza el algoritmo softmax, un modelo popular que destaca en este tipo de equilibrio.
La prioridad futura de los autores es diseñar un sistema fotónico que respalde la toma de decisiones libre de conflictos entre al menos tres agentes, con la esperanza de que su adición al esquema propuesto ayude a los agentes a evitar la toma de decisiones conflictivas. Mientras tanto, planean desarrollar algoritmos que permitan a los agentes actuar continuamente y aplicar su algoritmo bandit Q-learning a tareas de aprendizaje por refuerzo más complicadas.
Referencia: “Enfoque bandido para el Q-Learning paralelo sin conflictos en vista de la implementación fotónica” por Hiroaki Shinkawa, Nicolas Chauvet, André Röhm, Takatomo Mihana, Ryoichi Horisaki, Guillaume Bachelier y Makoto Naruse, 25 de julio de 2023, Intelligence Computing.
DOI: 10.34133/icomputación.0046
El estudio fue financiado por la Agencia Japonesa de Ciencia y Tecnología y la Sociedad Japonesa para la Promoción de la Ciencia.