• Contacto
  • Cookies
  • Sitemap
lunes, diciembre 4, 2023
Cita Andalucía | Diario con Actualidad e Información de la Comunidad
  • Actualidad
  • Economía y Criptomonedas
  • Entretenimiento
  • Deportes
  • Hogar y Decoración
  • Motor
  • Salud
  • Turismo
  • Tecnología
No hay resultados
Ver todos los resultados
  • Actualidad
  • Economía y Criptomonedas
  • Entretenimiento
  • Deportes
  • Hogar y Decoración
  • Motor
  • Salud
  • Turismo
  • Tecnología
No hay resultados
Ver todos los resultados
Cita Andalucía | Diario con Actualidad e Información de la Comunidad
No hay resultados
Ver todos los resultados

Los juegos se encuentran con la física cuántica: el nuevo algoritmo «Bandit» utiliza la luz para mejores apuestas

por Jaime Muñoz
06/09/2023
en Tecnología
0
Quantum Physics Grid Algorithm Abstract
FacebookTwitter

Los científicos introdujeron un esquema de aprendizaje por refuerzo fotónico, pasando del problema estático de los bandidos con múltiples brazos a un entorno dinámico utilizando interferencia de fotones cuánticos para mejorar la toma de decisiones. Desarrollaron un algoritmo de aprendizaje Q bandido modificado, probado en un mundo de cuadrícula de 5 × 5, con el objetivo de aprender con precisión el valor Q óptimo para cada par estado-acción mientras se equilibra la exploración y la explotación.

El método de aprendizaje por refuerzo fotónico simulado aprende más rápido y tiene objetivos más altos.

¿Cómo maximiza un jugador las ganancias en una fila de una máquina tragamonedas? Esta pregunta inspiró el “problema de los bandidos con múltiples brazos”, una tarea común en el aprendizaje por refuerzo en la que los “agentes” toman decisiones para ganar recompensas. Recientemente, un equipo internacional de investigadores, dirigido por Hiroaki Shinkawa de la Universidad de Tokio, introdujo un método avanzado de aprendizaje por refuerzo fotónico que realiza la transición del problema estático del malo a un escenario dinámico más complejo. Sus hallazgos fueron publicados recientemente en la revista Intelligent Computing.

El éxito del plan depende tanto de un sistema fotónico para mejorar la calidad del aprendizaje como de un algoritmo de apoyo. Al analizar una “posible implementación fotónica”, los autores desarrollaron un algoritmo bandit Q-learning modificado y validaron su eficacia mediante simulaciones numéricas. También probaron su algoritmo con una arquitectura paralela, donde varios agentes operan al mismo tiempo, y descubrieron que la clave para acelerar el proceso de aprendizaje paralelo es evitar decisiones conflictivas, aprovechando la interferencia cuántica de los fotones.

Aunque el uso de la interferencia cuántica de fotones no es nuevo en este campo, los autores creen que este estudio es «el primero en conectar la noción de toma de decisiones cooperativa fotónica con Q-learning y aplicarlo a un entorno dinámico». Los problemas de aprendizaje por refuerzo generalmente se establecen en un entorno dinámico que cambia con las acciones de los agentes y, por lo tanto, son más complejos que el entorno estático de un problema de bandidos.

Algoritmo de bandidos del mundo de la cuadrícula

El agente elige una de las cuatro acciones indicadas por las flechas negras, recibe una recompensa y pasa a la siguiente celda. Si el agente aterriza en cualquiera de las dos celdas especiales A o B, la recompensa es grande y el agente salta a otra celda, como lo muestran las flechas rojas. Crédito: Hiroaki Shinkawa et al.

Este estudio se centra en un mundo cuadriculado, una colección de celdas que contienen diferentes recompensas. Cada agente puede moverse hacia arriba, abajo, izquierda o derecha y recibir una recompensa según su movimiento y ubicación actual. En este entorno, el próximo movimiento del agente está determinado enteramente por su movimiento y ubicación actuales.

Las simulaciones en este estudio utilizan una cuadrícula de celdas de 5 × 5; cada celda se llama “estado”, cada movimiento realizado por un agente en cada intervalo de tiempo se llama “acción”, y la regla que determina cómo un agente selecciona una acción determinada en cada estado se llama “política”. El proceso de toma de decisiones se concibe como un escenario de problema de delincuentes, donde cada par estado-acción se considera como una máquina tragamonedas y los cambios en el valor Q (los valores de los pares estado-acción) se consideran recompensas.

A diferencia de los algoritmos básicos de Q-learning, que generalmente se centran en encontrar el camino óptimo para maximizar las recompensas, el algoritmo bandit Q-learning modificado tiene como objetivo aprender el valor Q óptimo para cada par estado-acción en todo el entorno, de manera eficiente y precisa. Por lo tanto, es esencial que un agente mantenga un buen equilibrio entre «explotar» a pares familiares con valores altos para un aprendizaje más rápido y «explorar» a pares poco frecuentados en busca de valores potencialmente más altos. Como política se utiliza el algoritmo softmax, un modelo popular que destaca en este tipo de equilibrio.

La prioridad futura de los autores es diseñar un sistema fotónico que respalde la toma de decisiones libre de conflictos entre al menos tres agentes, con la esperanza de que su adición al esquema propuesto ayude a los agentes a evitar la toma de decisiones conflictivas. Mientras tanto, planean desarrollar algoritmos que permitan a los agentes actuar continuamente y aplicar su algoritmo bandit Q-learning a tareas de aprendizaje por refuerzo más complicadas.

Referencia: “Enfoque bandido para el Q-Learning paralelo sin conflictos en vista de la implementación fotónica” por Hiroaki Shinkawa, Nicolas Chauvet, André Röhm, Takatomo Mihana, Ryoichi Horisaki, Guillaume Bachelier y Makoto Naruse, 25 de julio de 2023, Intelligence Computing.
DOI: 10.34133/icomputación.0046

El estudio fue financiado por la Agencia Japonesa de Ciencia y Tecnología y la Sociedad Japonesa para la Promoción de la Ciencia.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)
Artículo anterior

Lleva tu empresa a otro nivel a través de un software ERP

Siguiente artículo

Explorando la belleza única del turismo en Andalucía

Contenido de tu interés

Deep Space Communication With Lasers
Tecnología

A 10 millones de millas de distancia: la NASA logra un intercambio histórico de datos con un experimento de comunicaciones ópticas en el espacio profundo

por Jaime Muñoz
03/12/2023
0

El experimento DSOC de la NASA a bordo de la nave espacial Psyche demostró con éxito la comunicación óptica más...

Leer más
Robot Open World Art Concept

Comprensión del lenguaje robótico: desbloqueando un mundo abierto para la automatización

02/12/2023
El próximo salto en la tecnología de baterías: las baterías de iones de litio ya no son el estándar de oro

El próximo salto en la tecnología de baterías: las baterías de iones de litio ya no son el estándar de oro

01/12/2023
X-59 de la NASA: la transformación de pintura patriótica de un avión supersónico

X-59 de la NASA: la transformación de pintura patriótica de un avión supersónico

30/11/2023
Cuando los telescopios caen: la audaz recuperación de datos de materia oscura de la NASA

Cuando los telescopios caen: la audaz recuperación de datos de materia oscura de la NASA

29/11/2023
Siguiente artículo
belleza única del turismo en Andalucía

Explorando la belleza única del turismo en Andalucía

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Facebook Twitter

Tu diario independiente con información y actualidad de la comunidad autónoma andaluza.

Secciones

  • Actualidad
  • Ciencia
  • Deportes
  • Economía y Criptomonedas
  • Entretenimiento
  • Hogar y Decoración
  • Motor
  • Salud
  • Tecnología
  • Turismo

¡Suscríbete a nuestra Newsletter!

Únete a nuestro boletín y se el primero en recibir las publicaciones de nuestro diario.

© 2021 Citandalucia - Todos los derechos reservados.

No hay resultados
Ver todos los resultados
  • Actualidad
  • Economía y Criptomonedas
  • Entretenimiento
  • Deportes
  • Hogar y Decoración
  • Motor
  • Salud
  • Turismo
  • Tecnología

© 2021 Citandalucia - Todos los derechos reservados.

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
Este sitio web utiliza Cookies. Si continuas navegando aceptas los términos y condiciones de nuestra Política de cookies.