banner

blog

Jan 12, 2024

O jogo encontra a física quântica

By Computação Inteligente 23 de agosto de 2023

Os cientistas introduziram um esquema de aprendizagem por reforço fotônico, progredindo do problema estático do bandido multi-armado para um ambiente dinâmico, usando a interferência quântica de fótons para melhorar a tomada de decisões. Eles desenvolveram um algoritmo modificado de Q-learning do bandido, testado em um mundo de grade 5×5, com o objetivo de aprender com precisão o valor Q ideal para cada par estado-ação enquanto equilibra exploração e exploração.

Como um jogador maximiza os ganhos em uma fileira de caça-níqueis? Esta questão inspirou o “problema do bandido multi-armado”, uma tarefa comum na aprendizagem por reforço em que “agentes” fazem escolhas para ganhar recompensas. Recentemente, uma equipe internacional de pesquisadores, liderada por Hiroaki Shinkawa, da Universidade de Tóquio, introduziu um método avançado de aprendizagem por reforço fotônico que faz a transição do problema estático do bandido para um cenário dinâmico mais complexo. Suas descobertas foram publicadas recentemente na revista Intelligent Computing.

O sucesso do esquema depende tanto de um sistema fotônico para melhorar a qualidade do aprendizado quanto de um algoritmo de suporte. Olhando para uma “implementação fotônica potencial”, os autores desenvolveram um algoritmo bandit Q-learning modificado e validaram sua eficácia por meio de simulações numéricas. Eles também testaram seu algoritmo com uma arquitetura paralela, onde vários agentes operam ao mesmo tempo, e descobriram que a chave para acelerar o processo de aprendizagem paralela é evitar decisões conflitantes, aproveitando a interferência quântica dos fótons.

Embora o uso da interferência quântica de fótons não seja novo neste campo, os autores acreditam que este estudo é “o primeiro a conectar a noção de tomada de decisão cooperativa fotônica com Q-learning e aplicá-la a um ambiente dinâmico”. Os problemas de aprendizagem por reforço são geralmente definidos em um ambiente dinâmico que muda com as ações dos agentes e são, portanto, mais complexos do que o ambiente estático em um problema bandido.

O agente escolhe uma das quatro ações indicadas pelas setas pretas, recebe uma recompensa e segue para a próxima célula. Se o agente chegar em qualquer uma das duas células especiais A ou B, a recompensa é grande e o agente salta para outra célula, conforme mostrado pelas setas vermelhas. Crédito: Hiroaki Shinkawa et al.

Este estudo tem como alvo um mundo em grade, uma coleção de células contendo recompensas variadas. Cada agente pode subir, descer, esquerda ou direita e receber uma recompensa com base em seu movimento e localização atuais. Neste ambiente, o próximo movimento do agente é determinado inteiramente pelo seu movimento e localização atuais.

As simulações neste estudo utilizam uma grade de células 5 × 5; cada célula é chamada de “estado”, cada movimento feito por um agente em cada intervalo de tempo é chamado de “ação”, e a regra que determina como um agente seleciona uma determinada ação em cada estado é chamada de “política”. O processo de tomada de decisão é concebido como um cenário de problema de bandido, onde cada par estado-ação é considerado como uma máquina caça-níqueis e as mudanças no valor Q – os valores dos pares estado-ação – são consideradas como recompensas.

Ao contrário dos algoritmos básicos de Q-learning, que geralmente se concentram em encontrar o caminho ideal para maximizar as recompensas, o algoritmo bandit Q-learning modificado visa aprender o valor Q ideal para cada par estado-ação em todo o ambiente, de forma eficiente e precisa. Portanto, é essencial para um agente manter um bom equilíbrio entre “explorar” os pares familiares com valores altos para um aprendizado mais rápido e “explorar” pares não freqüentados para valores potencialmente mais altos. O algoritmo softmax, um modelo popular que se destaca nesse tipo de balanceamento, é usado como política.

A prioridade futura dos autores é projetar um sistema fotônico que apoie a tomada de decisões sem conflitos entre pelo menos três agentes, esperando que sua adição ao esquema proposto ajude os agentes a evitar a tomada de decisões conflitantes. Enquanto isso, eles estão planejando desenvolver algoritmos que permitam aos agentes agir continuamente e aplicar seu algoritmo bandit Q-learning a tarefas de aprendizagem por reforço mais complicadas.

COMPARTILHAR