Treinando agentes robustos com aprendizagem por reforço interativo

##plugins.themes.bootstrap3.article.main##

Cristian Camilo Millán Arias
Bruno José Torres Fernandes, Dr. prof.
Francisco Javier Cruz Naranjo

Resumo

A aprendizagem por reforço (RL) é uma área de aprendizagem baseada em agentes artificiais que tomam ações em um ambiente tentando solucionar uma tarefa especifica. Esses agentes devem ser capazes de detectar um estado do ambiente e selecionar ações, de uma política, para atingir um novo estado. Para cada ação realizada, o agente recebe um sinal de recompensa do ambiente que tenta maximizar ao longo do aprendizado. Assim, o agente aprende com a sua própria experiência, tomando ações em diferentes estados e descobrindo quais delas produzem a maior recompensa (SUTTON; BARTO, 1998). A aprendizagem autônoma de um agente tem uma serie de limitações e dificuldades. A representação do ambiente pode produzir espaços de estados e ações de alta complexidade ou dimensionalidade. Assim, o agente devera explorar diferentes regiões do espaço para encontrar o par estado-ação que produza uma recompensa melhor e poder generalizar em futuras iterações, com o risco de cair em mínimos locais (HASSELT; WIERING, 2007). Além da dimensionalidade, não se tem certeza da estabilidade do ambiente, ou seja, se o ambiente permanece constante ao longo do tempo. Em ambientes dinâmicos, o agente pode aprender certas características do estado numa janela de tempo, mas a dinâmica provoca que em outro tempo os estados apresentem características diferentes. Desse modo, as ações que o agente seleciona em um determinado estado podem ser diferentes em diferentes etapas do treinamento. Sob essas dificuldades, um agente precisa um tempo excessivo para encontrar uma política ótima, sendo uma limitação em implementações do mundo real onde os ambientes são pouco controlados (CRUZ et al., 2016). Uma das metodologias para abordar esse problema é considerar que o agente RL pode ser orientado por um treinador para realizar a tarefa mais rapidamente. A aprendizagem por reforço interativo (IRL) é uma abordagem que permite a um treinador externo aconselhar um agente de RL através de um sinal de recompensa ou de controle (THOMAZ; BREAZEAL, 2006). Nesse processo, o treinador orienta ao agente levando-o a melhorar o desempenho da tarefa e agilizar o aprendizado. Permitindo assim que ele reduza o espaço de busca e aprenda uma solução mais rápida em comparação com um agente por exploração autônoma. Embora se tenha um ganho na exploração e no tempo de aprendizado, o sinal que o treinador aporta no agente pode não conter informação sobre a dinâmica do ambiente. A aprendizagem por reforço robusta é uma abordagem robusta, desenvolvida por Morimoto e Doya (2005) e baseada na teoria do controle H∞, que permite resistir perturbações presentes no ambiente. A ideia principal é filtrar do sinal de recompensa toda informação sobre a perturbação que modifica o estado. Dessa forma, o sinal que recebe o agente seja do desempenho da ação sobre o estado e não sobre a influência da perturbação do estado. Esse filtro permite que o agente aprenda que ações selecionar em determinado espaço ainda quando o ambiente modifique as características durante o após do treinamento. Nesse trabalho, propõe-se a abordagem robusta de aprendizagem por reforço interativo (IRRL), uma abordagem para treinar agentes usando IRL em ambientes dinâmicos com espaço de estados e ações continuo. A ideia principal é combinar o treinador externo da abordagem de IRL com a abordagem robusta do RRL. Como metodologia utilizada, foi implementada a abordagem continua do IRL proposta por Millán et al. (2019) que mistura a fonte de variação do treinador (a política do treinador), e a fonte de variação do agente (a política do agente). Para atingir a dinâmica do ambiente, foi implementado o actor-disturber-critic (MORIMOTO & DOYA, 2005) usando gradientes de política (SUTTON et al., 1999).  Para testar a abordagem, foi implementado o problema do cart-pole balancing e o pêndulo invertido. Os valores do atrito foram variados durante o treinamento para simular a dinâmica do ambiente. Também foi testado o desempenho da abordagem usando diferentes valores de parâmetros. Como treinador externo foi implementado um oráculo, que da informação de como empurrar o carro ou o pêndulo no ambiente. Os resultados mostram que a abordagem proposta permite que um agente complete a tarefa de maneira satisfatória, ainda quando o atrito do ambiente é modificado. Além disso, a abordagem proposta reduz o tempo de treinamento em comparação a um agente autônomo. Em termos de recompensa, os agentes alcançaram a recompensa cumulativa máxima depois de certo número de episódios. Por outro lado, quando o agente recebe aconselhamento o 70% das vezes, no começo do treinamento o agente recebe uma recompensa menor que um agente que não recebe aconselhamento, mas atinge a máxima recompensa acumulada no final do treinamento.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas
Biografia do Autor

Cristian Camilo Millán Arias, Universidade de Pernambuco

Mestrando en Engenharia da Computação.