Aprendizado por reforço em espaço de ações contínuo

##plugins.themes.bootstrap3.article.main##

Cristian Camilo Millán Arias
Bruno José Torres Fernandes
Francisco Javier Cruz Naranjo

Resumo

O aprendizado por reforço (RL) é um enfoque de aprendizagem baseado no comportamento psicológico onde um agente, capaz de interagir com o ambiente, tenta encontrar a melhor forma ou política de aprendizado para desenvolver uma tarefa. O agente seleciona uma ação que modifica o estado e recebe uma quantidade de recompensa. O objetivo final do agente será maximizar a recompensa recebida durante a aprendizagem (SUTON; BARTO, 1998). Em diferentes aplicações do RL o espaço de ações é discretizado, mas a informação contida no espaço não é representada adequadamente (PETERS; SHALL, 2008). Os algoritmos do RL são adaptados para trabalhar no espaço continuo, um dos mais utilizados é o Actor-Critic (SUTON; BARTO, 1998) o que caracteriza-se por separar a seleção das ações e a forma de como são julgadas. Em algumas situações deixar que o agente aprenda por ele mesmo uma tarefa não é prático e envolve problemas para encontrar a melhor política (KNOX; STONE, 2009). O Aprendizado por reforço interativo (IRL) considera um treinador experiente o qual dá feedback ao agente para selecionar ações que tenham uma relação maior com o desenvolvimento da tarefa (SUAY; CHERNOVA, 2001). No entanto, este enfoque não é prático pelo uso do espaço de ações discreto. Este trabalho apresenta uma metodologia para implementar aprendizado por reforço interativo em espaço de ações continuo. Baseado no algoritmo Actor-Critic, a metodologia modifica a seleção de ações adicionando uma fonte de variação que depende do feedback do treinador. A metodologia é implementada em um ‘benchmark’, o cartpole balancing, para comprovar a performance do algoritmo. Foram realizadas comparações entre a recompensa recebida pelo agente no algoritmo de RL e no algoritmo IRL proposto. Finalmente encontra-se que nestes algoritmos o agente aprende em menos iterações a completar a tarefa, também a recompensa recebida é maior em comparação com os algoritmos RL.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas
Biografia do Autor

Cristian Camilo Millán Arias, Universidade de Pernambuco

Mestrando en Engenharia da Computação.

Bruno José Torres Fernandes, Universidade de Pernambuco

Engenharia da Computação.

Referências

KNOX, W. Bradley; STONE, Peter. Interactively shaping agents via human reinforcement: The TAMER framework. In: Proceedings of the fifth international conference on Knowledge capture. ACM, 2009. p. 9-16.

PETERS, Jan; SCHAAL, Stefan. Reinforcement learning of motor skills with policy gradients. Neural networks, v. 21, n. 4, p. 682-697, 2008.

SUAY, Halit Bener; CHERNOVA, Sonia. Effect of human guidance and state space size on interactive reinforcement learning. In: RO-MAN, 2011 IEEE. IEEE, 2011. p. 1-6.

SUTTON, Richard S. et al. Reinforcement learning: An introduction. MIT press, 1998.