Arquiteturas leves de aprendizagem profunda para otimizar o tempo de reforço

##plugins.themes.bootstrap3.article.main##

Lucas Matheus da Silva Oliveira
Bruno José Torres Fernandes
Angel Ayala

Resumo

Reinforcement Learning (RL) é um método de aprendizagem de máquina que consiste em criar um agente que possa aprender com base em um sistema de tentativa-erro, este agente recebe uma recompensa ou uma punição para cada ação que executa, desta forma ele consegue encontrar uma solução para um determinado problema. Pode-se dizer que o objetivo principal do RL é maximizar a recompensa a longo prazo. Apesar da sua capacidade, o RL tem um problema de execução, isto porque o processo de treinamento pode levar mais tempo que o necessário para ser completado, podendo gerar um overfitting do modelo, ou seja, o modelo se ajusta muito bem ao conjunto de dados observados, mas se mostra bastante ineficaz para prever novos resultados. Lidar com o overfitting na aprendizagem por reforço é algo que vem sendo analisado na literatura através de abordagens como memorizar tarefas aleatórias, ou até mesmo modificar o espaço de observação. O algoritmo proposto por Zhang realiza um estudo sistemático do comportamento de overfitting e generalização de padrões profundos do agente, utilizando um ambiente de labirinto altamente configurável que gera jogos com diversas dificuldades e regularidades. Esta abordagem é importante para a solução do overfitting uma vez que o agente conseguiria lidar com diversas situações e estados, conseguindo generalizar mais a aprendizagem. Os resultados obtidos por Zhang, dizem que o algoritmo indutivo corresponde bem à tarefa, um bom desempenho de generalização pode ser obtido. No entanto, a caracterização formal de um algoritmo, e a compreensão teórica do desempenho da generalização de agentes sobre-parametrizados ainda está amplamente aberto. Os parâmetros podem afetar a velocidade de aprendizagem, levando o agente a treinar por muito tempo, além disso, não saber até que ponto o modelo deve ser treinado pode levar à um overload dos estados, o que leva à um overfitting do modelo, e isto pode diminuir os resultados. Desta forma, surge a necessidade da realização deste projeto, que tem como objetivo desenvolver um método que evite que o agente treine mais que o devido, assim diminuindo o tempo de treinamento necessário do agente, além de evitar o sobreajuste do modelo para o controle autônomo de um veículo aéreo não-tripulado (do inglês unmanned aerial vehicle, UAV), capaz de reconhecer e aproximar-se à posição do fogo em um cenário simulado. Inicialmente, a proposta foi realizada através de dois cenários experimentais, o cenário do Cartpole (de complexidade mais baixa) e do Space Invaders (de complexidade mais alta), a fim de que uma proposta para paralisar o treino no momento certo fosse estabelecida. Com isso, foi desenvolvida uma técnica que consiste na interrupção do processo de treinamento no momento em que o agente alcança uma recompensa estabelecida, e logo em seguida, com o objetivo de diminuir o treinamento desnecessário do agente, para evitar um sobre-ajuste do modelo e consequentemente melhorar os resultados. Além disso, foram utilizados algoritmos derivados da Aprendizagem por Reforço Profunda (do inglês Deep Reinforcement Learning, DRL) que é um subcampo do aprendizado de máquina que combina aprendizado por reforço e aprendizado profundo, como o Deep Q-Network (DQN) que é uma variação do Q-Learning, e o Experience Replay que é um componente crucial dos algoritmos utilizados no DRL, este melhora a eficiência da amostra e a estabilidade do treino armazenando interações que foram anteriormente vivenciadas pelo agente no ambiente. Os resultados obtidos nesta pesquisa mostram que a proposta implementada é eficaz diante ambientes cuja complexidade, dimensão do estado e dimensão das ações são baixas, como o Cartpole. Já para outros casos os resultados não convergem à uma ótima performance, como no caso do Space Invaders, desta forma se mostra necessária um estudo mais abrangente do caso para melhoria da técnica. 
Palavras-chave: Reinforcement-Learning, Overfitting, DQN, DRL.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas