Comportamento de agentes cognitivos em ambientes proxêmicos usando aprendizagem por reforço

##plugins.themes.bootstrap3.article.main##

Cristian Camilo Millán Arias
Bruno José Torres Fernandes
Francisco Cruz

Resumo

A proxêmica é o estudo do comportamento espacial, em relação com a territorialidade, distância interpessoal, arranjos espaciais, multidões e outros aspectos do ambiente físico que afetam o comportamento. O termo foi proposto por Hall et al. (1968), onde ele propôs uma medida fixa do espaço pessoal, uma coleção de regiões ao redor de uma pessoa que delimita a distância aceitável para interagir com outras pessoas. Nos últimos anos, a interação humano-agente tomou conta da comunidade científica, onde novas tecnologias incorporaram agentes artificiais (máquinas, computadores, robôs) em ambientes humanos. Além disso, a humanização dos agentes/robôs é um evento esperado, dada a natureza humana em relação com outros seres (GIGER et al., 2019). Com isso, uma ótima interação é necessária entre os agentes e as pessoas (CHURAMANI et al., 2020). A aprendizagem por reforço é um paradigma de aprendizado que tenta dar solução ao problema de um agente interagindo com o ambiente para aprender uma tarefa específica de forma autônoma (SUTTON e BARTO, 2018). O agente tem que ser capaz de sentir o estado do ambiente e tomar ações que afetam-lo para alcançar o novo estado. Ele recebe um sinal de recompensa do ambiente e tenta maximizar durante a aprendizagem para cada ação tomada. Além disso, o agente seleciona ações da sua própria experiência, ou pode ser guiado por um treinador externo que provê uma retroalimentação (MILLÁN-ARIAS et al., 2021). O comportamento proxêmica tem sido estudado junto com agentes cognitivos, por exemplo, para determinar o comportamento das pessoas na presencia de robôs, para determinar a percepção do espaço pessoal, e em navegação socialmente aceitável, onde os agentes têm que alcançar um objetivo (geralmente um local) sem gerar desconforto às pessoas no local (LUBER et al., 2012). No entanto, os ambientes implementados nesses problemas consideram que o espaço pessoal é fixo e que permanece constante no tempo. Essas características são opostas aos ambientes humanos, onde as pessoas modificam seu comportamento espacial baseado em diferentes aspectos (SHUTER, 1976). Neste trabalho, estuda-se como é o comportamento de um agente em ambientes baseados no comportamento proxêmico. Para estudar esse comportamento, foi proposto uma modificação do GridWorld. Nesse ambiente, um agente interno, o issuer, é localizado em um dos estados da quadrícula, sendo o responsável de dar um sinal de desagrado quando o agente de aprendizado está próximo. Em torno do issuer são definidas duas regiões, a região de desconforto e a região objetivo. A primeira região são aqueles estados que criam um quadrado no redor do issuer, a segunda região são aqueles estados que criam um quadrado ao redor da região de desconforto. Uma nova ação, o PING, é proposta para esse ambiente, em adição com as tradicionais ações, UP, DOWN, LEFT, RIGHT. A nova ação representa um sinal de comunicação com o issuer, é dizer, o agente envia o sinal ao issuer perguntando se ele esta na região objetivo. Para explorar o comportamento do agente no ambiente, foi aplicado o algoritmo Q-learning (WATKINS e DAYAN, 1992) no GridWorld. Foram considerados três cenários baseados na informação que o issuer dá ao agente, enquanto este último se aproxima. No primeiro cenário, o issuer não dá informação (um sinal numérico zero). No segundo cenário, o issuer da informação errônea ao agente (um sinal numérico aleatório). Por fim, no terceiro cenário, o issuer da informação baseado na distância ao agente, onde a recompensa diminui enquanto o agente está longe do issuer, e aumenta na medida que o agente se aproxima. Para a análise dos resultados foram comparados os Q-values dos três cenários, e a distribuição dos Q-values no mesmo GridWorld. Os resultados mostraram que o agente pode alcançar a região objetivo, ainda quando o issuer não dá a suficiente informação. Por outro lado, a recompensa do issuer da maior informação sobre como o agente tem que selecionar a ação PING, ainda quando a informação é errônea. Por fim, é possível identificar a região objetivo com os Q-values da ação PING. Essa região é mais visível no terceiro cenário, quando o agente recebe informação baseada na distância. Identificar o espaço pessoal é um dos principais desafios no estudo da proxêmica. Pelo que o uso da aprendizagem por reforço pode proporcionar uma estimação do espaço pessoal, além da política de como mover o agente. Como continuidade deste trabalho, serão implementadas regiões proxêmicas assimétricas com a finalidade de imitar o comportamento humano. Também será considerado que a região pode mudar por fatores externos. Por fim, será estudado o comportamento do agente em ambientes de maior complexidade, envolvendo algoritmos e técnicas da aprendizagem por reforço e aprendizagem profunda.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas
Biografia do Autor

Cristian Camilo Millán Arias, Universidade de Pernambuco, Escola Politêcnica de Pernambuco

Mestrando en Engenharia da Computação.