Um estudo de navegação baseada em comunicação proxêmica usando aprendizagem por reforç
##plugins.themes.bootstrap3.article.main##
Resumo
Durante o processo de interação, as pessoas deveriam se sentir confortáveis quando percebem que outra está se aproximando, respeitando o espaço íntimo e as regras sociais. A comunicação proxêmica é o estudo do comportamento espacial que corresponde a territorialidade, distância interpessoal, distribuição espacial, agrupações e outros aspectos do ambiente que afetam o comportamento. A comunicação proxêmica foi estudada principalmente por Hall et al. (1963), além de propor a terminologia da área. No seu trabalho, ele estuda o comportamento de um grupo de pessoas durante uma rotina cotidiana, medindo o espaço pessoal de cada interação. Baseado nisso, ele propôs uma medida fixa do espaço pessoal separada em quatro distâncias: distância íntima, distância pessoal, distância social e distância pública. Esse tipo de comunicação tem sido de interesse nos últimos anos na comunidade científica (ZACHARAKI et al., 2020), o uso de robôs e agentes artificiais em ambientes humanos assume que eles devem se comportar como as pessoas. A comunicação proxêmica tem sido aplicada em diferentes áreas com agentes artificiais, uma delas é a interação humano-robô que estuda o comportamento de pessoas na presença de agentes artificiais ou robôs e como os últimos percebem o espaço pessoal (MUMM e MUTLU, 2011). Além disso, estratégias de aprendizagem de máquina têm sido usadas para identificar regiões íntimas ou espaços sociais (PATOMPAK et al, 2020). No entanto, essas implementações consideram que o espaço pessoal é fixo e que o agente cognitivo o conhece previamente. Essas considerações não são precisas em cenários reais e não projetam a realidade do comportamento humano. Diferentes características modificam dinamicamente o espaço pessoal, como a cultura, os entornos familiares, e as experiências vividas, fazendo que a identificação do espaço pessoal seja complexa e precise informação externa para identificá-lo. Um dos maiores desafios é treinar esses agentes em ambientes desconhecidos ou que não tenham informação prévia. A aprendizagem por reforço tenta dar solução ao problema de um agente que interage com um ambiente para aprender uma tarefa autonomamente. O agente recebe um sinal de recompensa do ambiente que tenta maximizar durante a aprendizagem para cada ação executada. O agente seleciona as ações da sua própria experiência ou pode ser orientado por um treinador externo que dá conselhos (MILLÁN-ARIAS et al, 2021). No sentido de aproximação, a aprendizagem por reforço é amplamente utilizada para que o agente aprenda a controlar seu movimento e deslocamento no espaço, ele percebe o agente cognitivo como um obstáculo ou objetivo evitando uma colisão. Neste trabalho foi estudado como um agente de aprendizagem por reforço aprende a se aproximar a outro agente cognitivo em um ambiente baseado em comunicação proxêmica. Para isso foi proposto um ambiente simulado, ”the robot approaching problem” (MILLÁN-ARIAS et al., 2022), onde um agente de aprendizagem tem que se aproximar a um agente cognitivo, o emissor. Em cada iteração, o estado do agente é dado pela posição, sua orientação e a taxa de giro. As ações são a taxa de giro desejada e o logit da probabilidade de parar. Por fim, o emissor dá um sinal de informação quando o agente está perto dele. O ambiente foi estudado em duas variações, na primeira variação duas regiões são definidas, a região desconfortável e a região alvo. A região desconfortável é uma área circular de diâmetro fixo, que imita o espaço íntimo de uma pessoa. Se o agente invade essa área, ele recebe uma recompensa negativa e a tarefa termina. A região alvo é uma área circular de diâmetro fixo estritamente maior que o diâmetro da região desconfortável, esta região imita o espaço social. O objetivo do agente é parar na região alvo. As duas regiões são concêntricas e centradas na posição do emissor. Na segunda variação, também são definidas duas áreas, a área de desacordo e a área de acordo. A área de desacordo é uma área circular de diâmetro fixo com centro no emissor. Essa área é composta por duas subáreas concêntricas, a área de parada e a área de não parada. Na primeira área, o agente é livre de se mover, mas recebe uma recompensa negativa em cada iteração. Na segunda, o agente para quando alcança essa área. A área de desacordo imita o espaço privado de uma pessoa quando não tem uma interação íntima ou de contato físico. A área de não parada permite que o agente não chegue tão perto do emissor. A área de acordo inclui todos os pontos do espaço fora da área de desacordo. Nessa área, o agente é indiferente do comportamento do emissor, exceto quando o agente para nessa área. Para a análise dos resultados foram comparadas as curvas de recompensa média e as trajetórias dos agentes para diferentes valores iniciais de posição e orientação. Os resultados mostraram que o agente consegue aprender uma sequência de ações para se aproximar ao emissor. Na primeira variação do ambiente, o agente consegue parar na região alvo sem invadir a região desconfortável. As trajetórias são satisfatórias, e conseguem alcançar o alvo em diferentes posições e orientações.Por outro lado, a probabilidade de parar classifica o espaço em duas regiões, uma onde o agente não para e outra onde tem uma probabilidade maior de 0.8 de parar. Na segunda variação, o agente consegue parar antes da área de desacordo de não parar, ou seja, embora o agente possa invadir a área de não parar, ele prefere parar na fronteira da área de desacordo. Nesta variação, a probabilidade de parar demarca uma região do espaço onde o agente não executa ações. Em geral, os agentes conseguem terminar a tarefa satisfatoriamente, mas não generalizam em regiões longes do valor inicial, isso pois a posição inicial do agente é fixa em todos os episódios. Por outra parte, a probabilidade de parar proporciona uma estimação do espaço pessoal do emissor, no entanto o agente é conservativo no seu deslocamento e prefere não se aproximar tão perto, ainda que ele possa se aproximar mais perto. Os resultados mostram como a aprendizagem por reforço pode apoiar na identificação de espaços pessoais, além de controlar o movimento do agente. Como continuidade deste trabalho, serão implementadas regiões proxêmicas assimétricas com a finalidade de imitar o comportamento humano. Também será considerado que a região pode mudar por fatores externos. Por fim, será estudado o comportamento do agente em ambientes de maior complexidade, envolvendo algoritmos e técnicas da aprendizagem por reforço e aprendizagem profunda.
Downloads
Não há dados estatísticos.
##plugins.themes.bootstrap3.article.details##
Edição
Seção
Engenharia da Computação e Sistemas