Como o Reconhecimento de Emoções pode apoiar as terapias personalizadas? Um estudo exploratório sob a perspectiva da Computação Afetiva
##plugins.themes.bootstrap3.article.main##
Resumo
Introdução: A subárea da Inteligência Artificial que pesquisa sobre emoção em computadores é chamada de Computação Afetiva (PICARD, 1998), que busca desenvolver modelos e métodos de reconhecimento de emoções capazes de melhorar a Interação Humano-Computador (IHC). Pode-se entender as emoções como respostas fisiológicas involuntárias, visualmente distinguíveis e moldadas ao longo da vida (BOMFIM et al., 2019). Khateeb et al. (2021) explicam que as emoções desempenham um papel essencial no desenvolvimento social e pessoal de qualquer ser humano. Além dos sistemas de reconhecimento de emoções, a medicina personalizada tem ganhado destaque nos últimos anos. Segundo Motadi et al. (2023), a medicina personalizada é um método inovador capaz de alterar o diagnóstico, prevenção e tratamento de doenças considerando a individualização de cada indivíduo. Fazendo um recorte específico para as práticas terapêuticas, é válido destacar que sistemas de reconhecimento de emoções através de expressões faciais podem contribuir significativamente para sessões de terapias personalizadas e assertivas, principalmente para determinados públicos que possuem dificuldades de expressar as emoções, como idosos (FERREIRA e TORRO-ALVES, 2016) e crianças com transtorno do espectro autista (TEA) (TEH et al., 2018). Considerando que a capacidade de expressar e reconhecer as emoções por meio da face é um estágio fundamental da comunicação básica, não ser capaz de expressar as emoções podem fazer com que esse público tenha dificuldade de comunicar mensagens ou desconfortos associado a tratamentos e terapias. Objetivo: A fim de contribuir nesse contexto, esse estudo tem como objetivo propor um sistema de reconhecimento de emoções através das expressões faciais baseado numa abordagem tradicional de CNN (Convolutional Neural network). Metodologia: Para realização do experimento proposto nesse trabalho, utilizamos uma base de dados que denominamos de “completa”, composta pela junção e mesclagem de quatro bases de dados, que são: FER-2013 (Goodfellow et al., 2013), Chicago Face (Ma et al., 2015), KDEF (Lundqvist et al., 1998) e Yale Face (Belhumeur et al., 1997). A ideia de realizar a junção das bases de dados foi aproveitar dos benefícios e peculiaridade de cada uma. Após a organização da base completa, a mesma ficou composta por 41.137 imagens, distribuídas da seguinte forma: Feliz (10.011), Triste (6.792), Neutro (7.840), Medo (5.821), Raiva (5.807) e Surpreso (4.866). A divisão dos conjuntos de dados adotada foi 70% para treino/validação e 30% para teste. A arquitetura da CNN é composta por camadas que se diferenciam pelo número de filtros. Por exemplo, na camada 1 e 2, aplicamos 64 filtros. Para as camadas 3 e 4, foram utilizados 128 filtros. Nas camadas 5 e 6, definimos 256 filtros. Configurações em relação ao kernel, Max Pooling, Dropout, Batch Normalization, função de ativação, batch size e ephocs, também foram adotadas. Após o treinamento e teste da nossa CNN, utilizamos imagens estáticas de idosos para verificar o desempenho do modelo num contexto específico. Então, aplicamos o Haar Cascade Frontal Face (VIOLA e JONES, 2001) para realizar a detecção da face nas imagens e a CNN para classificação as emoções. Resultados: Como resultado, durante a etapa de treinamento o modelo obteve um bom desempenho em relação a acurácia (0.9077), Kappa (0.8873), Sensibilidade (0.9872), Especificidade (09979) e AUC (0.9898). Já o resultado obtido em relação a etapa de teste foi o seguinte: Acurácia (0.6905); Kappa (0.6725); Sensibilidade (0.8882); Especificidade (0.9823) e AUC (0.8981). A matriz de confusão da etapa de teste evidencia que de 12.341 imagens, o modelo classificou corretamente 8.576 imagens. Por outro lado, classificou de forma errônea 3.765 imagens. Em relação ao teste realizado com as imagens de idosos, o modelo teve um bom desempenho na classificação. Mas, o detector de face apresentou dificuldades de detectar corretamente algumas faces de idosos, apresentando erros em áreas delicadas, como rugas e dobras. Conclusão: Por fim, é válido destacar que os resultados obtidos neste trabalho são promissores, mas num caso de aplicação real, num contexto de terapias de idosos, por exemplo, existe grandes chances do desempenho não ser satisfatório. Pois, apesar do estudo apresentado ser exploratório, os insights obtidos reforçam a necessidade de utilizar dados e um detector de faces apropriado para o contexto específico da aplicação, que é de idosos.
Downloads
Não há dados estatísticos.
##plugins.themes.bootstrap3.article.details##
Seção
Engenharia da Computação e Sistemas