Reconhecimento de Emoções através de uma Arquitetura Híbrida baseada em Transfer Learning: Potenciais aplicações na área da Saúde

##plugins.themes.bootstrap3.article.main##

Arianne Sarmento Torcate
Wellington Pinheiro dos Santos
Maíra Araújo de Santana
Caylanne Mayssa de Lima Simões

Resumo

Introdução: Pode-se compreender as emoções como um processo misto que envolve componentes inter-relacionados, como: sentimentos, respostas fisiológicas e aspectos comportamentais. Esses elementos interagem entre si e têm um impacto direto na comunicação e na vida cotidiana de indivíduos (Adyapady e Annappa, 2023; Khateeb et al., 2021). Com o avanço da tecnologia e sua integração cada vez maior no cotidiano das pessoas, ela tem se tornado uma ferramenta essencial em diversas áreas, especialmente na saúde. Fazendo um recorte específico para esta área, a tecnologia tem contribuído significativamente para o desenvolvimento de dispositivos médicos voltados para diagnósticos, tratamentos, monitoramento, reabilitação, terapias e prevenção de doenças. No contexto das terapias, os sistemas de reconhecimento de emoções baseados em expressões faciais podem ser uma ferramenta com alto potencial, especialmente para públicos que enfrentam dificuldades em expressar suas emoções, como idosos com demências e crianças com algum transtorno de desenvolvimento (Torcate et al., 2023). Neste caso, a dificuldade em expressar emoções pode impedir que essas pessoas comuniquem mensagens importantes ou relatem desconfortos associados aos tratamentos terapêuticos (Torcate et al., 2024). Objetivo: A fim de contribuir nesse contexto, este trabalho tem como objetivo apresentar um comparativo de abordagens de pré-processamento de dados para compor uma arquitetura híbrida (baseada em InceptionV3 e Random Forest) que será utilizada para compor um sistema que irá realizar reconhecimento de emoções através de expressões faciais, tornando-se uma ferramenta em potencial e alternativa para ser aplicada na área da saúde, com foco em terapias. Metodologia: As arquiteturas híbridas utilizadas nos experimentos são compostas por duas etapas. A primeira é responsável pela extração de atributos, onde a rede InceptionV3 pré-treinada com ImageNet foi aplicada (usando aprendizagem por transferência, do inglês, Transfer Learning). Posteriormente, a segunda etapa foi a de classificação utilizando um Random Forest de 400 árvores. Para realização dos experimentos relatados neste estudo, a base de expressões faciais demograficamente diversificada e de alta resolução, denominada de Chicago Face Database (CFD) (Ma et al., 2015) foi utilizada, além de suas duas extensões (CFD-INDIA e CFD-MR). No geral, esta base é composta por 1.434 imagens, distribuídas nas classes de Neutro (824), Surpreso (149), Raiva (154) e Feliz (307). O conjunto de treinamento/validação e teste foram separados em 70% e 30%, respectivamente. Para identificar a melhor estratégia de pré-processamento para compor as arquiteturas híbridas, foi explorado três abordagens, que são: (i) Dados Desbalanceados; (ii) Classes balanceadas com o método SMOTE (Synthetic Minority Over-sampling TEchnique) (Chawla et al., 2002) e (iii) classes balanceadas com SMOTE e seleção de atributos com PSO (Particle Swarm Optimization) (Kennedy e Eberhart, 1995). Com o intuito de obter dados estatísticos, cada abordagem foi executada com 30 repetições utilizando o método de Cross-Validation, com 10 folds. Para avaliar o desempenho das arquiteturas, as métricas utilizadas foram: Acurácia, índice Kappa, Sensibilidade, Especificidade e Área sob a curva ROC (AUC). Resultados: Na etapa de treinamento, utilizando a abordagem com os dados desbalanceados (i), o resultado obtido referente a acurácia, kappa, sensibilidade, especificidade e AUC foram 71,05% (±2,82), 0,42 (±0,07), 0,54 (±0,10), 0,97 (±0,02) e 0,93 (±0,03), respectivamente. Os resultados aumentaram significativamente com a abordagem utilizando SMOTE (ii), com acurácia de 95,09 (±1,45), kappa 0,93 (±0,02), sensibilidade 0,97 (±0,02), especificidade 0,99 (±0,01) e AUC 1,00 (±0,00). Assim como a sensibilidade, o índice kappa apresentou melhora, indicando maior concordância na classificação. Os resultados obtidos na abordagem com SMOTE e seleção de atributos com PSO (iii) referente a acurácia (95,02 ± 1,41), kappa (0,93 ± 0,02), sensibilidade (0,97 ± 0,03), especificidade (0,99 ± 0,01) e AUC (1,00 ± 0,00), demonstram que a arquitetura híbrida nesta abordagem conseguiu obter bons resultados com apenas 31.01% (equivalente a 635) dos atributos da InceptionV3 (que possui originalmente 2.048 atributos). Então, com base na análise dos resultados, consideramos que a abordagem 3 de pré-processamento é a melhor para compor a arquitetura híbrida proposta. Identificando esse fato, posteriormente foi verificado o desempenho desta configuração na etapa de teste, que obteve acurácia de 92,31%, kappa de 0,88, sensibilidade de 0,92, especificidade de 0,96 e AUC de 0,99, demonstrando boa capacidade de generalização e custo computacional minimizado. Conclusões: A arquitetura proposta neste trabalho visa ser parte de um sistema robusto de reconhecimento de emoções através de expressões faciais, destinado principalmente a terapeutas, a fim de fornecer biofeedback dos estados afetivos dos pacientes, auxiliando assim na customização e personalização do tratamento, tornando as intervenções terapêuticas mais precisas e eficazes.
 
Palavras-chave: Reconhecimento de Emoções; Arquiteturas Híbridas; Transfer Learning; Aplicações na Saúde com foco em terapias.
 
Referências
 
ADYAPADY, R. Rashmi; ANNAPPA, B. A comprehensive review of facial expression recognition techniques. Multimedia Systems, v. 29, n. 1, p. 73-103, 2023.
CHAWLA, Nitesh V. et al. SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research, v. 16, p. 321-357, 2002.
KHATEEB, Muhammad; ANWAR, Syed Muhammad; ALNOWAMI, Majdi. Multi-domain feature fusion for emotion classification using DEAP dataset. Ieee Access, v. 9, p. 12134-12142, 2021.
KENNEDY, James; EBERHART, Russell. Particle swarm optimization. In: Proceedings of ICNN'95-international conference on neural networks. ieee, 1995. p. 1942-1948.
MA, Debbie S.; CORRELL, Joshua; WITTENBRINK, Bernd. The Chicago face database: A free stimulus set of faces and norming data. Behavior research methods, v. 47, p. 1122-1135, 2015.
TORCATE, Arianne Sarmento; DE SANTANA, Maíra Araújo; DOS SANTOS, Wellington Pinheiro. Emotion Recognition to Support Personalized Therapy: An Approach Based on a Hybrid Architecture of CNN and Random Forest. In: 2023 IEEE Latin American Conference on Computational Intelligence (LA-CCI). IEEE, 2023. p. 1-6.
TORCATE, Arianne Sarmento; DE SANTANA, Maíra Araújo; DOS SANTOS, Wellington Pinheiro. Emotion recognition to support personalized therapy in the elderly: an exploratory study based on CNNs. Research on Biomedical Engineering, p. 1-14, 2024.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas