Como reconhecer automaticamente emoções em pessoas idosas? Uma abordagem a partir da análise de vídeo por aprendizagem de máquina e modelagem por regressão

##plugins.themes.bootstrap3.article.main##

Arianne Sarmento Torcate
Maíra de Araújo Santana
Wellington Pinheiros dos Santos

Resumo

A perda da capacidade de expressar as emoções por meio da face surge junto ao processo natural de envelhecimento de qualquer ser humano, devido a mudanças na percepção e cognição. Pesquisas na literatura (FERREIRA e TORRO-ALVES, 2016; GRONDHUIS et al., 2021; KO et al., 2021) destacam pelo menos quatro causas possíveis, que referem-se ao (i) comprometimento de estruturas cerebrais responsáveis pelo processamento das emoções; (ii) questões relacionados ao processo natural do envelhecimento, como rugas e dobras que mascaram a emoção exibida; (iii) a teoria da seletividade socioemocional e a (iv) atrofia do esqueleto facial, perda de tecido mole e mau posicionamento dos músculos. Além disso, os idosos aprendem a modular sentimentos, este fato implica para que os mesmos tenham dificuldades de expressar suas reais emoções faciais. Consequentemente, os idosos podem não ser capazes de sinalizar e/ou reconhecer situações de risco que coloquem em perigo sua integridade física, assim como também podem ter dificuldades de comunicar mensagens importantes, como o desconforto associado a tratamentos. Como parte específica de um projeto maior, este trabalho teve como objetivo realizar a predição do estado emocional de idosos a partir do parâmetro de valência, utilizando a base de dados ElderReact (MA et al., 2019), que é um conjunto de dados multimodal (possui dados de áudio e vídeo) referente às emoções de idosos. Ao todo, a base de dados é composta por 1.323 videoclipes que possuem anotações de 6 emoções básicas (raiva, nojo, medo, felicidade, tristeza e surpresa) e valência. É válido destacar que neste trabalho foi utilizado apenas os dados de vídeo e que a própria base já possui o processo de extração de atributos. Após explorar a base de dados ElderReact foi identificado que, em relação as anotações das classes de emoções, existem poucas instâncias e estas pertencem a mais de uma classe de emoção, ocasionando em muitas repetições que dificultam o processo de aprendizado dos algoritmos no que se refere na diferenciação de cada emoção. Sabendo disso, optou-se por utilizar os valores de valência, mas aplicando a Regra de Sturges (FALCO, 2016) para categorizar os valores em classes, ou seja, não utilizar os dados para resolver um problema através de regressão estimando um determinado valor, mas considerar um intervalo de valores e categorizar em classes. Então, foi calculado o Optimal Number of Classes (ONC) através da fórmula: ONC = 1 + 3,33 * log (N), onde N é o número de dados que tem no dataset. Posteriormente, foi calculado o Optimal Class Width (OCW), utilizando a fórmula: OCW = range / OOC, onde “range” é o intervalo do conjunto de dados (Vmax - Vmin). Esse procedimento resultou em 11 classes responsáveis por agrupar os valores de valência. Para melhor compreensão, pode-se dividir o percurso metodológico em 6 etapas, são elas: 1) conversão das saídas em classes aplicando a Regra de Sturges; 2) Divisão dos conjuntos de dados (sendo 70% para treino/teste e 30% para validação); 3) Balanceamento do conjunto de treino/teste aplicando o SMOTE (Synthetic Minority Oversampling TEchnique) (CHAWLA et al., 2002); 4) Seleção de atributos aplicando otimização por enxame de partículas (Particle Swarm Optimization - PSO) (KENNEDY e EBERHART, 1995) no conjunto de dados balanceado; 5) Realização da classificação (com os seguintes algoritmos: Bayes Net, Naive Bayes, J48, Random Forest com configurações de 10 e 400 árvores, SVM com configurações de kernel RBF de 0.01 e 0.50) utilizando os conjuntos de dados de treino/teste desbalanceado (abordagem 1), balanceado (abordagem 2) e balanceado com seleção de atributos (abordagem 3); 6) Análise dos resultados e validação da melhor abordagem através de métricas como acurácia, kappa, sensibilidade, especificidade e área sob a curva ROC (AUC). Os experimentos foram realizados no software Weka (WITTEN et al., 2005) e executados com 30 repetições para obtenção de dados estatísticos e cálculo do desvio padrão. Como resultado, a abordagem 1 (base desbalanceada, composta por 1.419 atributos e 425 instâncias) teve como pior algoritmo o Naive Bayes no que se refere a acurácia (12.80% ± 4.54), kappa (0.0379 ± 0.0500), sensibilidade (0.2429 ± 0.3763), especificidade (0.9761 ± 0.0218) e AUC (0.6344 ± 0.3739). Por outro lado, o melhor algoritmo foi o Random Forest com 400 árvores relativo a acurácia (22.22% ± 5.58), kappa (0.1018 ± 0.0644), sensibilidade (0 ± 0), especificidade (0.9995 ± 0.0036) e AUC (0.7373 ± 0.2301). Por outro lado, a abordagem 2 (base balanceada, composta por 1.419 atributos e 750 instâncias) apresentou melhores resultados, onde o Random Forest de 400 árvores se destacou positivamente quanto a acurácia (62.53% ± 4.52), kappa (0.5875 ± 0.0498), sensibilidade (1 ± 0); especificidade (0.9824 ± 0.0171) e AUC (0.9999 ± 0.0005). Já o Naive Bayes apresentou o pior resultado (acurácia: 34.88% ± 3.94; kappa: 0.2827 ± 0.0434; sensibilidade: 0.8543 ± 0.1616; especificidade: 0.9867 ± 0.0137; AUC: 0.9804 ± 0.0301). Na abordagem 3 (base balanceada e com seleção de atributos, composta por 413 atributos e 750 instâncias) o melhor resultado foi alcançado pelo Random Forest de 400 árvores (acurácia: 64.17% ± 4.10; kappa: 0.0655 ± 0.0444; sensibilidade: 1 ± 0; especificidade: 0.9838 ± 0.0152; AUC 1 ± 0.0002) e o pior resultado foi obtido pelo SVM de kernel RBF 0.01 (acurácia: 37.75% ± 3.73; kappa: 0.3121 ± 0.0411; sensibilidade: 0.9798 ± 0.0561; especificidade: 0.9422 ± 0.0275; AUC: 0.9738 ± 0.0146). Após identificar que a abordagem 3 apresentou melhores resultados em relação às demais abordagens, foi realizada a validação (com o conjunto de dados de validação) com o melhor algoritmo, ou seja, com o Random Forest de 400 árvores, que obteve resultados promissores em relação a acurácia (73.33%), kappa (0.6985), sensibilidade (0.733), especificidade (0.967) e AUC (0.945). É válido mencionar que os experimentos realizados são de cunho exploratório e que a base de dados ElderReact apresenta limitações, por exemplo, o processo de extração de atributos não é claro e as emoções dos vídeos/áudios podem ser exageradas (não são espontâneas, foram captadas no “pico” da emoção), este fato pode influenciar em aplicações reais. Por fim, a base ElderReact  ainda é pouco explorada na literatura e surge em meio a escassez de bases de dados no contexto de reconhecimento de emoções em idosos (acometidos por processos demenciais ou não). Os experimentos realizados e os resultados obtidos abrem um leque de possibilidades para novas investigações, além de contribuir para a aproximação da motivação principal do projeto maior ao qual este trabalho está inserido, que é o desenvolvimento de um sistema de biofeedback de emoções para reconhecimento de emoções em idosos, com potencial aplicação na musicoterapia (personalizada) como ferramenta de apoio para combate às demências.
Palavras-chave: Reconhecimento de Emoções; Idosos; Regra de Sturges; Regressão e Classificação.
Referências
CHAWLA, N. V.; BOWYER, K. W.; HALL, L. O.; KEGEL MEYER, W. P. Smote: synthetic minority over-sampling technique. Journal of artificial intelligence research, v.16,p.321–357, 2002.
FALCO, J. G. (2016). Estatística aplicada. Ministério da Educação. Escola Técnica Aberta do Brasil. Cuiabá: Ed UFMT; Curitiba: UFPR, 2008.
FERREIRA, C. D.; TORRO-ALVES, N. Reconhecimento de emoções faciais no envelhecimento: uma revisão sistemática. Universitas Psychologica, Pontificia Universidad Javeriana, v.15, n.5, 2016.
GRONDHUIS, S. N.; JIMMY , A.; TEAGUE, C.; BRUNET, N. M. Having difficulties reading the facial expression of older individuals? blame it on the facial muscles, not the wrinkles. Frontiers in Psychology, Frontiers Media SA, v.12, 2021.
KENNEDY, J.; EBERHART, R. Particle swarm optimization. In: IEEE. Proceedings of ICNN’95 - international conference on neural networks. [S.l.],1995. v.4, p.1942 – 1948.
KO, H.; KIM, K.; BAE, M.; SEO, M. G.; NAM, G.; PARK, S.; PARK, S.; IHM, J.; LEE, J. -Y. Changes in facial recognition and facial expressions with age. Sensors, Preprints,2021.
MA, K.; WANG, X.; YANG, X.; ZHANG, M.; GIRARD, J. M.; MORENCY, L. -P. Elderreact: a multimodal data set for recognizing emotional response in aging adults. In: 2019 International Conference on Multimodal Interaction. [S.l.:s.n.], 2019. p. 349–357.
WITTEN, I. H.; FRANK, E.; HALL, M. A.; PAL, C.; DATA, M. Practical Machine Learning tools and techniques. In: DATA MINING. [S.l.:s.n.], 2005. v.2, p.4.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas