Modelagem de Emoções Anômalas por Fusão Multicanal com Atenção Cruzada em Ambientes Não Controlados

##plugins.themes.bootstrap3.article.main##

Monique Suellen Tomaz
Alessandra Sciutti
Aislan Gabriel Souza
Kelryson Wendrix Alves Souza

Resumo

O reconhecimento de emoções anômalas definido como a identificação de estados afetivos que divergem dos padrões emocionais esperados em um contexto situacional específico tem emergido como componente crítico em sistemas inteligentes voltados à interpretação afetiva em ambientes não controlados (Tomaz et al., 2024). Tais anomalias podem manifestar-se como dissonâncias entre expressões faciais e respostas fisiológicas, sinalizando estados emocionais atípicos ou conflitantes. Thinh et al. (2021), já apontavam que aproximadamente 34% das expressões em vídeos naturais não se enquadram em categorias emocionais básicas, e Li et al. (2017) propuseram o conceito de microexpressões compostas, observadas em 18% dos casos analisados em situações de alto estresse emocional. No domínio fisiológico, estudos como os de Poh, McDuff e Picard (2010) e Sun et al. (2020) demonstraram que variações no sinal remote photoplethysmography (rPPG), mesmo em condições de baixa iluminação e sem sensores intrusivos, podem revelar alterações afetivas não evidentes na expressão facial, indicando dissociações entre canais visuais e fisiológicos. Essa incongruência intermodal tem sido explorada em trabalhos como os de Jaiswal et al. (2019), que apontam a complementaridade entre sinais periféricos e expressões faciais para detecção de estados emocionais encobertos, especialmente em contextos de dissimulação emocional ou estresse induzido. Esses achados reforçam a necessidade de arquiteturas capazes de modelar tais incongruências. Neste trabalho, propõe-se uma arquitetura de fusão intermodal com atenção cruzada baseada em Transformers (Tsai et al., 2020), que integra microexpressões faciais codificadas por Long Short-Term Memory (LSTMs) a partir de pontos dinâmicos extraídos via FaceMesh e sinais rPPG estimados com métodos Chrominance-based Remote Photoplethysmography (CHROM) e Independent Component Analysis (ICA) (Haan & Jeanne, 2014). Os mapas espectrotemporais extraídos da fisiologia são combinados a embeddings temporais da face, permitindo detectar padrões sutis de dissonância afetiva. A modelagem temporal de longo prazo é enfatizada, conforme evidenciado em análises de Kollias et al. (2021), onde arquiteturas sensíveis ao contexto superaram métodos tradicionais. A hipótese central sustenta que a divergência entre modalidades pode ser explorada como marcador robusto para a identificação de emoções emocionalmente incongruentes. Os experimentos conduzidos com a base CMU-MOSEI (Zadeh et al., 2018), reconhecida por sua anotação afetiva multimodal detalhada, evidenciaram que a abordagem proposta supera modelos unimodais e métodos de fusão clássicos (Soleymani et al., 2017). Estes resultados corroboram a aplicabilidade do modelo em ambientes de alto ruído emocional, com potencial impacto em robótica social, triagem psicológica automática e segurança digital. Ao captar padrões intermodais de incongruência afetiva, a arquitetura proposta avança o estado da arte na identificação de variações emocionais sutis em ambientes naturais, incluindo apatia, euforia disfuncional, tristeza intensa e estresse persistente. Tal capacidade confere ao modelo potencial para aplicações estratégicas em triagem psicológica automatizada, robótica social responsiva e plataformas de segurança digital orientadas por estados emocionais.
Keywords: Emoções Anômalas; Fusão Multimodal; Microexpressões Faciais; rPPG; Transformers Temporal.
 
References
Tomaz, M. S. L. S., Fernandes, B. J. T., & Sciutti, A. (2025). Identification of anomalous behavior through the observation of an individual's emotional variation: A systematic review. IEEE Access, 13, 32927-32943.
Thinh, P. T. D., Hung, H. M., Yang, H.-J., Kim, S.-H., & Lee, G.-S. (2021). Emotion recognition with sequential multi-task learning technique. In Proceedings of the IEEE International Conference on Computer Vision Workshops (ICCVW) (pp. 3586–3589).
Li, X.; Hong, X.; Moilanen, A.; Huang, X.; Pietikäinen, M. Towards reading hidden emotions: a comparative study of spontaneous micro-expression spotting and recognition methods. Neurocomputing, v. 217, p. 412–421, 2017.
4.Poh, M. Z.; McDUFF, D. J.; PICARD, R. W. Non-contact, automated cardiac pulse measurements using video imaging and blind source separation. Optics Express, v. 18, n. 10, p. 10762–10774, 2010.
Sun, Y., Hu, S., & Bulter, D. (2020). Remote photoplethysmography with ambient light: characterizing performance via SNR analysis. Biomedical Optics Express.
Jaiswal, A., Valstar, M., & Pantic, M. (2019). Deep learning the dynamic appearance and shape of facial action units. IEEE Transactions on Affective Computing.
Haan, G.; Jeanne, V. Robust pulse rate from chrominance-based rPPG. IEEE Transactions on Biomedical Engineering, v. 60, n. 10, p. 2878–2886, 2013.
D. Kollias and S. Zafeiriou, "Analysing Affective Behavior in the second ABAW2 Competition," 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW), Montreal, BC, Canada, 2021, pp. 3645-3653
Zadeh, AmirAli et al. CMU-MOSEI: Multimodal Language Dataset for Sentiment and Emotion Analysis. In: Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, 2018.
Soleymani, M.; Pantic, M.; Michel, P.; Pun, T. A multimodal database for affect recognition and implicit tagging. IEEE Transactions on Affective Computing, v. 3, n. 1, p. 42–55, 2017.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas