CAREFL: CONTEXT-AWARE RECOGNITION OF EMOTIONS WITH FEDERATED LEARNING

##plugins.themes.bootstrap3.article.main##

Jose Alejandro Lopez Quel
Bruno José Torres Fernandes
Carlo Marcelo Revoredo da Silva

Resumo

O reconhecimento de emoções a partir de imagens continua sendo um problema desafiador, pois depende não apenas de expressões faciais, mas também da postura corporal e de sinais contextuais do ambiente. Trabalhos anteriores, como EMOTIC (KOSTI et al., 2020), aproveitaram recursos de corpo-cena com CNNs, enquanto modelos recentes de visão-linguagem (VLMs) como LLaVA (LIU et al., 2023), NarraCap (YASAMAN ETESAM et al., 2024) e GPT-4o (OPENAI et al., 2024) mostraram que o raciocínio multimodal em larga escala pode melhorar a precisão. No entanto, esses métodos enfrentam duas limitações principais: (1) sua dependência de treinamento centralizado levanta preocupações com a privacidade em domínios sensíveis como saúde e educação, e (2) suas demandas computacionais dificultam a implementação em cenários reais com recursos limitados. Para resolver essas questões, o CAREFL: Context-Aware Recognition of Emotions with Federated Learning (Reconhecimento de Emoções Sensível ao Contexto com Aprendizado Federado) é proposto, uma estrutura leve projetada para combinar a força do raciocínio contextual de VLMs grandes com a eficiência de VLMs pequenos ajustados em um ambiente de aprendizado federado. O CAREFL segue um fluxo de trabalho de duas fases. Primeiro, um VLM grande congelado (LLaVA) gera descrições contextuais ricas que capturam sinais ambientais e sociais além das características faciais. Depois, um VLM pequeno e compacto (SMOLVLM2) é ajustado com Quantized Low-Rank Adaptation (QLoRA) em um ambiente federado, permitindo que vários clientes colaborem para adaptar o modelo sem compartilhar dados brutos. Este design visa preservar a privacidade enquanto possibilita um treinamento eficiente. Se espera avaliar o CAREFL tanto nos conjuntos de dados EMOTIC (múltiplas categorias, 26 rótulos) quanto no CAER-S (categoria única, 7 rótulos). Os resultados esperados incluem alcançar um desempenho competitivo com modelos centralizados grandes como o GPT-4o e o LLaVA, ao mesmo tempo em que reduzimos o número de parâmetros treinados em uma ordem de grandeza e diminuímos os requisitos de memória através de uma quantização de 4 bits. Também pretendemos demonstrar que a otimização federada pode melhorar a generalização sob distribuições de clientes não-IID, com experimentos planejados para estudar sistematicamente os efeitos de estratégias de agregação, taxas de participação de clientes e qualidade do contexto. O trabalho busca mostrar que VLMs federados leves, quando enriquecidos com raciocínio contextual, podem fornecer uma alternativa escalável e que preserva a privacidade em relação às arquiteturas centralizadas.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas