Avaliação das Técnicas de Explicabilidade (XAI) em Modelos de Classificação aplicados a dados não estruturados e desbalanceados
##plugins.themes.bootstrap3.article.main##
Resumo
Com o crescimento do uso de modelos de aprendizado de máquina em cenários decisórios críticos, aumenta-se também a necessidade de interpretabilidade, especialmente em contextos nos quais os dados são desbalanceados e não estruturados, como textos oriundos de redes sociais, análises financeiras e registros médicos (Pereira, J. 2021). Segundo Dablain et al. (2024), há uma carência significativa de abordagens que combinam análise interpretativa com sensibilidade ao desbalanceamento de classes, principalmente em domínios textuais. Ainda de acordo com Silva et al. (2025), a escolha adequada da estratégia de balanceamento pode melhorar consideravelmente a performance dos modelos, mas há um limite para a eficácia da duplicação sintética de amostras. Nesse contexto, este trabalho tem como objetivo principal investigar o impacto do desbalanceamento de dados em métricas de explicabilidade de modelos de classificação textual, bem como identificar quais técnicas de Inteligência Artifical Explicável (XAI, do inglês Explainable Artificial Intelligence) são mais eficazes nesse contexto. A metodologia adotada inclui um mapeamento sistemático da literatura para identificar lacunas existentes na interseção entre XAI e dados desbalanceados, seguido da implementação e avaliação de modelos de classificação, como: SVM (Support vector machine), Random Forest, Rede Neural, LSTM (Long Short-Term Memory), CNN (Convolutional Neural Network) e Transformers. Ambos algoritmos serão aplicados com diferentes estratégias de balanceamento: sem balanceamento, undersampling e oversampling. As técnicas de explicabilidade aplicadas incluem LIME (Local Interpretable Model-agnostic Explanations), SHAP (SHapley Additive exPlanations), visualizações baseadas em atenção, entre outras. Os primeiros resultados obtidos com os modelos SVM e LSTM indicam que a estratégia de oversampling tende a mitigar os efeitos negativos do desbalanceamento, tanto na performance quanto na clareza das explicações geradas. Observou-se que o SVM apresentou viés interpretativo para a classe negativa, com explicações pouco conectadas semanticamente aos textos, enquanto o LSTM demonstrou maior coerência contextual e estabilidade, mesmo em cenários com desbalanceamento acentuado. Esses achados confirmam que o desbalanceamento não afeta apenas a capacidade preditiva dos modelos, mas também a confiabilidade das interpretações geradas, aspecto crítico em sistemas utilizados para justificar decisões automatizadas. Espera-se, ao final do projeto, propor diretrizes metodológicas para a aplicação de técnicas de explicabilidade em cenários com dados não estruturados e desbalanceados, bem como disponibilizar repositórios públicos de dados e experimentos que favoreçam a reprodutibilidade científica. Assim, este projeto busca preencher lacunas relevantes ao conectar modelos diversos, estratégias de balanceamento e mecanismos de explicabilidade, com foco em aplicações práticas e socialmente relevantes.
Downloads
Não há dados estatísticos.
##plugins.themes.bootstrap3.article.details##
Seção
Engenharia da Computação e Sistemas