Regularização de Dados Elaborada: Caminhos para a Consistência e Confiabilidade na Generalização Robusta
##plugins.themes.bootstrap3.article.main##
Resumo
A Generalização Robusta refere-se à capacidade de modelos manterem alto desempenho quando avaliados em dados que diferem da distribuição de treinamento [Xu e Mannor, 2012], um dos principais desafios enfrentados por Redes Neurais Profundas (DNNs) devido à sua suscetibilidade ao overfitting diante de mudanças de distribuição [Li et al., 2022]. Neste estudo, consideramos como Out-of-Distribution (OoD) as amostras pertencentes a distribuições transformadas, obtidas por meio de corrupções ou perturbações aplicadas diretamente ao espaço de entrada de dados in-distribution [Farquhar e Gal, 2022]. Com base nessa definição, quantificamos a magnitude do afastamento OoD de cada conjunto em relação à distribuição de referência utilizando a divergência entre representações latentes: extraímos embeddings com um Autoencoder e empregamos a KL Divergence como medida escalar de severidade do desvio. No escopo mais amplo de estratégias para robustez, técnicas de regularização têm sido amplamente utilizadas para mitigar esse problema; no entanto, muitas vezes elas falham ou induzem over-regularization, prejudicando o desempenho do modelo [Lin et al., 2024], o que evidencia a necessidade de regularizadores cuidadosamente projetados [Srivastava et al.], cuja eficácia varia de acordo com a natureza e a severidade do desvio de distribuição enfrentado. Superar essa suscetibilidade é crucial para a aplicabilidade de IA em cenários reais; para mitigá-la e aprimorar a robustez, investigamos a eficácia de diferentes estratégias de data augmentation (DA), incluindo pipelines randômicos de transformações (RandAugment [Cubuk et al.]) e sua combinação com injeção de ruído (Noise Injection, NI) [Bishop, 1995; Camuto et al., 2020; Li e Spratling, 2023]. Um tema adicional proposto — ainda pouco explorado no estado da arte — é a utilização do conceito de Curriculum Learning [Bengio et al.], com o objetivo de regularizar os dados de forma progressiva, adicionando estágios de maior dificuldade ao longo do treinamento. Focamos em dados de imagem, utilizando os conjuntos de benchmarking CIFAR-10 e CIFAR-10-C, e avaliamos o desempenho de diversas arquiteturas de DNNs, como CCT, ResNet20 e WideResNet-28-10. Para quantificar a robustez de forma mais abrangente, adotamos uma análise estatística de miscoverage com leave-folds-out cross-validation [Bates et al.], aproveitando a tendência do cross-validation tradicional de subestimar a variabilidade e gerar intervalos com cobertura abaixo do esperado. Nossos resultados demonstram que as estratégias de data regularization não apenas elevam a acurácia em dados OoD, mas, crucialmente, melhoram a estabilidade da generalização robusta, com destaque para o Curriculum Learning e para a combinação RandAugment + Noise; em particular, o currículo reduziu de forma consistente a variabilidade entre partições e níveis de corrupção, e embora a ResNet20 apresente desempenho absoluto inferior ao da WRN-28-10, seus resultados mostraram-se mais consistentes ao longo de severidades, sugerindo trade-offs de simplificação arquitetural entre pico de acurácia, estabilidade, calibração e eficiência computacional.
Downloads
Não há dados estatísticos.
##plugins.themes.bootstrap3.article.details##
Seção
Engenharia da Computação e Sistemas