Generalização Robusta Out-of-Distribution para Redes Neurais Profundas através de Estratégias Combinadas de Data Augmentation usando Noise Injection
##plugins.themes.bootstrap3.article.main##
Resumo
Deep Neural Networks (DNNs) são propensas ao overfitting [Rice et al., 2023], o que ocorre quando um modelo se adapta demais aos dados de treinamento, prejudicando sua capacidade de generalização para novos dados. Como resultado, DNNs tornam-se vulneráveis a ataques adversariais, onde pequenas perturbações nos inputs podem comprometer significativamente seu desempenho [Schmidt e Silva, 2018]. Isso destaca a importância de empregar técnicas de regularização — que são estratégias para reduzir a complexidade do modelo — já estabelecidas no estado da arte e a necessidade de métodos inovadores para combater o overfitting, promovendo uma melhor capacidade de generalização e, por sua vez, modelos mais justos. Estratégias muito comuns de data augmentation (DA) [Shorten e Khoshgoftaar, 2019] — que consistem em criar novas amostras de dados a partir de transformações como zoom, crop e flip nos dados existentes — desempenham um papel crucial na regularização de modelos. Estudos recentes mostram que integrar dados com noise injection (NI) durante o treinamento de DNNs ajuda a fortalecer a resiliência do modelo contra várias formas de corrupções [Nazaré et al., 2018; Filho et al., 2023]. A regularização induzida pelo NI combate o overfitting ao penalizar conteúdo de alta frequência nos dados, promovendo um treinamento mais estável dos modelos [Bishop, 1995; Camuto et al., 2020]. Além disso, é sabido que a combinação de múltiplas técnicas de DA aumenta a robustez dos modelos, diferentemente da utilização singular de uma técnica [Li e Spratling, 2023]. Neste estudo, observamos que as DAs comuns, combinadas com NI, emergem como uma melhoria para alcançar robustez em modelos de redes neurais. Além disso, buscamos que os modelos não apenas generalizem bem, mas também sejam robustos a dados Out-of-Distribution (OoD). Dados OoD revelam melhor as capacidades de robustez dos modelos por se tratar de dados com conteúdo diferente do utilizado no treinamento. Para validar empiricamente isso, treinamos e avaliamos duas arquiteturas de DNNs comumente usadas (ResNet50 e Xception) nos conjuntos de dados CIFAR-10 e CIFAR-10-C (conjunto de imagens de 10 classes e sua versão corrompida, respectivamente). Nossos resultados se baseiam em uma validação cruzada de 15 K-folds, onde avaliamos ambos os modelos em cenários com imagens semelhantes ao treinamento e em OoD (corrupções não vistas durante o treinamento), gerando 3.600 resultados de F1-Score. A observação inicial dos resultados é que ResNet50 e Xception se comportam de maneira bastante diferente ao lidar com várias DAs e NI. Especificamente, ResNet50 beneficia-se mais de NI em comparação com Xception. No entanto, os resultados gerais avaliando dados fora da distribuição são melhores ao usar estratégias DAs+NI. Por exemplo, exceções surgem no caso de perturbação de contraste, onde todas as estratégias apresentam desempenho ruim, especialmente aquelas envolvendo injeção de ruído [Balestriero et al., 2022].
Downloads
Não há dados estatísticos.
##plugins.themes.bootstrap3.article.details##
Seção
Engenharia da Computação e Sistemas