Detecção de Concept Drift no Contexto de Regressão

##plugins.themes.bootstrap3.article.main##

Marília Lima
Telmo Silva Filho
Roberta Fagundes

Resumo

Contexto: a quantidade de dados é cada dia maior em diversos cenários, como: indústria, aplicativos de mídia social e o mercado de ações. Além disso, a dinâmica desses dados muda constantemente, e consequentemente sua distribuição, por isso é necessário o  uso de técnicas de aprendizado de máquina (AM) para extrair informações (BABÜROĞLU et al, 2021). Porém, técnicas de AM que usam aprendizado estático podem apresentar degradação nos modelos, já que os conceitos dos dados mudam com o tempo ocasionando um problema denominado de Desvio de Conceito (DC), do inglês concept  drift. DC ocorre quando a distribuição dos dados muda de tal forma que os dados do conjunto de teste não têm a mesma distribuição de dados do conjunto de treinamento.  Diante disso, vários trabalhos já foram propostos para solucionar esse problema, contudo a maioria concentram-se nos métodos de classificação (Iwashita et al, 2018). Trabalhos Relacionados: o trabalho de Almeida et al (2019) apresenta uma proposta de uso de ensemble bagging com uma rede neural para lidar com DC. Os autores ainda afirmam que no contexto de regressão DC é pouco explorado na literatura. Em Gonçalves et al (2014) é realizado um estudo comparativo de detectores de deriva utilizando métodos baseados em classificadores, em que os autores concluíram a dependência do tipo de desvio no processo de detecção.  Já em BABÜROĞLU et al (2021) é proposto um estudo para avaliar detectores utilizando classificadores como modelo base e obtém pares combinados mais eficientes como resultado dentre os detectores analisados, que o Reactive Drift Detection Method (RDDM), Wilcoxon Rank-Sum Test Drift Detector (WSTD),  Drift Detection Methods based on Hoeffding’s bound (HDDMA) e Hoeffding Drift Detection Method (FHDDM) apresentam melhores resultados. Motivação: detectar a ocorrência de DC nos dados que não tenham a mesma distribuição dos dados usado no conjunto de treinamento é uma abordagem eficiente, pois existe a possibilidade de fazer o ajuste nos modelos, evitando um maior erro de predição a medida que os dados cheguem. Além disso, fazer uso de abordagens de aprendizado de AM incremental pode ser uma alternativa para esse ambientes de mudanças constantes, uma vez que não será necessário a criação de um novo modelo e sim a atualização do modelo existente. Portanto, fazer o uso de detectores de deriva pode: (i) aprender com os dados sem a necessidade de apresentar novamente todo o conjunto de dados para o regressor; (ii) atualizar o regressor ao novo conceito, quando existente, apresentado no fluxo de dados. Objetivo: realizar um estudo da influência do uso de dois detectores de DC, são eles:  Drift  Detection  Method (DDM) e Early Drift Detection Method (EDDM) no contexto de métodos de AM utilizando modelos de regressão, como modelo base foi usado o Hoeffding Tree Regressor (HTR). Metodologia: utiliza-se o processo treine-teste-treine, adaptando o processo de aprendizado proposto de Lu et al (2018), seguindo as seguintes etapas: (i) utilização de o modelo base HTR, (ii) utilização de um detector de deriva (DDM e EDDM), (iii) atualizar o modelo com os dados do conjunto de teste quando detectado o desvio.  Para verificar a influência dos detectores comparou-se o modelo base não sendo atualizado, sempre sendo atualizado e o modelo base em conjunto com os detectores. Utilizou-se os dados sintéticos (Friedman#1, 3D_mex_hat) seguindo o processo de adição  de desvio de Almeida et al. (2019). Para cada conjunto de dados, 5000 amostras são criadas. O domínio de cada atributo é dividido em dez partes de tamanhos iguais. As primeiras 2.000 amostras correspondem às primeiras sete partes do domínio de cada variável. 1000 novas instâncias são adicionadas e o domínio é expandido até que as 5000 amostras sejam concluídas. Realizou-se um grid search para escolha dos hiperparâmetros do modelo base. Os testes foram realizados utilizando a biblioteca skmultiflow (Montiel et al,  2018). Resultados: foram realizadas 30 iterações, calculando o erro através da métrica Mean Square Error (MSE). Além disso, foram realizados teste estatísticos de  kolmogorov smirnov (normalidade) com os erros das iterações nos conjuntos de dados e verificou-se que os erros não seguem uma distribuição normal. Dessa forma, utilizou-se o teste de wilcoxon com 5% de significância, utilizando como hipótese alternativa: HTR com EDDM apresenta menores erros que os demais modelos. Para o conjunto 3D_mex_hat obteve-se o p-value de para o HRT sem atualizar e com o DDM, já para Friedman#1 obteve-se valor de p-value de , quando comparado com HTR sem atualizar e com DDM, já para o HTR sempre atualizando nos dois conjuntos de dados o valor é de p-value 1. Observa-se que o uso do detector EDDM obteve resultados estatisticamente melhores que o detector DDM e não há evidências estatísticas de menores erros do EDDM com o HTR sempre atualizado. Conclusão: o trabalho apresenta um estudo da influência de detectores de DC no contexto de regressão utilizando dados sintéticos, demonstrando que estatisticamente o detector EDDM apresenta menores erros. A presente pesquisa já realizou um estudo mais abrangente com relação aos detectores de deriva no contexto de regressão que será apresentado  no BRACIS 2021, além da escrita de uma revisão sistemática da literatura  que está em processo de submissão. Atualmente, a pesquisa concentra-se na construção/adaptação e teste de um método para detecção de DC.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas