Detecção de Desvio de Conceito aplicado a Dados Simbólicos do tipo Intervalo

##plugins.themes.bootstrap3.article.main##

Marília Lima
Telmo Silva Filho
Roberta Fagundes

Resumo

Contexto: a diversidade de dados produzida a cada dia é muito grande. Diante desse cenário, o uso de técnicas de aprendizado de máquina vem sendo utilizado para obter conhecimento sobre os dados. Porém, as técnicas de aprendizado de máquina necessitam de um conjunto de dados de treinamento para treinar o modelo. Quando esse modelo é colocado em produção pode não ser adequado aos novos dados para realizar a predição. Umas das possíveis causas do modelo não se adequar é que a distribuição dos dados de teste não ser a mesma dos dados de treinamento, fazendo com que exista uma degradação do modelo. Isso porque com o tempo, devido a dinâmica dos dados, a distribuição dos dados pode variar. Esse problema é conhecido com desvio de conceito, isto é, há uma mudança na distribuição dos dados de tal forma que os dados de treinamento não apresentam a mesma distribuição dos dados de teste (WANG et al, 2022). Tal que em um dado momento de tempo (t) os dados vão ter uma distribuição e em outro momento de tempo (t+1) os dados terão outra distribuição. O Desvio de conceito pode ser categorizado segundo a velocidade de várias formas, como: abrupto, recorrente, gradual e incremental. O desvio incremental caracteriza-se por a mudança nos dados acontecer de uma forma mais sutil. Assim, conseguir identificar quando acontece um desvio é algo importante para poder reagir de forma adequada a possíveis alterações nos dados. Já existem alguns detectores que foram propostos, como por exemplo,  o Drift Detection Method (DDM) e Early Drift Detection Method (EDDM). Diante do exposto, é importante verificar a eficiência do processo de detecção em diferentes contextos, por isso utilizá-los em dados simbólicos do tipo intervalo é ponto importante para ser explorado. Objetivo: comparar os detectores de desvio de conceito DDM e EDDM com o modelo base Hoeffding Tree Regressor (HTR) aplicados a dados simbólicos do tipo intervalo utilizando desvio de conceito do tipo incremental. Metodologia: utilizou-se a abordagem treine-teste-treine adaptando o processo de aprendizado proposto de Lu et al (2018). Foi considerado três etapas, são elas: (i) dois modelos de aprendizado base incremental HTR, sendo um para o range e outro para o centro; (ii) uso-se detectores de desvio considerando os dados do centro e do range; (iii) atualizar o modelo com os dados do conjunto de teste quando detectado o desvio nos dados de centro ou de range. Utilizou-se dados sintéticos baseado no proposto por Fagundes et al, (2013), onde  representa a função de geração dos dados tanto para o centro como para o range, mudando apenas o domínio. Os domínios das variáveis utilizados são:  e . Os dados foram gerados com 5000 amostras. O domínio das variáveis foi dividido em dez partes, as primeiras sete partes do domínio foram usadas nas 2000 primeiras amostras e cada 1000 amostra o domínio foi sendo expandido, os dados gerados também foram normalizados (Almeida et al. 2019). Um grid search é usado para escolha dos hiper-parâmetros do modelo base. A biblioteca skmultiflow (Montiel et al, 2018) foi utilizada para os testes. Também foi realizado o processo de desnormalização e a volta dos valores de centro e range para os valores mínimo e máximo, e assim disponibilizar a predição adequada do modelo e calcular o erro obtido.  Resultados: realizaram-se 30 iterações calculando-se o Mean Square Error (MSE) para o valor mínimo e máximo encontrados.  Além disso, também foi realizado o teste de kolmogorov smirnov (normalidade) com os erros das iterações no conjunto de dados e verificou-se que os erros não seguem uma distribuição normal. Dessa forma, utilizou-se o teste de Wilcoxon com 5% de significância para identificar estatisticamente o melhor detector. A hipótese alternativa: HTR+EDDM apresenta menores erros que os demais modelos.  Os resultados de p-value obtidos foram: 0,06331, 0,7191, 0,229 para o HTR sem atualizar, HTR sempre atualizando e HTR+DDM, respectivamente. Pelos resultados p-value obtidos não pode-se concluir estatisticamente menores erros em relação aos detectores comparados.  Conclusão: o estudo apresenta a influência de detectores de desvio de conceito aplicados em dados simbólicos do tipo intervalo considerando duas funções lineares de geração de dados, sendo uma para range e outra para centro. Os resultados e contexto apresentados no trabalho fazem parte da pesquisa de doutorado que envolve a proposta de um detector e uma métrica de avaliação no contexto de dados pontuais e Simbólicos do tipo Intervalo. Portanto, esses são resultados parciais para o estudo de caso com dados intervalares. Já realizou-se um estudo mais abrangente com relação aos detectores de deriva conceito em dados pontuais apresentado no BRACIS 2021. Além disso, uma revisão sistemática da literatura foi publicada na IEEE ACCESS. Atualmente, a pesquisa concentra-se em testes com outros detectores em Dados Simbólicos do tipo Intervalo.
 

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas