Detecção de Desvio de Conceito em Ambientes Não Estacionários Utilizando Comitê de Regressão: Estudo Preliminar de uma Revisão Sistemática da Literatura

##plugins.themes.bootstrap3.article.main##

Marília Lima
Roberta Fagundes

Resumo

Contexto: com o tempo os conceitos do mundo real mudam, assim como a função de distribuição de probabilidade. O problema de Mudança de Conceito ou Desvio de Conceito (DC), do inglês concept drift, é um desafio para modelos de aprendizado de máquina, já que os modelos têm a tarefa de aprender com os dados. O DC pode ocorrer afetando a distribuição de probabilidade entre as variáveis explicativas e dependentes (probabilidades condicionais) chamado de desvio real, ou quando afeta apenas a distribuição das variáveis explicativas (probabilidade incondicional) chamado de desvio virtual (Oliveira et al, 2019).Muitos trabalhos já foram desenvolvidos com o objetivo de propor modelos para detectar e fazer um aprendizado adaptativo em conjunto de dados que possam ter esse problema. Trabalhos Relacionados: em Iwashitaet al (2019) é desenvolvido um modelo de comitê crescente usando classificadores com recursos Optimum-Path Forest (OPF). Em Renet al (2018) é proposto um comitê de classificador denominado Knowledge-Maximized Ensemble (KME) para detectar o DC e pode reagir a vários tipos de DC.Já os autores (Liu;Zhang, 2020) propõem uma medição da diversidade usando comitê de classificadores para abordar o DC em ambiente de fluxo de dados. Neste sentido, percebe-se que essas abordagens apresentadas fazem estudo considerando o campo de classificação. Além disso, apresentam para melhor adaptação deste problema o uso de abordagem baseada em comitê. Motivação: detectar a ocorrência de DC antes que os dados sejam preditos é uma abordagem eficiente, pois existe a possibilidade de fazer o ajuste nos modelos de forma prévia, evitando um maior erro de predição. Nesse sentido, fazer o uso de um comitê de regressão apresenta ser mais eficiente que um modelo único, pois o comitê pode (i) detectar alguma mudança na distribuição de probabilidade do conjunto de dados, (ii) aprender com os dados sem a necessidade de apresentar novamente todo o conjunto de dados para o regressor (modelo), (iii) esquecer o que foi treinado quando o conhecimento não for útil para predição de um novo dado. Considerando o campo de adaptação de DP, Almeida et al (2019) afirmam que no contexto de regressão (lidar com variável dependente contínua) ainda é pouco explorado o DP. Objetivos: (i) apresentar a condução parcial de uma revisão sistemática da literatura na detecção de DC utilizando comitê de regressão; (ii) apresentar uma análise de sensibilidade da string de busca. Metodologia: a condução da revisão sistemática é elaborada seguindo uma busca automática em quatro bases de referências (ACM, IEEE, SCOPUS, Web Of Science) entre os anos de 2010 à 2020. Está revisão segue a estratégia de (Kitchenham; Chapters, 2007), também será realizado um processo de Snowballling nos artigos que foram aceitos seguindo os critérios de avaliação de qualidade definido previamente na pesquisa. Resultados: quando apenas o sinônimo “regression” foi usado na string de busca, verificou-se que a quantidade de artigos teve uma diminuição nas bases de referência, a saber: 83,33% (ACM), 78,01% (IEEE), 54,64% (SCOPUS), 60,43% (Web of Science). Além disso, também percebeu-se uma influência significativa de um dos sinônimos (“Non-Stationary”) da string de busca na quantidade de artigo retornada, pois houve uma redução substancial quando esse sinônimo não era inserido nas bases de referência. Por exemplo, em algumas bases de referência houve uma redução de 92,03% (SCOPUS), 86.87% (Web Of Science), 69,39%(IEEE) da quantidade de artigos e em outra base houve apenas uma redução de 16,67% (ACM). Dessa forma, considerando a importância desse sinônimo o mesmo foi mantido no processo de condução final da revisão. Nesse sentido, obteve-se mais de 1500 artigos como retorno da string de busca utilizada nas quatro bases de referência. Além disso, verificou-se que há aumento de artigos sendo publicado do ano de 2010 até 2020, já que no ano de 2010 obteve uma menor quantidade de artigos retornados, quando comparado com os anos subsequentes. Considerações Finais: o presente trabalho apresenta a importância do estudo de DP no contexto de regressão. Além disso, os benefícios que os comitês podem proporcionar aos ambientes de dados não estacionários na presença de DP. Como próximos passos, serão realizadas a leitura completa dos artigos e avaliação da qualidade dos mesmos, segundo o protocolo da revisão sistemática da literatura buscando responder as questões de pesquisa através dos artigos selecionados quando forem aplicados os critérios de qualidade previamente definidos.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas