Aplicação de algoritmos de clusterização baseados em técnicas de inteligência de enxames

##plugins.themes.bootstrap3.article.main##

Paulo Henrique de Alcantara Rocha
Carmelo José Albanez Bastos Filho

Resumo

A obtenção de informação relevante a partir de uma grande quantidade de dados é uma necessidade de diversas áreas acadêmicas e de mercado. Dada a crescente quantidade de informação fornecida por diversos dispositivos e sistemas atualmente, o estudo para extrair conhecimento a partir dessa massa de dados não se caracteriza como um problema trivial. O processo de clusterização se destaca entre as abordagens para o problema pela capacidade de agrupar dados relevantes para obtenção de grupos significativos (TAN, 2018). Essa metodologia de agrupamento procura associar instâncias de tal maneira que os dados contidos em um determinado grupo tenham máxima similaridade entre si, enquanto dados pertencentes a grupos diferentes tenham mínima similaridade (TAN, 2018) .Em paralelo existem técnicas de otimização baseadas em Inteligência de enxames que podem resolver problemas de busca em espaços de alta dimensionalidade, comuns em grandes quantidades de informação, onde a modelagem para solucionar problemas de agrupamento utilizando algoritmos de otimização pode ser utilizada a partir dos algoritmos baseados em Otimização por Enxame de Partículas (PSO), Colônia de Abelhas Artificiais (ABC) e Busca por Cardume de Peixes (FSS) (CHENG, 2016; BASTOS, 2008). Devido a capacidade superior de exploração em amplitude, algoritmoscomo o FSS podem evitar a convergência prematura em mínimos locais e problemas em conjuntos de dados em alta dimensionalidade agregando essas características ao processo de agrupamento. Esse estudo demonstra a utilização de algoritmos de otimização no processo de clusterização com o intuito de obter o número mais adequado de grupos significativos dada uma base de dados em comparação com algoritmos tradicionais. O experimento consistiu em uma série de simulações envolvendo os algoritmos de clusterização citados além dos tradicionalmente utilizados K-means e FC-means na base de dados Íris, variando a quantidade de agrupamentos a partir da variação do número de centróides, mantendo o número de execuções em trinta para cada variação e utilizando cem iterações para cada execução dos algoritmos híbridos com o objetivo de encontrar os melhores agrupamentos levando emconsideração as métricas do coeficiente de silhueta, índice de Calinski-Harabaz e estatística Gap. Com os resultados iniciais obtidos foi possível observar o potencial de utilizar métodos de inteligência de enxames para melhorar o processo de clusterização, onde a modelagem do algoritmo ABC para clusterização obteve os melhores resultados.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas
Biografia do Autor

Paulo Henrique de Alcantara Rocha, Universidade de Pernambuco

Programa de Pós-Graduação em Engenharia de Sistemas na área de Inteligência Computacional e Ciência dos Dados.

Referências

P. TAN, M. STEINBACH, A. KARPATNE E V. KUMAR. Introduction to Data Mining, 2nd ed. Addison- Wesley Longman Publishing. 2018.

CHENG, SHI, ET AL. Survey on data science with population-based algorithms. Big Data Analytics 1.1 2016.

C. J. A. BASTOS FILHO, F. B. D. LIMA NETO, A. J. C. C. LINS, A. I. S. NASCIMENTO E M. P. LIMA, A novel search algorithm based on fish school behavior, IEEE International Conference on Systems,
Man and Cybernetics, 2008.