Redução de Dimensionalidade na Detecção de Doença de Alzheimer utilizando Machine Learning
##plugins.themes.bootstrap3.article.main##
Resumo
Contexto: A redução de dimensionalidade é uma técnica crucial no processamento de dados para análises em machine learning, especialmente em cenários com dados de alta dimensionalidade. Esse problema, conhecido como a "maldição da dimensionalidade," ocorre quando o número de features em um dataset é muito grande em comparação ao número de amostras, o que pode levar a diversos impactos negativos. Primeiramente, a alta dimensionalidade pode resultar em modelos excessivamente complexos, propensos ao overfitting, onde o modelo aprende padrões específicos do conjunto de treinamento, mas falha em generalizar para novos dados. Além disso, a distância entre pontos de dados em um espaço de alta dimensionalidade tende a se tornar uniformemente alta, o que dificulta a detecção de padrões significativos e a análise de similaridades entre os dados (Bengio et al., 2021). Métodos de redução de dimensionalidade, como Principal Component Analysis (PCA) e Linear Discriminant Analysis (LDA), transformam variáveis originais em novas variáveis (componentes) não correlacionadas que explicam a maior parte da variância dos dados (Hastie et al., 2019). Além dessas abordagens, a seleção de features por meio de técnicas como o Recursive Feature Elimination (RFE) também é amplamente utilizada para a finalidade de redução de dimensionalidade (Chen & Lin, 2021). Objetivo: Utilizar o algoritmo de RFE para realizar a seleção de features representativa na base de dados de um conjunto de 120 proteínas presentes no plasma sanguíneo para detecção de Doença de Alzheimer (DA) e outras demências (Ray et al., 2007), de modo a manter o desempenho dos classificadores empregados e promover a redução de dimensionalidade na base de dados. Os classificadores utilizados neste estudo foram quatro, são eles: Árvore de Decisão, K-Nearest Neighbors (K-NN), Support Vector Machine (SVM) e Random Forest. Metodologia: A base de dados utilizada foi apenas o subconjunto de treino e teste referente à doença de Alzheimer, representado em 84 amostras de treinamento e 81 amostras de testes, subdivididas em duas classes: doença de Alzheimer (classe AD) e ausência de demência (classe NDC). Foram planejados e executados dois cenários de experimentos. No primeiro cenário, os quatro classificadores foram treinados e tiveram seu desempenho aferido considerando as métricas de sensibilidade (recall) e f1-score na base de dados completa, considerando todas as 120 features. No segundo cenário, o algoritmo de RFE foi utilizado em conjunto com um estimador de Árvore de Decisão para encontrar uma assinatura representativa de features. Após a seleção de features, os quatro classificadores foram treinados nesta seleção e tiveram seus desempenhos calculados utilizando as métricas do primeiro cenário. Resultados: No primeiro cenário foram calculadas as métricas de sensibilidade e f1-score, respectivamente entre parênteses para cada modelo, dadas por: modelo K-NN (0,95 e 0,85); modelo Random Forest (0,95 e 0,92); modelo SVM (0,88 e 0,90); e modelo de Árvore de Decisão (0,98 e 0,85). Os resultados dos modelos com melhor desempenho foram aqueles baseados em regras, a Árvore de decisão e a Random Forest, que apresentaram altos valores de sensibilidade, enquanto apresentaram uma taxa de f1-score na média dos outros classificadores. Após a execução do algoritmo de RFE, identificou-se uma assinatura com 5 features capaz de manter o desempenho da Árvore de Decisão alcançado utilizando todas as 120 features. Os resultados após a seleção do RFE para o segundo cenário considerando as métricas, sensibilidade e f1-score, respectivamente entre parênteses para cada modelo, foram: modelo K-NN (0,95 e 0,82); modelos de Random Forest e SVM, que apresentaram os mesmos valores (0,99 e 0,88); e modelo de Árvore de Decisão (0,98 e 0,85) apresentando o mesmo desempenho do primeiro cenário. Conclusões: No primeiro cenário de experimentos, os resultados mostram a capacidade dos classificadores de identificarem bem os casos de Alzheimer dentro de todos os casos rotulados, o que é extremamente relevante no contexto de dados altamente sensíveis, pois mensura a capacidade do classificador em identificar os casos verdadeiros positivos e produzir poucos casos de falsos negativos. Falsos negativos seriam casos rotulados como Alzheimer serem erroneamente identificados como saudáveis. No segundo cenário, observou-se que não houve alterações muito significativas no desempenho de dois dos classificadores (SVM e Random Forest), tendo ocorrido um leve decréscimo no valor do f1-score em troca de um leve aumento na sensibilidade. O K-NN teve perda de desempenho, apresentando uma leve queda no f1-score, enquanto manteve o valor de sensibilidade. Já a Árvore de Decisão, utilizada como estimador do RFE manteve o mesmo desempenho. Isso é muito relevante, pois nota-se que 5 features podem ser usadas para produzir o mesmo resultado que todas as 120. Desta maneira, este estudo demonstra que a aplicação de técnicas de seleção de features, como o RFE, pode ser extremamente eficaz na redução de dimensionalidade em bases de dados complexas, como as relacionadas à detecção de doenças neurodegenerativas. A redução do número de features de 120 para 5 permitiu manter o desempenho de alguns classificadores, como a Árvore de Decisão, sem comprometer significativamente a sensibilidade ou o f1-score. Essa simplificação não apenas torna os modelos mais interpretáveis e eficientes, mas também pode reduzir o custo computacional e o tempo de processamento, fatores críticos em aplicações clínicas onde a rapidez e a precisão são essenciais. Esses achados reforçam a importância de métodos como o RFE para a construção de modelos robustos e eficientes em machine learning, especialmente em cenários onde a alta dimensionalidade dos dados pode ser um desafio significativo. Além disso, a manutenção da performance dos classificadores após a redução de dimensionalidade sugere que a maioria das features originais pode ser redundante ou irrelevante, destacando o valor da seleção de features para a melhoria da qualidade dos modelos preditivos. Portanto, a utilização do método RFE é uma importante estratégia para redução de dimensionalidade, pois melhora a interpretabilidade e precisão do modelo e reduz o overfitting em pesquisas biomédicas e outras áreas, onde a análise de grandes conjuntos de dados é necessária.
Downloads
Não há dados estatísticos.
##plugins.themes.bootstrap3.article.details##
Seção
Engenharia da Computação e Sistemas