Treinamento e avaliação de um modelo SVM utilizando a base de dados nacional do SINAN-TB de 2001 a 2019 para auxiliar no resultado do tratamento da tuberculose.
##plugins.themes.bootstrap3.article.main##
Resumo
A tuberculose foi por muitos anos, até a chegada da COVID-19, a principal causa de morte por agente infeccioso no mundo (WHO, 2021). Apesar dos esforços da Organização Mundial da Saúde (OMS) para reduzir a incidência da tuberculose, estima-se que em 2020 cerca de 10 milhões de pessoas adoeceram pela doença e 1,3 milhão de mortes foram registradas em todo o mundo (WHO, 2021). Monitorar os resultados do tratamento da tuberculose é uma tarefa importante que pode ajudar a reduzir a mortalidade precoce de um paciente diagnosticado com essa doença (JIMÉNEZ-CORONA, 2013). Mas, determinar este resultado não é uma tarefa trivial. Há três décadas, o estado de saúde e a qualidade de vida durante o tratamento de uma doença vem recebendo cada vez mais atenção na área da saúde como se pode notar no trabalho de Ware Jr. (1984). O Brasil dispõe do Sistema de Informação de Agravos e Notificação de Tuberculose (SINAN-TB), que contém uma base de dados com registros de pacientes com doenças de notificação compulsória, entre elas a tuberculose. Classificar o resultado do tratamento da tuberculose nas classes de cura e óbito (prognóstico) através deum modelo de machine learning (ML), pode auxiliar profissionais de saúde no processo de tomada de decisão acerca do tratamento associado. O SINAN-TB nacional foi pré-processado no trabalho de Lino Ferreira da Silva Barros et al. (2021a) e com a avaliação dos modelos propostos por Lino Ferreira da Silva Barros et al. (2021b) usando a mesma base de dados pré-processada, o modelo Support Vector Machine (SVM) foi o que obteve o melhor resultado em seis métricas de avaliação incluindo a Matthews correlation coefficient (MCC), com 0.595. Este presente trabalho tem como objetivo treinar e avaliar o modelo SVM usando a base do SINAN-TB nacional pré-processada e verificar se ele possui desempenho melhor que o SVM do experimento de Lino Ferreira da Silva Barros et al. (2021b) que utilizou a base do SINAN-TB do estado do Amazonas. A metodologia utiliza dados do SINAN-TB nacional de 2001 a 2019 já pré-processado, com um total de 964.073 registros de pacientes e 34 atributos, sendo 927.887 pacientes que foram curados com o tratamento e 36.186 pacientes que foram a óbito por tuberculose. Foram realizadas análises estatísticas para entender a relação entre os atributos do SINAN-TB e descartar atributos que não possuem relação estatística com a situação do encerramento do tratamento da tuberculose, sendo o teste de Kruskal-Wallis aplicado para avaliação de atributos contínuos e o teste qui-quadrado, com os graus de liberdade calculados com base no tamanho da tabela de contingência, para avaliar os atributos discretos. Ao mesmo tempo, quatro técnicas de feature selection (SFS, SBS, SFFS, SBFS) foram aplicadas para determinar os atributos mais relevantes para serem utilizados como entrada para o treinamento do modelo SVM. O treinamento do modelo foi realizado com o SINAN-TB nacional pré-processado, que foi balanceado através da técnica de undersampling. A avaliação do modelo será realizada em duas etapas: a) com 30% dos dados do data set balanceado para testes, e também b) verificar a aplicação dos (30,00%) dos dados do data set balanceado para testes mais os dados descartados da classe de cura (891.701) usando a métrica MCC que é adequada para avaliar o desempenho do modelo quando as classes estão desbalanceadas. O objetivo dos testes é verificar a generalização do modelo SVM. Ao balancear um data set com técnicas de undersampling, todos os dados da classe majoritária são descartados. utilizou-se Esses dados foram utilizados para avaliar a generalização do modelo SVM. Porém, para ser justo com um modelo treinado com um data set balanceado, precisamos avaliar o desempenho geral do modelo utilizando uma métrica adequada. Para isso, utilizou-se a métrica MCC que não é afetada pelo desbalanceamento do data set (CHICO e JURMAN, 2020). Como resultado da análise de correlação estatística, todos os atributos resultaram em , e concluiu-se que os atributos possuem relação de dependência, assim nenhum dos atributos foram descartados nesta etapa. Com relação as técnicas de feature selecion o objetivo foi não apenas selecionar os atributos mais relevantes, mas reduzir a dimensionalidade para facilitar o uso efetivo do modelo pelos profissionais de saúde, mas ao mesmo tempo sem comprometer a qualidade do modelo. Para isso, utilizou-se como referência a média da métrica F1-score e o número de atributos selecionados por cada técnica. As técnicas SFS e SBS selecionaram 11 atributos cada uma com um F1-score médio de 91,87% e 91,63% respectivamente, enquanto as técnicas SFFS e SBFS selecionaram 12 atributos cada com um F1-score médio de 91,79% e 91,84%. Por fim, foram selecionados os 11 atributos da técnica SFS para compor o conjunto de dados, que foram: 'NU_IDADE_N', 'TRATAMENTO', 'RAIOX_TORA', 'TESTE_TUBE', 'FORMA', 'AGRAVDOENC', 'BACILOSC_E', 'BACILOS_E2', 'HIV', 'BACILOSC_6', 'DIAS'. Em seguida, aplicou-se a técnica de randomized search no modelo SVM e o melhor F1-score obtido foi de 91,78% com os parâmetros do kernel: RBF e gama: scale. Em seguida, reservou-se 70,00% para dados de treinamento e validação usando validação cruzada com k-fold=5 e reservou-se 30,00% para teste (avaliação) usando a métrica F1-macro. O F1-macro médio do modelo SVM foi de 91,43% (±0,000571). Também avaliamos a curva AUC e o resultado foi de 95,00%. Vale salientar que no trabalho de Lino Ferreira da Silva Barros et al. (2021b) usando o SINAN-TB balanceado pré-processado do estado do Amazonas, o modelo SVM obteve durante o treinamento F1-macro de 89,76% (±0.039). Finalmente, submeteu-se o modelo SVM para testes. Primeiramente, utilizou-se 30% do SINAN-TB nacional balanceado com 21.712 registros de pacientes com tuberculose (10.909 CURADOS e 10.803 ÓBITOS). Em seguida, utilizou-se (30,00%) dos dados do data set balanceado para testes (10.909 CURADOS e 10.803 ÓBITOS) mais os dados descartados da classe de cura (891.701 CURADOS), ou seja, 902.610 CURADOS e 10.803 ÓBITOS para avaliar o desempenho do modelo em uma base desbalanceada e com mais dados. Para os testes usando os 30% do SINAN-TB nacional pré-processado balanceado o resultado da métrica F1-macro foi de 91,80%, e 70,43% usando os dados de testes mais os descartados durante o balanceamento. Em comparação com Lino Ferreira da Silva Barros et al. (2021b), usando o SINAN-TB balanceado pré-processado do estado do Amazonas, o modelo SVM obteve durante o teste F1-macro de 79,76%. Por fim, o resultado para a métrica MCC usando 30,00% dos dados de testes foi de 0.836643 e usando a base para testes desbalanceada foi de 0.30182. Conclui-se portanto, que o modelo SVM treinado com a base de dados balanceada do SINAN-TB nacional pré-processado obteve melhores resultados em comparação com o modelo SVM proposto anteriormente usando o SINAN-TB balanceado pré-processado do estado do Amazonas. Destaca-se o alcance de 0.836643 de MCC durante os testes com dados nacionais balanceados e MCC de 0.30182 para uma projeção de classificação para 913.413 registros da base do SINAN-TB nacional pré-processado. Assim, recomenda-se utilizar o modelo SVM em uma plataforma denominada de DeepTub++ que será desenvolvida para auxiliar o profissional de saúde na tomada de decisão com relação ao tratamento de tuberculose mais adequado dada a gravidade do paciente indicada pelo modelo.
Downloads
Não há dados estatísticos.
##plugins.themes.bootstrap3.article.details##
Edição
Seção
Engenharia da Computação e Sistemas