Treinamento e avaliação de um modelo SVM utilizando a base de dados nacional do SINAN-TB de 2001 a 2019 para auxiliar no resultado do tratamento da tuberculose.

##plugins.themes.bootstrap3.article.main##

Maicon Herverton Lino Ferreira da Silva Barros
Vanderson Sampaio
Patricia Takako Endo

Resumo

A tuberculose foi por muitos anos, até a chegada da COVID-19, a principal causa de morte por agente infeccioso no mundo (WHO, 2021). Apesar dos esforços da Organização Mundial da Saúde (OMS) para reduzir a incidência da tuberculose, estima-se que em 2020 cerca de 10 milhões de pessoas adoeceram pela doença e 1,3 milhão de mortes foram registradas em todo o mundo (WHO, 2021). Monitorar os resultados do tratamento da tuberculose é uma tarefa importante que pode ajudar a reduzir a mortalidade precoce de um paciente diagnosticado com essa doença (JIMÉNEZ-CORONA, 2013). Mas, determinar este resultado não é uma tarefa trivial. Há três décadas, o estado de saúde e a qualidade de vida durante o tratamento de uma doença vem recebendo cada vez mais atenção na área da saúde como se pode notar no trabalho de Ware Jr. (1984). O Brasil dispõe do Sistema de Informação de Agravos e Notificação de Tuberculose (SINAN-TB), que contém uma base de dados com registros de pacientes com doenças de notificação compulsória, entre elas a tuberculose. Classificar o resultado do tratamento da tuberculose nas classes de cura e óbito (prognóstico) através deum modelo de machine learning (ML), pode auxiliar profissionais de saúde no processo de tomada de decisão acerca do tratamento associado. O SINAN-TB nacional foi pré-processado no trabalho de Lino Ferreira da Silva Barros et al. (2021a) e com a avaliação dos modelos propostos por Lino Ferreira da Silva Barros et al. (2021b) usando a mesma base de dados pré-processada, o modelo Support Vector Machine (SVM) foi o que obteve o melhor resultado em seis métricas de avaliação incluindo a Matthews correlation coefficient (MCC), com 0.595. Este presente trabalho tem como objetivo treinar e avaliar o modelo SVM usando a base do SINAN-TB nacional pré-processada e verificar se ele possui desempenho melhor que o SVM do experimento de Lino Ferreira da Silva Barros et al. (2021b) que utilizou a base do SINAN-TB do estado do Amazonas. A metodologia utiliza dados do SINAN-TB nacional de 2001 a 2019 já pré-processado, com um total de 964.073 registros de pacientes e 34 atributos, sendo 927.887 pacientes que foram curados com o tratamento e 36.186 pacientes que foram a óbito por tuberculose. Foram realizadas análises estatísticas para entender a relação entre os atributos do SINAN-TB e descartar atributos que não possuem relação estatística com a situação do encerramento do tratamento da tuberculose, sendo o teste de Kruskal-Wallis aplicado para avaliação de atributos contínuos e o teste qui-quadrado, com os graus de liberdade calculados com base no tamanho da tabela de contingência, para avaliar os atributos discretos. Ao mesmo tempo, quatro técnicas de feature selection (SFS, SBS, SFFS, SBFS) foram aplicadas para determinar os atributos mais relevantes para serem utilizados como entrada para o treinamento do modelo SVM. O treinamento do modelo foi realizado com o SINAN-TB nacional pré-processado, que foi balanceado através da técnica de undersampling.  A avaliação do modelo será realizada em duas etapas: a) com 30% dos dados do data set balanceado para testes, e também b) verificar a aplicação dos (30,00%) dos dados do data set balanceado para testes mais os dados descartados da classe de cura (891.701) usando a métrica MCC que é adequada para avaliar o desempenho do modelo quando as classes estão desbalanceadas. O objetivo dos testes é verificar a generalização do modelo SVM. Ao balancear um data set com técnicas de undersampling, todos os dados da classe majoritária são descartados. utilizou-se Esses dados foram utilizados para avaliar a generalização do modelo SVM. Porém, para ser justo com um modelo treinado com um data set balanceado, precisamos avaliar o desempenho geral do modelo utilizando uma métrica adequada. Para isso, utilizou-se a métrica MCC que não é afetada pelo desbalanceamento do data set (CHICO e JURMAN, 2020). Como resultado da análise de correlação estatística, todos os atributos resultaram em , e concluiu-se que os atributos possuem relação de dependência, assim nenhum dos atributos foram descartados nesta etapa. Com relação as técnicas de feature selecion o objetivo foi não apenas selecionar os atributos mais relevantes, mas reduzir a dimensionalidade para facilitar o uso efetivo do modelo pelos profissionais de saúde, mas ao mesmo tempo sem comprometer a qualidade do modelo. Para isso, utilizou-se como referência a média da métrica F1-score e o número de atributos selecionados por cada técnica. As técnicas SFS e SBS selecionaram 11 atributos cada uma com um F1-score médio de 91,87% e 91,63% respectivamente, enquanto as técnicas SFFS e SBFS selecionaram 12 atributos cada com um F1-score médio de 91,79% e 91,84%. Por fim, foram selecionados os 11 atributos da técnica SFS para compor o conjunto de dados, que foram: 'NU_IDADE_N', 'TRATAMENTO', 'RAIOX_TORA', 'TESTE_TUBE', 'FORMA', 'AGRAVDOENC', 'BACILOSC_E', 'BACILOS_E2', 'HIV', 'BACILOSC_6', 'DIAS'. Em seguida, aplicou-se a técnica de randomized search no modelo SVM e o melhor F1-score obtido foi de 91,78% com os parâmetros do kernel: RBF e gama: scale. Em seguida, reservou-se 70,00% para dados de treinamento e validação usando validação cruzada com k-fold=5 e reservou-se 30,00% para teste (avaliação) usando a métrica F1-macro. O F1-macro médio do modelo SVM foi de 91,43% (±0,000571). Também avaliamos a curva AUC e o resultado foi de 95,00%. Vale salientar que no trabalho de Lino Ferreira da Silva Barros et al. (2021b) usando o SINAN-TB balanceado pré-processado do estado do Amazonas, o modelo SVM obteve durante o treinamento F1-macro de 89,76% (±0.039). Finalmente, submeteu-se o modelo SVM para testes. Primeiramente, utilizou-se 30% do SINAN-TB nacional balanceado com 21.712 registros de pacientes com tuberculose (10.909 CURADOS e 10.803 ÓBITOS). Em seguida, utilizou-se (30,00%) dos dados do data set balanceado para testes (10.909 CURADOS e 10.803 ÓBITOS) mais os dados descartados da classe de cura (891.701 CURADOS), ou seja, 902.610 CURADOS e 10.803 ÓBITOS para avaliar o desempenho do modelo em uma base desbalanceada e com mais dados. Para os testes usando os 30% do SINAN-TB nacional pré-processado balanceado o resultado da métrica F1-macro foi de 91,80%, e 70,43% usando os dados de testes mais os descartados durante o balanceamento. Em comparação com Lino Ferreira da Silva Barros et al. (2021b), usando o SINAN-TB balanceado pré-processado do estado do Amazonas, o modelo SVM obteve durante o teste F1-macro de 79,76%. Por fim, o resultado para a métrica MCC usando 30,00% dos dados de testes foi de 0.836643 e usando a base para testes desbalanceada foi de 0.30182. Conclui-se portanto, que o modelo SVM treinado com a base de dados balanceada do SINAN-TB nacional pré-processado obteve melhores resultados em comparação com o modelo SVM proposto anteriormente usando o SINAN-TB balanceado pré-processado do estado do Amazonas. Destaca-se o alcance de 0.836643 de MCC durante os testes com dados nacionais balanceados e MCC de 0.30182 para uma projeção de classificação para 913.413 registros da base do SINAN-TB nacional pré-processado. Assim, recomenda-se utilizar o modelo SVM em uma plataforma denominada de DeepTub++ que será desenvolvida para auxiliar o profissional de saúde na tomada de decisão com relação ao tratamento de tuberculose mais adequado dada a gravidade do paciente indicada pelo modelo.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas
Biografia do Autor

Maicon Herverton Lino Ferreira da Silva Barros, Universidade de Pernambuco

Doutorando em engenharia da computação, pelo programa de pós-graduação da Escola Politécnica de Pernambuco, da Universidade de Pernambuco (PPGEC - POLI - UPE), mestre em informática aplicada (UFRPE, 2013), Bacharel em Sistemas de Informação (UFRPE, 2011). Trabalhou como Analista de Sistemas e auditor de TI (2009-2015). Atualmente é Diretor na empresa LIFE CTI realizando consultorias técnicas nas áreas contábeis/fiscais através da auditoria eletrônica e inteligência artificial em documentos fiscais para recuperação de impostos e prevenção de autos de infrações. Foi professor da Faculdade São Miguel (UniSãoMiguel, 2017-2019), coordenador do curso de Análise e Desenvolvimento de Software da Faculdade Alpha (2019). Foi professor e tutor no curso técnico de informática da Secretaria de Educação do Estado de Pernambuco (SEEP, 2012-2015). Foi professor universitário na Faculdade Escritor Osman Lins (FACOL, 2014-2017), onde criou e comandou o departamento de robótica em parceria com a Universidade de Coimbra - Portugal (2017). Trabalhou como professor pesquisador no Instituto Federal de Pernambuco (IFPE, 2015-2016). Fez parte do corpo editorial e científico da revista S.I.nforme'17, como General Chair (2017) e do comitê científico do evento CISTI'17, CISTI'18 , CISTI'19 e CISTI'21 Conferência Ibérica de Sistemas e Tecnologias de Informação que acontece anualmente em Portugal/Espanha. É membro associado do IEEE Bahia Section #94484272. É membro do grupo de pesquisa dotLAB Brazil coordenado pela professora Patrícia Takako Endo em parceria com a Dublin City University (DCU). 

Vanderson Sampaio, Pesquisador no Instituto Todos Pela Saúde - ITpS

É Doutor em Medicina Tropical pela Universidade do Estado do Amazonas e Fundação de Medicina Tropical Doutor Heitor Vieira Dourado, mestre em Genética e Biologia Molecular pela Universidade Federal do Pará, especialista em Bioinformática pelo Laboratório Nacional de Computação Científica (LNCC) e graduado em Biologia também pela Universidade Federal do Pará (2001). É Pesquisador Adjunto na Fundação de Medicina Tropical Dr. Heitor Vieira Dourado (FMT-HVD), onde atua em projetos de pesquisa nacionais e internacionais envolvendo Doenças Infecciosas e Tropicais como Malária, Tuberculose, arboviroses, HIV/AIDS, Leishmaniose, Doenças de Chagas, etc. É Coordenador e Professor do quadro permanente do Programa de Pós-Graduação em Medicina Tropical (UEA/FMT-HVD). Também pertence ao corpo permanente dos Programas de Saúde Pública (Fiocruz-ILMD/UFAM/UEA) e PPGBionorte (UEA), onde orienta estudantes de mestrado e doutorado. É Biólogo da Fundação de Vigilância em Saúde do Amazonas (FVS-AM) desde 2006. Como técnico da FVS-AM, atuou no nível gerencial, assessorando os Programas de Controle de Doenças de Transmissão Vetorial, nos componentes: entomologia e controle vetorial, diagnóstico e tratamento de doenças, políticas dos programas, organização logística e capacitações nos temas citados. Possui conhecimentos nas áreas de Epidemiologia, bioestatística e análise de dados, entomologia, controle vetorial, georreferenciamento, uso de sistemas de informação geográfica e desenvolvimento de softwares e scripts para análise de bancos de dados computacionais.

Patricia Takako Endo, Universidade de Pernambuco

É Professora Associada da Universidade de Pernambuco (UPE), atuando no curso de Bacharelado em Sistemas de Informação - Campus Caruaru, e como membro permanente do Programa de Pós-Graduação em Engenharia de Computação (PPGEC) da Escola Politécnica de Pernambuco (POLI/UPE). Atualmente, é Coordenadora Setorial de Pesquisa do Campus Caruaru e Vice-Coordenadora do PPGEC. É líder do GRupo de Estudos Avançados em Tecnologia da Informação e Comunicação (GREAT) e do dotLAB Brazil da UPE, pesquisadora do Grupo de Pesquisa em Redes e Telecomunicações (GPRT) da Universidade Federal de Pernambuco (UFPE) e pesquisadora colaboradora na Dublin City University (DCU), Irlanda. Possui doutorado em Ciência da Computação pelo Centro de Informática (CIn) pela UFPE (2014), mestrado em Ciência da Computação pela UFPE (2008) na área de Redes de Computadores e graduação em Engenharia de Computação pela Universidade Federal do Pará (2005). Tem experiência na área de Engenharia da Computação, com ênfase em redes de computadores, telecomunicações e data science, atuando principalmente nos seguintes temas: tecnologias de rede, redes wireless, cloud computing, fog computing, sistemas e-health, data science aplicada a saúde. (Texto informado pelo autor)