Avaliação de modelos de machine learning utilizando a base de dados nacional do SINAN-TB de 2001 a 2019 para auxiliar no prognóstico da tuberculose.

##plugins.themes.bootstrap3.article.main##

Maicon Herverton Lino Ferreira da Silva Barros
Vanderson Sampaio

Resumo

A tuberculose é uma doença infecciosa transmitida pelo ar e continua a ser uma das principais causas de mortalidade em países de baixa e média renda (PAI et al., 2016)(OMS, 2020). Apesar dos esforços da Organização Mundial da Saúde (OMS) para reduzir a incidência da tuberculose, 10 milhões de pessoas adoeceram pela doença e 1,2 milhão de mortes foram registradas em 2019 em todo o mundo (OMS, 2020). Uma vez realizado o diagnóstico, é necessário entender a gravidade da situação clínica para tomar decisões sobre o tratamento mais adequado. Esta etapa é essencial para uma análise mais confiável do risco do desfecho no tratamento da doença. O Brasil  dispõe do Sistema de Informação de Agravos e Notificação de Tuberculose (SINAN-TB), que contém uma base de dados com registros de pacientes com doenças de notificação compulsória, como é o caso da tuberculose. Utilizar estes dados para prever a probabilidade de morte por tuberculose de um determinado paciente pode auxiliar o profissional de saúde no prognóstico e no processo de tomada de decisão acerca do tratamento associado. Contudo, a base de dados do SINAN-TB apresenta muitos atributos, registros com ruído, dados ausentes, adição de novos atributos no espaço e tempo. No trabalho de Lino Ferreira da Silva Barros et al. (2021), oito modelos de machine learning foram escolhidos a partir de um benchmark realizado pelos autores em cenários de balanceamento e desbalanceamento do conjunto de dados com informações sobre pacientes do estado do Amazonas dos anos de 2007 a 2018. Este presente trabalho tem como objetivo testar esses modelos em uma base de dados maior, e para tanto utilizou-se o SINAN-TB nacional pré-processado, e avaliou-se dois modelos: o Gradient Boosting e o SVM, utilizando os mesmos atributos do trabalho de Lino Ferreira da Silva Barros et al. (2021). A metodologia utiliza dados do SINAN-TB nacional de 2001 a 2019, que contém 1.712.205 de registros e 88 atributos com informações sobre pacientes diagnosticados com tuberculose. O pré-processamento realizado por Lino Ferreira da Silva Barros, Sampaio e Endo (2020) foi utilizado com a base de dados do SINAN-TB nacional. Seis métricas convencionais (acurácia, precisão, sensibilidade, especificidade, F1-score e AUC ROC) e duas métricas específicas (F1-macro e a Matthews correlation coefficient (MCC)) (CHICO e JURMAN, 2020) foram utilizadas para avaliação. Como resultado do pré-processamento do SINAN-TB nacional, o novo conjunto de dados ficou com um total de 954.433 registros de pacientes e 38 atributos, sendo 918.604 pacientes que foram curados com o tratamento e 35.829 pacientes que foram a óbito por tuberculose. Como resultado dos testes com a base do SINAN-TB nacional, o modelo SVM apresentou o melhor resultado em seis métricas: acurácia (95.41%), especificidade (95.79%), F1-score (97.57%), AUC ROC (90.69%), F1-macro (77.94%) e MCC (0.595), enquanto o modelo GB apresentou os melhores resultados em duas métricas: precisão (99.68%) e sensibilidade (90.96%). Para avaliar qual o modelo de classificação apresenta melhor desempenho no prognóstico da tuberculose em problema de classificação binária, é necessário identificar em qual classe alvo o profissional de saúde deseja predizer com maior segurança. A sensibilidade detecta pacientes, neste caso, com prognóstico de óbito por tuberculose; e a especificidade detecta pacientes com prognóstico de cura pela tuberculose (ALTMAN e BLAND, 1994). Por outro lado, outras métricas de avaliação são úteis para entender o grau de sucesso de um modelo computacional em geral. Em Lino Ferreira da Silva Barros et al. (2021), os autores utilizaram a métrica F1-macro para analisar o desempenho geral dos modelos. A métrica F1-macro é invariante à troca de classe, embora apresente um comportamento generalizado do modelo. Segundo Chicco e Jurman (2020), a métrica F1-macro pode ser enviesada, por isso, o uso da métrica MCC é a mais indicada quando se deseja obter uma métrica que avalie o modelo em geral (as quatro categorias da matriz de confusão), independentemente de desbalanceamento dos dados. Conclui-se portanto, que levando em consideração que a predição de ambas as classes é importante no prognóstico da tuberculose, o melhor modelo para predizer o prognóstico da tuberculose utilizando a base de dados de saúde do Brasil é o modelo SVM que obteve o melhor resultado para seis métricas de avaliação, incluindo a melhor MCC (0.595). Assim, pode-se utilizar o modelo SVM em uma ferramenta que será desenvolvida para auxiliar o profissional de saúde na tomada de decisão com relação ao tratamento de tuberculose mais adequado dada a gravidade do paciente.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas
Biografia do Autor

Maicon Herverton Lino Ferreira da Silva Barros, Universidade de Pernambuco

Doutorando em engenharia da computação, pelo programa de pós-graduação da Escola Politécnica de Pernambuco, da Universidade de Pernambuco (PPGEC - POLI - UPE), mestre em informática aplicada (UFRPE, 2013), Bacharel em Sistemas de Informação (UFRPE, 2011). Trabalhou como Analista de Sistemas e auditor de TI (2009-2015). Atualmente é Diretor na empresa LIFE CTI realizando consultorias técnicas nas áreas contábeis/fiscais através da auditoria eletrônica e inteligência artificial em documentos fiscais para recuperação de impostos e prevenção de autos de infrações. Foi professor da Faculdade São Miguel (UniSãoMiguel, 2017-2019), coordenador do curso de Análise e Desenvolvimento de Software da Faculdade Alpha (2019). Foi professor e tutor no curso técnico de informática da Secretaria de Educação do Estado de Pernambuco (SEEP, 2012-2015). Foi professor universitário na Faculdade Escritor Osman Lins (FACOL, 2014-2017), onde criou e comandou o departamento de robótica em parceria com a Universidade de Coimbra - Portugal (2017). Trabalhou como professor pesquisador no Instituto Federal de Pernambuco (IFPE, 2015-2016). Fez parte do corpo editorial e científico da revista S.I.nforme'17, como General Chair (2017) e do comitê científico do evento CISTI'17, CISTI'18 , CISTI'19 e CISTI'21 Conferência Ibérica de Sistemas e Tecnologias de Informação que acontece anualmente em Portugal/Espanha. É membro associado do IEEE Bahia Section #94484272. É membro do grupo de pesquisa dotLAB Brazil coordenado pela professora Patrícia Takako Endo em parceria com a Dublin City University (DCU).