Aplicação de técnicas de record linkage e feature selection para análise e seleção de características em uma base de dados integrada do SINAN

##plugins.themes.bootstrap3.article.main##

Maicon Herverton Lino Ferreira da Silva Barros
Vanderson Sampaio
Patricia Takako Endo

Resumo

Como parte do plano de ação global da Agenda 2030 das Organizações das Nações Unidas (ONU), o Brasil tem como alguns dos seus objetivos acabar com epidemias como tuberculose, AIDS, doenças tropicais negligenciadas e outras. O Governo Federal é responsável por manter e atualizar duas bases de dados de saúde: a base do Sistema de Informação de Agravos e Notificação (SINAN), que contém registros de pacientes com diagnósticos de doenças de notificação compulsória, e a base de dados do Sistema de Informações e Mortes do Brasil (SIM), que possui registros de pessoas que foram a óbito. Entretanto, a base de dados do SINAN pode apresentar informações inconsistentes/desatualizadas quanto aos pacientes que foram a óbito (BARROS, 2020), além de erros de escrita na inserção dos dados. Os principais objetivos deste trabalho são (a) integrar as bases de dados SINAN e SIM utilizando técnicas de record linkage, focando especificamente nos casos de óbito por tuberculose e (b) identificar características relevantes, através de técnicas de feature selection, que possam ser utilizadas para predição de prognóstico de tuberculose. Para tanto, a metodologia aplicada utiliza dados do SINAN de 2007 a 2018 do estado do Amazonas, contendo 36.209 registros sendo 1.221 de óbitos por tuberculose; e dados do SIM, contendo 205.290 registros, sendo 2.866 de óbito por tuberculose. Em trabalho anterior, Barros et al. (2020) aplicou duas técnicas de record linkage, Soundex e Jaro, para integrar essas bases, e obteve 1.758 correspondências de óbitos com a técnica Soundex e 1.805 com a Jaro. Neste trabalho, a técnica de record linkage aplicada nas bases é a Jaro-Winkler. Dada esta nova versão da base de dados integrada, são aplicadas as seguintes etapas de pré-processamento: (a) remoção de linhas com valores ‘NaN’, ou seja, valores vazios, da coluna ‘SITUA_ENCE’ que contém a codificação para registros de óbitos; (b) remoção das colunas que são compostas, em sua grande parte ou totalmente, com valores ‘NaN’; (c) remoção das colunas iniciadas com ‘ID’, que são dados de identificadores sequenciais que ligam uma tabela de banco de dados a outra com relação ao município de transferência, logradouro dentre outros dados que não possuem relação com dados clínicos ou laboratoriais do paciente; bem como as colunas iniciadas com ‘DT’ referentes a datas que são irrelevantes ao contexto, com exceção da ‘DT_NOTIFIC’ e ‘DT_NASC’; (d) remoção de colunas com valores irrelevantes ao contexto da tuberculose, como: ‘BENEF_GOV’, ‘TRANSF’, ‘NU_LOTE’ e ‘NU_TELEFON’; (e) substituição dos campos com valores ‘NaN’ pelo número 9.0 (significando “outros”), uma vez que a etapa (b) não eliminou todos os valores ‘NaN’; f) remoção das linhas com valores diferentes de ‘1’ e ‘3’ para a coluna ‘SITUA_ENCE’, ou seja, remoção de todas as situações de encerramento do tratamento que sejam diferentes de ‘1’ (curado) e ‘3’ (óbito); (g) cálculo da quantidade de dias que o paciente passou em tratamento através das colunas ‘DT_NOTIFIC’ e ‘DT_ENCERRA’ para agregar ao conjunto de dados a nova coluna denominada de ‘DIAS’; (h) cálculo da idade através das colunas ‘DT_NOTIFIC’ e ‘DT_NASC’ para agregar aos dados a coluna nova coluna denominada de ‘IDADE’; por erro de digitação, algumas datas de nascimento são inferiores às datas de notificação, estes registros dos pacientes foram excluídos;(i) remoção de registros duplicados, duas ou mais linhas que possuem o mesmo valor em todas as colunas; (j) remoção do índice de dados. Para o balanceamento do conjunto de dados a coluna ‘SITUA_ENCE’ foi utilizada a técnica under-sampling (ALENCAR, 2020), realizando a redução randômica entre duas classes, igualando a classe com maior ocorrência (cura por tuberculose) com a classe de menor ocorrência (óbito por tuberculose). Em seguida, os dados foram normalizados com valores entre 0 e 1, e geraram a nova base de dados, denominada de SINAN TB. As técnicas de feature selection foram aplicadas para seleção de 17 características (baseado no trabalho de Rocha (2020)). As técnicas utilizadas foram: Sequential Forward Selection (SFS), Sequential Backward Selection (SBS), Sequential Forward Floating Selection (SFFS) e Sequential Backward Floating Selection (SBFS). Para o experimento com as técnicas de feature selection, é utilizado um classificador do tipo Random Forest e a métrica comparativa é a F1-score por apresentar uma relação entre as métricas de sensibilidade e precisão, importantes métricas para área da saúde. Como resultado da técnica de record linkage, o Jaro-Winkler obteve um total 1.964 correspondências corretas, das quais 76 já estavam registradas no SINAN. Desta forma, a nova base integrada SINAN TB ficou com um total de 3.109 óbitos identificados. Após as etapas de pré-processamento apresentadas na metodologia, a base SINAN TB ficou composta por 50 colunas (características), contendo 21.552 registros de pacientes de curados e 2.799 de óbitos por tuberculose, este número de óbitos é justificado pois as etapas de pré-processamento (h) e (i) eliminaram registros com idades incorretas ou registros duplicados da SINAN TB. Por fim, após a aplicação da técnica de under-sampling, o conjunto de dados resultou em 5.598 registros de curados e óbitos por tuberculose, ambos com 2.799 registros. As características mais comuns selecionadas entre as técnicas de feature selection, podendo elas estarem entre 4, 3 e 2 técnicas, foram: ‘AGRAVALCOO’ (4), ‘DIAS’ (4), ‘TRATAMENTO’ (2), ‘HIV’ (2), ‘POP_SAUDE’ (2), ‘AGRAVTABAC’ (2), ‘AGRAVDROGA’ (2), ‘IDADE’ (2), ‘TESTE_TUBE’ (2), ‘BACILOSC_E’ (2), ‘CULTURA_ES’ (2), ‘HISTOPATOL’ (2), ‘PIRAZINAMI’ (2), ‘BACILOSC_1’ (2). Todos os algoritmos foram executados 5 vezes sob validação cruzada. A técnica SFS, apresentou média de f1-score de 75,44% com desvio padrão de 0,007, e tempo de médio de execução de 27,30 minutos. A técnica SBS apresentou média de f1-score de 78,08% com desvio padrão de 0,01, e tempo médio de execução de 59,35 minutos. A técnica SFFS apresentou uma média de f1-score de 74,93% com desvio padrão de 0,01, e tempo médio de 49,16 minutos. Por fim, a técnica SBFS mostrou uma média de f1-score de 78,21% com desvio padrão de 0,01e tempo médio de execução de 138,86 minutos. Conclui-se portanto, que a técnica com melhor f1-score foi a SBFS, mas ela também foi a técnica com maior tempo médio de execução. Em contrapartida, a técnica com menor tempo médio de execução foi a SFS, com f1-score de 75,44%. Como trabalho futuro, pretende-se utilizar a nova base SINAN TB como entrada em redes do tipo multilayer perceptron (MLP) para predição de prognóstico por tuberculose.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas
Biografia do Autor

Vanderson Sampaio, Fundação de Medicina Tropical Doutor Heitor Vieira Dourado

É Doutor em Medicina Tropical pela Universidade do Estado do Amazonas e Fundação de Medicina Tropical Doutor Heitor Vieira Dourado, mestre em Genética e Biologia Molecular pela Universidade Federal do Pará, especialista em Bioinformática pelo Laboratório Nacional de Computação Científica (LNCC) e graduado em Biologia também pela Universidade Federal do Pará (2001). É Pesquisador Adjunto na Fundação de Medicina Tropical Dr. Heitor Vieira Dourado (FMT-HVD), onde atua em projetos de pesquisa nacionais e internacionais envolvendo Doenças Infecciosas e Tropicais como Malária, Tuberculose, arboviroses, HIV/AIDS, Leishmaniose, Doenças de Chagas, etc. É também Professor do quadro permanente dos Programas de Pós-Graduação em Medicina Tropical (UEA/FMT-HVD) e de Ciências da Saúde (UFAM), onde orienta estudantes de mestrado e doutorado. É Biólogo da Fundação de Vigilância em Saúde do Amazonas (FVS-AM) desde 2006. Como técnico da FVS-AM, atuou no nível gerencial, assessorando os Programas de Controle de Doenças de Transmissão Vetorial, nos componentes: entomologia e controle vetorial, diagnóstico e tratamento de doenças, políticas dos programas, organização logística e capacitações nos temas citados. Possui conhecimentos nas áreas de Epidemiologia, bioestatística e análise de dados, entomologia, controle vetorial, georreferenciamento, uso de sistemas de informação geográfica e desenvolvimento de softwares e scripts para análise de bancos de dados computacionais. (Texto informado pelo autor)

Patricia Takako Endo, Universidade de Pernambuco

Atualmente é professora adjunta de graduação da Universidade de Pernambuco (UPE) - Campus Caruaru, e membro permanente do Programa de Pós-Graduação em Engenharia de Computação (PPGEC) da Escola Politécnica de Pernambuco (POLI/UPE), atuando como coordenadora Setorial de Pesquisa do Campus Caruaru e vice-coordenadora do PPGEC. É líder do GRupo de Estudos Avançados em Tecnologia da Informação e Comunicação (GREAT) e do dotLAB Brazil da UPE, pesquisadora do Grupo de Pesquisa em Redes e Telecomunicações (GPRT) da UFPE e pesquisadora colaboradora na Dublin City University (DCU), Irlanda. Possui doutorado em Ciência da Computação pelo Centro de Informática (CIn) pela Universidade Federal de Pernambuco (2014), mestrado em Ciência da Computação pela Universidade Federal de Pernambuco (2008) na área de Redes de Computadores e graduação em Engenharia de Computação pela Universidade Federal do Pará (2005). Tem experiência na área de Engenharia da Computação, com ênfase em redes de computadores, telecomunicações e data science, atuando principalmente nos seguintes temas: tecnologias de rede, redes wireless, cloud computing, fog computing, sistemas e-health, data science aplicada a saúde.