Aplicação de técnicas de record linkage e feature selection para análise e seleção de características em uma base de dados integrada do SINAN
##plugins.themes.bootstrap3.article.main##
Resumo
Como parte do plano de ação global da Agenda 2030 das Organizações das Nações Unidas (ONU), o Brasil tem como alguns dos seus objetivos acabar com epidemias como tuberculose, AIDS, doenças tropicais negligenciadas e outras. O Governo Federal é responsável por manter e atualizar duas bases de dados de saúde: a base do Sistema de Informação de Agravos e Notificação (SINAN), que contém registros de pacientes com diagnósticos de doenças de notificação compulsória, e a base de dados do Sistema de Informações e Mortes do Brasil (SIM), que possui registros de pessoas que foram a óbito. Entretanto, a base de dados do SINAN pode apresentar informações inconsistentes/desatualizadas quanto aos pacientes que foram a óbito (BARROS, 2020), além de erros de escrita na inserção dos dados. Os principais objetivos deste trabalho são (a) integrar as bases de dados SINAN e SIM utilizando técnicas de record linkage, focando especificamente nos casos de óbito por tuberculose e (b) identificar características relevantes, através de técnicas de feature selection, que possam ser utilizadas para predição de prognóstico de tuberculose. Para tanto, a metodologia aplicada utiliza dados do SINAN de 2007 a 2018 do estado do Amazonas, contendo 36.209 registros sendo 1.221 de óbitos por tuberculose; e dados do SIM, contendo 205.290 registros, sendo 2.866 de óbito por tuberculose. Em trabalho anterior, Barros et al. (2020) aplicou duas técnicas de record linkage, Soundex e Jaro, para integrar essas bases, e obteve 1.758 correspondências de óbitos com a técnica Soundex e 1.805 com a Jaro. Neste trabalho, a técnica de record linkage aplicada nas bases é a Jaro-Winkler. Dada esta nova versão da base de dados integrada, são aplicadas as seguintes etapas de pré-processamento: (a) remoção de linhas com valores ‘NaN’, ou seja, valores vazios, da coluna ‘SITUA_ENCE’ que contém a codificação para registros de óbitos; (b) remoção das colunas que são compostas, em sua grande parte ou totalmente, com valores ‘NaN’; (c) remoção das colunas iniciadas com ‘ID’, que são dados de identificadores sequenciais que ligam uma tabela de banco de dados a outra com relação ao município de transferência, logradouro dentre outros dados que não possuem relação com dados clínicos ou laboratoriais do paciente; bem como as colunas iniciadas com ‘DT’ referentes a datas que são irrelevantes ao contexto, com exceção da ‘DT_NOTIFIC’ e ‘DT_NASC’; (d) remoção de colunas com valores irrelevantes ao contexto da tuberculose, como: ‘BENEF_GOV’, ‘TRANSF’, ‘NU_LOTE’ e ‘NU_TELEFON’; (e) substituição dos campos com valores ‘NaN’ pelo número 9.0 (significando “outros”), uma vez que a etapa (b) não eliminou todos os valores ‘NaN’; f) remoção das linhas com valores diferentes de ‘1’ e ‘3’ para a coluna ‘SITUA_ENCE’, ou seja, remoção de todas as situações de encerramento do tratamento que sejam diferentes de ‘1’ (curado) e ‘3’ (óbito); (g) cálculo da quantidade de dias que o paciente passou em tratamento através das colunas ‘DT_NOTIFIC’ e ‘DT_ENCERRA’ para agregar ao conjunto de dados a nova coluna denominada de ‘DIAS’; (h) cálculo da idade através das colunas ‘DT_NOTIFIC’ e ‘DT_NASC’ para agregar aos dados a coluna nova coluna denominada de ‘IDADE’; por erro de digitação, algumas datas de nascimento são inferiores às datas de notificação, estes registros dos pacientes foram excluídos;(i) remoção de registros duplicados, duas ou mais linhas que possuem o mesmo valor em todas as colunas; (j) remoção do índice de dados. Para o balanceamento do conjunto de dados a coluna ‘SITUA_ENCE’ foi utilizada a técnica under-sampling (ALENCAR, 2020), realizando a redução randômica entre duas classes, igualando a classe com maior ocorrência (cura por tuberculose) com a classe de menor ocorrência (óbito por tuberculose). Em seguida, os dados foram normalizados com valores entre 0 e 1, e geraram a nova base de dados, denominada de SINAN TB. As técnicas de feature selection foram aplicadas para seleção de 17 características (baseado no trabalho de Rocha (2020)). As técnicas utilizadas foram: Sequential Forward Selection (SFS), Sequential Backward Selection (SBS), Sequential Forward Floating Selection (SFFS) e Sequential Backward Floating Selection (SBFS). Para o experimento com as técnicas de feature selection, é utilizado um classificador do tipo Random Forest e a métrica comparativa é a F1-score por apresentar uma relação entre as métricas de sensibilidade e precisão, importantes métricas para área da saúde. Como resultado da técnica de record linkage, o Jaro-Winkler obteve um total 1.964 correspondências corretas, das quais 76 já estavam registradas no SINAN. Desta forma, a nova base integrada SINAN TB ficou com um total de 3.109 óbitos identificados. Após as etapas de pré-processamento apresentadas na metodologia, a base SINAN TB ficou composta por 50 colunas (características), contendo 21.552 registros de pacientes de curados e 2.799 de óbitos por tuberculose, este número de óbitos é justificado pois as etapas de pré-processamento (h) e (i) eliminaram registros com idades incorretas ou registros duplicados da SINAN TB. Por fim, após a aplicação da técnica de under-sampling, o conjunto de dados resultou em 5.598 registros de curados e óbitos por tuberculose, ambos com 2.799 registros. As características mais comuns selecionadas entre as técnicas de feature selection, podendo elas estarem entre 4, 3 e 2 técnicas, foram: ‘AGRAVALCOO’ (4), ‘DIAS’ (4), ‘TRATAMENTO’ (2), ‘HIV’ (2), ‘POP_SAUDE’ (2), ‘AGRAVTABAC’ (2), ‘AGRAVDROGA’ (2), ‘IDADE’ (2), ‘TESTE_TUBE’ (2), ‘BACILOSC_E’ (2), ‘CULTURA_ES’ (2), ‘HISTOPATOL’ (2), ‘PIRAZINAMI’ (2), ‘BACILOSC_1’ (2). Todos os algoritmos foram executados 5 vezes sob validação cruzada. A técnica SFS, apresentou média de f1-score de 75,44% com desvio padrão de 0,007, e tempo de médio de execução de 27,30 minutos. A técnica SBS apresentou média de f1-score de 78,08% com desvio padrão de 0,01, e tempo médio de execução de 59,35 minutos. A técnica SFFS apresentou uma média de f1-score de 74,93% com desvio padrão de 0,01, e tempo médio de 49,16 minutos. Por fim, a técnica SBFS mostrou uma média de f1-score de 78,21% com desvio padrão de 0,01e tempo médio de execução de 138,86 minutos. Conclui-se portanto, que a técnica com melhor f1-score foi a SBFS, mas ela também foi a técnica com maior tempo médio de execução. Em contrapartida, a técnica com menor tempo médio de execução foi a SFS, com f1-score de 75,44%. Como trabalho futuro, pretende-se utilizar a nova base SINAN TB como entrada em redes do tipo multilayer perceptron (MLP) para predição de prognóstico por tuberculose.
Downloads
Não há dados estatísticos.
##plugins.themes.bootstrap3.article.details##
Edição
Seção
Engenharia da Computação e Sistemas