O uso de machine learning para correção da causa básica de óbito no Sistema de Informações de Morte do Brasil

##plugins.themes.bootstrap3.article.main##

Elisson da Silva Rocha
Patricia Takako Endo
Flávio Leandro de Morais
Ana Beatriz Torres Neri

Resumo

Introdução. O Sistema de Informações de Morte do Brasil (SIM) foi criado pelo Ministério da Saúde com o objetivo de compilar os dados de óbitos ocorridos no território nacional e permitir a construção de indicadores demográficos e de saúde da população (FRIAS et al., 2008). Para a construção e análise desses indicadores, o Ministério da Saúde, desde os anos de 2000, tem trabalhado para melhorar a qualidade do preenchimento da causa básica de óbito no SIM, passando a preencher a causa básica e as causas associadas do óbito (FAJARDO et al., 2009). Além disso, a partir de 2006, o SIM começou a disponibilizar dois campos de causa básica: sendo a primeira fornecida pelo médico na hora do óbito; e a segunda, após a equipe de revisão realizar o tratamento de verificação, podendo concordar com o laudo médico, repetindo a causa básica informada ou redefinir a causa básica para a que melhor define o óbito. Este tratamento da causa básica é um processo manual que, pela quantidade de dados, requer tempo e formação humana especializada para realizar esta tarefa, e por sistemas especializados como software Iris (LU, 2003). Hoje os modelos computacionais estão auxiliando os humanos em diversos tipos de tarefa complexas (ANGRA and AHUJA, 2017), entre elas estão os estudos relacionados a causa da morte. O trabalho de KIM et al. (2021) mostra o uso de machine learning que prevê a causa do óbito baseado em dados do último check-up do paciente, enquanto que o estudo de (FALISSARD et al. 2020) apresenta o uso desta mesma tecnologia para codificação de causas de morte usando o banco de dados de óbito Francês. Objetivos. O principal objetivo deste trabalho é desenvolver um modelo de machine learning que avalie e, quando necessário, corrija as causas básicas de óbito no Brasil a partir dos dados demográficos e causas associadas disponíveis no SIM. Metodologia. Para resolver esse problema, utilizou-se a base de dados disponível do SIM do ano de 2020, que contém mais de 1,5 milhão de registros, onde mais de 128 mil apresentavam alterações na causa básica após revisão manual. Realizou-se um pré-processamento dos dados, passando pelas etapas de seleção de atributos, limpeza dos dados, transformação em dados numéricos, tratamento de dados vazios, e por fim, aplicamos a técnica de undersampling (LIU et al., 2008) para trabalhar com os dados balanceados com relação às classes alterados e não alterados na causa básica. Por fim, os dados foram divididos em 70-30 para treinamento e teste, respectivamente. Modelo. Com o objetivo de avaliar e corrigir a causa básica, desenvolveu-se um modelo em duas etapas: etapa de avaliação e etapa de correção. Na etapa de avaliação, um modelo binário XGBoost (MITCHELL and FRANK, 2017) foi treinado para predizer se a causa básica sofreu ou não alteração, usando os dados de causa básica informada pelo médico na hora do óbito e todas as causas associadas. Quando o modelo classifica que o óbito não sofre alteração da causa básica, significa que o modelo avalia que o preenchimento foi feito de forma correta e o processo de classificação se encerra. Entretanto, quando é detectado que há alteração na causa básica, a segunda etapa de correção é solicitada. Na etapa de correção, desenvolveu-se outro modelo XGBoost, agora multiclasse, que escolhe, entre todas as causas associadas informadas para aquele óbito, qual será a nova causa básica. Essa estratégia foi utilizada após a análise dos dados apresentarem que a grande maioria dos casos, cerca de 90%, tinham a causa básica alterada por alguma causa associada informada pelo profissional de saúde. Com isso, o problema multiclasse fica com uma escala bem menor, visto que agora as classes são limitadas somente às causas associadas informadas. Em casos que o modelo identifica que a causa básica precisa ser alterada por outra causa que não está nas associadas, é retornado um código especial (-1) para que o caso seja reportado para uma análise manual. Os dois modelos XGBoost foram configurados com a taxa de aprendizagem de 0,01, profundidade máxima de 10 e o número de estimadores de 650. Resultado. A métrica utilizada em todas as avaliações foi a acurácia, lembrando que os dados estão balanceados, e para o modelo binário, além da acurácia, foram utilizados AUC de treino e teste, sensibilidade, precisão e F1-score. Na etapa de avaliação, o modelo obteve 91,6% de acurácia, 88% de sensibilidade, 94,9% de precisão, 91,3% de F1-score e 97,3% de AUC. Já a segunda etapa apresentou acurácia de 84,3% nas correções da causa básica do óbito. Quando é testado todo o processo, ou seja, os dados de teste passam pela etapa de avaliação e se preciso pela etapa de correção, a acurácia é de 85,5%. Conclusão. Esses resultados preliminares já apresentam condições interessantes para a utilização de modelos computacionais para avaliação e correção da causa básica de óbito, auxiliando o trabalho de especialistas na revisão destes dados, que requer bastante tempo e atenção. No modelo de forma conjunta, aproximadamente 85% foram avaliados corretamente, o que já apresenta uma forma eficaz para auxiliar o processo de revisão da causa básica. Como trabalhos futuros, planeja–se a utilização de algoritmos para otimização de hiperparâmetros; o uso de outros tipos de algoritmos de machine learning; a utilização de outros atributos que podem auxiliar na causa básica, como idade e sexo do paciente; e adicionar datasets de outros anos de avaliação para auxiliar na generalização dos modelos.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas