Análise de atributos na predição de morte fetal utilizando o Decision Tree
##plugins.themes.bootstrap3.article.main##
Resumo
A mortalidade fetal e a mortalidade neonatal precoce compartilham a mesma etiologia e condições que resultam no óbito do feto ou do neonato nas primeiras horas de vida. De acordo com a Organização Mundial de Saúde (OMS), óbito fetal compreende os bebês que morrem após a 22a. semana de gestação, podendo ser classificado como precoce ou tardio (após a 28a. semana) [1]. Alguns fatores de risco influenciam diretamente com a morte fetal, incluindo hábitos da gestante como tabagismo, alcoolismo, sedentarismo e também seu histórico de saúde como idade, comorbidades preexistentes, paridade e histórico de aborto [2]. Informações sobre naturalidade, raça e nível de escolaridade da mãe também podem estar relacionados com desfechos negativos na gestação [3]. A Agenda 30 proposta pela Organização das Nações Unidas (ONU) prevê a redução da mortalidade neonatal e infantil nos Objetivos de Desenvolvimento Sustentável (ODS), entretanto, metas específicas para reduzir a mortalidade fetal não estão incluídas nesse plano de ação. Nesse contexto, vários estados brasileiros adotaram estratégias e políticas públicas para diminuir a taxa de mortalidade fetal. A utilização de informações estratégicas pode permitir um seguimento de estudos utilizando dados importantes para o treinamento de modelos preditivos de morte fetal. Dessa forma, este estudo tem como objetivo avaliar atributos relevantes no processo de aprendizado de máquina de um modelo Decision Tree. Para isso, foi utilizado o banco de dados fornecido pelo Programa Mãe Coruja Pernambucano (PMCP), um programa social que visa cuidados e assistência voltadas ao público materno-infantil, com dados dos anos de 2012 a 2022. Inicialmente, esse banco de dados continha 231,505 registros e 71 atributos, com informações de histórico materno, comorbidades, fatores sociodemográficos, dados de pré-natal e pós-parto, dados residenciais e da unidade de saúde, datas informativas pessoais e informações dos recém-nascidos. O atributo SITUACAO_GESTACAO foi escolhido como a classe alvo, uma vez que é descrito com um valor de 1 para morte fetal e um valor de 0 para nascido vivo. Foi realizado o pré-processamento dos dados para preparar a base para o treinamento do modelo. Nessa etapa, foi feita a remoção e a seleção dos atributos. Foram excluídos atributos relacionados a dados residenciais, unidades de serviço, códigos de ambiente geográfico e outras informações consideradas irrelevantes para o estudo. Também foram removidos atributos que possuíam mais de 35% dos dados vazios. Além disso, foi realizado o tratamento de outliers e preenchimento dos atributos selecionados. Foi definido uma faixa de peso mínima de 40 kg máxima de 120 kg no atributo PESO_ANTERIOR e também um máximo de tempo de pré-natal de 35 semanas no atributo PRIMEIRO_PRE_NATAL. Para lidar com os dados incompletos, foi adotada a técnica de imputação da mediana que envolve substituir os valores ausentes pelo valor mediano do atributo correspondente. Depois de concluir as etapas de pré-processamento, um novo conjunto de dados foi gerado composto por 17 atributos e 231.505 registros contendo informações sobre a mãe, gravidez atual, e história de saúde familiar. Desses registros, 224.076 eram referentes a nascidos vivos e 7.429 a óbitos fetais. A técnica de random undersampling foi utilizada para selecionar aleatoriamente dados da classe majoritária (nascidos vivos) e balancear o conjunto de dados. Após o balanceamento, o conjunto de dados continha 7.429 registros de nascidos vivos e óbitos fetais, totalizando 14.858 registros. Com a base de dados pré-processada, 70% dela foi separada para treinamento do modelo Decision Tree e 30% para teste. Ainda, foi utilizado o grid search com k-fold cross-validation (k=10) para determinar os melhores hiperparâmetros para o modelo. As métricas acurácia, precisão, sensibilidade, especificidade e f1-score foram selecionadas para avaliar o desempenho do modelo. Na etapa de teste, o modelo Decision tree apresentou acurácia, precisão e f1-score de 61,93%; sensibilidade de 62,55% e especificidade de 61,30%. Os atributos mais relevantes para o aprendizado do modelo continham informações sobre primeiro pré-natal, idade materna, intervalo intergestacional, peso anterior a gestação, escolaridade e histórico de aborto. Este estudo apresenta resultados preliminares utilizando a base de dados do PMCP na predição de morte fetal. As informações utilizadas nesse estudo baseiam-se apenas em dados sociodemográficos sobre a mãe, histórico de saúde materno e histórico familiar. Dados laboratoriais não foram utilizados neste estudo com o objetivo de simplificar os dados e evitar a necessidade de testes de laboratório, de demandam recurso extra. A abordagem usada neste estudo é, portanto, considerada de baixo custo e prática. A integração de soluções de aprendizado de máquina na prática clínica pode ser particularmente benéfico no apoio ao aconselhamento obstétrico e cuidados pré-natais. Essa aproximação da tecnologia aplicada à saúde obstétrica pode ser vantajosa especialmente em países que enfrentam vulnerabilidade econômica e fragilidade social, melhorando a saúde materna e fetal. Para trabalhos futuros, é possível que a metodologia seja aprimorada tal como utilização de outros modelos de machine learning com a combinação de atributos escolhidos por especialistas da área.
Downloads
Não há dados estatísticos.
##plugins.themes.bootstrap3.article.details##
Seção
Engenharia da Computação e Sistemas