Análise do impacto de técnicas de balanceamento e imputação de dados na predição de morte fetal com modelo Adaboost
##plugins.themes.bootstrap3.article.main##
Resumo
De acordo com a Organização Mundial de Saúde (OMS), óbito fetal compreende os bebês que morrem após a 22a. semana de gestação, podendo ser classificado como precoce ou tardio (após a 28a. semana)[1]. A taxa de mortalidade fetal (TMF) é um dos indicadores que avaliam a qualidade dos cuidados de saúde prestados às mulheres grávidas durante a gestação e parto[2]. Este índice expressa o número de mortes fetais com fetos com peso de pelo menos 500g ou 25cm de altura por total de nascimentos na população de uma determinada área. Um dos Objetivos de Desenvolvimento Sustentável (ODS) visa reduzir a taxa de mortalidade neonatal global para pelo menos 12 mortes por 1.000 nascidos vivos até 2030, no entanto, não aborda especificamente uma meta para a taxa de mortalidade fetal. A utilização de informações estratégicas pode permitir um seguimento de estudos utilizando dados para o treinamento de modelos preditivos de morte fetal. Desse modo, esse trabalho tem como objetivo avaliar diferentes técnicas de imputação de dados em diferentes cenários de balanceamento no processo de aprendizado de máquina do modelo Adaboost. Para isso, foi utilizado o banco de dados fornecido pelo Programa Mãe Coruja Pernambucano (PMCP), um programa social que visava cuidados e assistência voltadas ao público materno-infantil. Os dados fornecidos são referentes aos anos de 2012 a 2022, com 231,505 registros e 71 atributos. Esse conjunto de dados inicialmente continha informações sobre histórico materno, comorbidades, fatores sociodemográficos, dados de pré-natal e pós-parto, dados residenciais e da unidade de saúde, datas informativas pessoais e informações dos recém-nascidos. O atributo SITUACAO_GESTACAO foi escolhido como a classe alvo, uma vez que é descrito com um valor de 1 para morte fetal e um valor de 0 para nascido vivo. Foi realizada a remoção dos atributos não relacionados com o problema e o restante dos atributos foram pré-selecionados por especialistas da área médica. Também foram removidos os atributos que possuíam mais de 35% dos dados vazios. Além disso, foi realizado o tratamento de outliers e preenchimento dos atributos selecionados. Foi definida uma faixa de peso mínima de 40 kg máxima de 120 kg no atributo PESO_ANTERIOR referente à gestante e também um máximo de tempo de pré-natal de 35 semanas no atributo PRIMEIRO_PRE_NATAL. O conjunto de dados foi separado em duas partes: a primeira com 70% dos dados para treinamento, com 227.049 registros e 20 atributos, e a segunda reservada com 30% para teste dos modelos, com 4.456 registros e 20 atributos. No conjunto de dados para treinamento, para tratar os dados incompletos, foram utilizadas as técnicas de preenchimento com mediana, com valor -1 e predição de valor utilizando o modelo Random Forest para cada atributo correspondente. Para balancear os dados entre a classe alvo (morte fetal) e a classe majoritária (nascido vivo) foram adotadas as técnicas de Random Undersampling e Synthetic Minority Over-sampling Technique (SMOTE) nas proporções de 2x, 3x e 4x. Com a base de treinamento pré-processada, foi escolhido o modelo preditivo Adaboost para realizar o treino e teste de classificação. Ainda, foi utilizado o grid search com 10-kfold para determinar os melhores hiperparâmetros para o modelo Adaboost. As métricas acurácia, precisão, sensibilidade, especificidade e f1-score foram selecionadas para avaliar o desempenho do modelo. Foi possível observar que as técnicas de balanceamento utilizadas impactam no aprendizado dos modelos. Nos cenários utilizando o balanceamento Random Undersampling e mediana como técnica de imputação, o modelo apresentou 60.68% de sensibilidade, 59.20% de especificidade e 59.94% de f1-score. Entretanto, no cenário utilizando a técnica de SMOTE, na proporção de 4x, e mediana como técnica de imputação, o modelo apresentou 94.84% de sensibilidade, 12.52% de especificidade e 44.23% de f1-score. Dessa forma, nos cenários utilizando amostras sintéticas, o modelo teve boa sensibilidade, acertando casos de morte fetal porém apresentou alta dificuldade no aprendizado para predizer casos de nascidos vivos, tendo baixíssima especificidade. Os resultados do modelo neste estudo baseiam-se apenas em dados sociodemográficos sobre a mãe, histórico de saúde materno e histórico familiar para treinamento. Dados laboratoriais não foram utilizados neste estudo com o objetivo de evitar a necessidade de testes de laboratório, que demandam recurso extra (solução de baixo custo). A aplicação desta tecnologia na saúde obstétrica pode ser especialmente benéfica em regiões que enfrentam vulnerabilidade econômica e fragilidade social, promovendo melhorias na saúde materna e fetal.
Downloads
Não há dados estatísticos.
##plugins.themes.bootstrap3.article.details##
Seção
Engenharia da Computação e Sistemas