Modelos de machine learning para a predição de baixo peso ao nascer no estado de Pernambuco

##plugins.themes.bootstrap3.article.main##

Flavio Leandro de Morais
Patricia Takako Endo

Resumo

Introdução. Embora seja esperado que todas as gestações sigam seu curso fisiológico e sejam concluídas adequadamente, diversas complicações podem surgir, resultando em desfechos negativos como morte neonatal, morte fetal, prematuridade, defeitos congênitos, dentre outras situações infelizes (Hug et al, 2020). De acordo com estimativas da Organização Mundial da Saúde (OMS), anualmente ocorrem cerca de 2,5 milhões de mortes neonatais no mundo, sendo que mais de 80% desses bebês são diagnosticados com Baixo Peso ao Nascer (BPN) (WHO, 2014). Doenças como BPN (diagnóstico dado ao neonato que pesa menos de 2.500 gramas ao nascer, independentemente da idade gestacional) poderiam ser preditas precocemente, pois muitos dos casos estão relacionados a fatores tratáveis, como desnutrição da gestante, restrição do crescimento intrauterino, complicações placentárias, fatores socioeconômicos, condições de moradia, entre outros (da saúde M., 2016). Portanto, é necessário que a gestante tenha políticas públicas abrangentes e integradas que envolvam cuidados pré-natais adequados, acesso a serviços de saúde de qualidade e humanizado por profissionais de saúde especializados. A literatura apresenta modelos de machine learning como ferramentas promissoras para a predição de BPN, pois são recursos capazes de ajudar os profissionais da saúde na tomada de decisões, contribuindo, assim, para a prevenção de casos de recém-nascidos com BPN (COLLIN et al., 2022) (Khan et al., 2022). Objetivos. O presente trabalho tem como objetivo avaliar modelos de machine learning para predizer casos de neonato com BPN, utilizando dados rotineiros de pré-natais, histórico gestacional e sociodemográficos. Metodologia. O estudo utiliza dados do Sistema de Informações sobre Nascidos Vivos (SINASC), que é um sistema brasileiro cuja finalidade é coletar, armazenar e disponibilizar informações relacionados aos neonatos, como características da mãe, parto, pré-natal, entre outros. O conjunto de dados utilizado é referente a casos do estado de Pernambuco, abrangendo o período de 2018 a 2021, contendo 61 atributos e 526.368 registros, sendo 41.380 casos de BPN; 452.752 casos de Peso Normal ao Nascer (PNN) - neonatos com peso entre 2.500 gramas a 3.999 gramas; 32.199 casos de Macrossomia - neonatos com peso igual ou superior a 4.000 gramas; e 37 valores do peso vazios. Para esse trabalho, foram executadas quatro fases metodológicas. Na primeira fase foi realizado o processo de compreensão dos dados, juntamente com os procedimentos de pré-processamento, nessa fase foram efetuadas as etapas de remoção de registros em que o valor do atributo PESO referia-se a macrossomia e vazio; remoção de atributos que não contribuem para a análise, como atributos com mais de 70% de valores vazios, duplicados, códigos ou id de ambientes, pós parto, entre outros; remoção de outliers; remoção de valores que possuía pelo menos um valor vazio; e categorização de valores numéricos, como o do atributo PESO, que foi categorizado com o valor 1 para BPN e 0 para PNN. Na segunda fase foi efetuada a seleção de atributos, a primeira abordagem consistiu em realizar um levantamento da literatura, denominado cenário da literatura, no qual foram identificados e analisados 10 estudos de predição de BPN, foram extraídos os atributos que estavam sendo utilizados para abordar esse tipo de problema e que estavam disponíveis no conjunto de dados do SINASC, resultando em 10 atributos  (idade da mãe, estado civil, código de ocupação, quantidade de filhos vivos, quantidade de filhos mortos, tipo de gestação, sexo do bebê, raça/cor da mãe, quantidade de parto cessário e escolaridade). Posteriormente, conduziu-se uma seleção de atributos por especialistas, denominado cenário dos especialistas, na qual eles revisaram e analisaram os atributos disponíveis, considerando seu potencial de contribuição para a predição de BPN, resultando em nove atributos (idade da mãe, código de ocupação, quantidade de filhos vivos, quantidade de filhos mortos, tipo de gestação, raça/cor da mãe, escolaridade, quantidade de gestação, mês de gestação em que iniciou o pré-natal). A terceira fase realizou a preparação do conjunto pré-processada para análise, sendo executado o balanceamento do conjunto de dados utilizando a técnica random undersampling, que consiste em reduzir a classe majoritária para a mesma quantidade de dados da classe minoritária (MA; HE, 2013). Em seguida, o modelo de decision  tree foi treinado utilizando 70% dos dados e sua capacidade de aprendizado foi avaliada utilizando os 30% restantes. Na etapa final, foi realizada uma análise quantitativa do desempenho do modelo com métricas que são comumente utilizadas para avaliar a eficácia dos modelos de machine learning em problemas de predição, sendo elas: acurácia, precisão, sensibilidade, especificidade e F1-score. Resultados. O modelo decision tree foi configurado com o critério de entropia, o valor de 60 para número mínimo de amostras necessárias para dividir um nó interno, semente aleatória com valor de 10 e valor aleatório para escolher a melhor divisão. O modelo decision tree no cenário da literatura obteve uma acurácia de 57,50%, precisão de 57,72%, sensibilidade de 51,11%, especificidade de 64,08% e f1-score de 57,36%. O modelo decision tree no cenário dos especialistas resultou em uma acurácia de 58,08%, precisão de 58,34%, sensibilidade de 50,69%, especificidade de 65,63% e f1-score de 57,88%. O modelo apresentou resultados muito próximos nos dois cenários, no entanto, o modelo obteve desempenho melhor em  quase todas as métricas no cenário dos especialistas, exceto na métrica sensibilidade. No entanto, o modelo apresentou no cenário da literatura a melhor sensibilidade, indicando um desempenho melhor na predição da classe BPN. Além disso, o modelo apresentou os maiores valores na métrica especificidade em ambos os cenários, apresentando um melhor desempenho na predição da classe de PNN. Conclusão. Embora os resultados obtidos ainda não demonstrarem uma confiabilidade adequada do modelo para aplicação no mundo real, mas apontam uma perspectiva dos modelos de machine learning como uma ferramenta promissora para auxiliar os profissionais de saúde na predição de BPN. Como trabalhos futuros, propõe-se explorar outros modelos de machine learning para fins comparativos de desempenho; aplicar técnicas de otimização de algoritmos e hiperparâmetros visando melhorar o desempenho; além disso, identificar os atributos mais relevantes para a detecção do BPN, bem como avaliar o impacto desses atributos nos resultados obtidos.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas