Modelos de machine learning para predição de baixo peso ao nascer

##plugins.themes.bootstrap3.article.main##

Flavio Leandro de Morais
Patricia Takako Endo
Élisson da Silva Rocha
Ana Beatriz Torres Neri
Iually de Almeida Barros Santos

Resumo

Introdução. Para avaliar a condição de saúde de um recém-nascido nos primeiros minutos de vida, os profissionais da saúde realizam procedimentos clínicos e laboratoriais. Dentre estas condutas, está a pesagem do bebê, que pode apresentar Peso Normal ao Nascer (PNN) ou Baixo Peso ao Nascer (BPN). Diante disso, as diretrizes da Organização Mundial de Saúde (OMS) (ORGANIZATION et al., 2019) considera o diagnóstico de BPN quando o recém-nascido apresenta peso inferior a 2.500 gramas. Estudos realizados por (KRAMER, 1987) e (BADSHAH et al., 2008) evidenciam o  peso ao nascer como um fator preditivo para a sobrevivência e bem estar dos bebês, dado que o BPN é uma das principais preocupações de saúde pública no mundo, pois apresenta um risco de mortalidade 20 vezes maior a bebês com PNN. Além do mais, os recém-nascidos com BPN podem desenvolver diversas doenças, como: problemas neurológicos; gastrointestinais; hipoglicemia; deficiência visual e auditiva; infecções; problemas respiratórios; crescimento retardado; dentre outras (Ministério da Saúde, 2014). Na literatura, encontram-se modelos computacionais como ferramentas para auxiliar profissionais da saúde na tomada de decisão, visto que possuem a capacidade de processar grandes quantidades de dados que não podem ser realizadas manualmente por seres humanos e dessa forma, extrair informações importantes para a  predição de diagnóstico (COLLIN et al., 2022). Nessa conjectura, os estudos de (Khan et al., 2022) e (BORSON et al., 2020) apresentam os modelos de machine learning como um relevante recurso de baixo custo para a predição de BPN, assim como a viabilização de extração de informações importantes inseridas nas bases de dados do campo materno-infantil. Objetivos. O presente trabalho tem como objetivo utilizar um modelo de machine learning para prever o BPN de recém nascidos, utilizando dados rotineiros de pré-natais, histórico gestacional e sociodemográficos do estado de Pernambuco. Metodologia. O  estudo utiliza dados do Sistema de Informações sobre Nascidos Vivos (SINASC) do estado de Pernambuco, dos anos de 2018 a 2020. Foram executadas três etapas metodológicas para o desenvolvimento deste trabalho, tendo como primeira etapa a unificação das três bases de  dados do SINASC que resultou em uma base de dados composta por 61 atributos e 121.146 instâncias. Após isso, a segunda etapa buscou o entendimento dos dados, juntamente com os procedimentos de pré-processamento para a retirada de atributos que não agregassem na análise, para isso, conduziu um levantamento do estado da arte sobre os atributos utilizados para a predição ou classificação do BPN. Posteriormente, desenvolveu-se uma análise preliminar em relação aos 61 atributos disponíveis na base de dados. Essa análise foi realizada utilizando 11 estudos de classificação e predição de BPN, e identificamos os atributos mais utilizados para esse tipo de problema, como também, a inclusão de novos atributos que agregassem informações para o resultado, como mostrou as análises descritivas e individuais de cada atributo. Consequentemente, foram excluídos atributos que continham informações coletadas depois do parto; atributos numéricos que apresentavam informações iguais aos atributos categóricos; atributos que representavam códigos de ambientes geográficos; atributos com mais de 70% de valores vazios e atributos do tipo datas que não continha informações associadas ao objetivo desta pesquisa. Também foram descartados dados faltantes e anomalias, e por fim, procedeu com as transformações de dados numéricos em dados categóricos. Com isso, a base pré-processada de dados resultou em 13 atributos e 113.267 instâncias; das quais 8.633 instâncias correspondiam a dados de BPN e 104.634 a PNN. Na terceira etapa, realizou-se o balanceado da base de dados com a técnica de random undersampling, que é um mecanismo que reduz a classe majoritária para a mesma quantidade de dados da minoritária (MA; HE, 2013). Em seguida, treinou-se o  modelo de árvore Adaboost (YING et al., 2013) com 70% dos dados e testou-se sua aprendizagem com os 30% restantes. Por fim, executou-se a análise quantitativa de aprendizagem do modelo com o uso de quatro métricas, sendo elas: acurácia, precisão, sensibilidade e f1-score. Resultados. A análise ocorreu com o modelo Adaboost configurado com estimador base  e semente aleatória com valores default, número de estimadores de 50, taxa de aprendizado de 1.0 e o algoritmo do tipo 'SAMME.R'. O modelo obteve uma acurácia de 83,37%, precisão de 86% de acerto dos casos que realmente são de BPN e 81% de acerto do PNN, a sensibilidade apresentou um resultado inferior de acerto do BPN com 80%, enquanto que o PNN foi de 86%, por fim, o f1-score mostra uma média de acerto  quase iguais entres a classes, com 83% para BPN e 84% para PNN. Os resultados mostram que o Adaboost alcançou uma boa aprendizagem no cenário do peso ao nascer, apresentando resultados de predição muito próximos entre as classes de BPN e PNN, no entanto, o algoritmo acertou mais PNN do que BPN. Conclusão. O modelo utilizado na análise desse trabalho obteve uma boa performance na predição de BPN com uma acurácia de 83,37%. Ressalta-se que esse resultado apresenta boas perspectivas sobre o uso dos modelos de machine learning com uma ferramenta em potencial para auxiliar os profissionais de saúde na predição de BPN. Diante disso, pretende-se como trabalhos futuros: utilizar outros modelos de machine learning para fins comparativos de performance; aplicar técnicas de melhoria de desempenho de algoritmos e hiperparâmetros; analisar a generalização dos modelos, por meio do teste dos modelos treinados em outros cenários do Brasil; e por fim, identificar dentre os atributos utilizados na análise, quais são mais relevantes para a identificação precoce do BPN, assim como o  impacto do mesmo nos resultados obtidos.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas