Avaliação dos modelos de inteligência artificial na predição de mortalidade neonatal em Pernambuco contornado dados faltosos

##plugins.themes.bootstrap3.article.main##

Flavio Leandro de Morais
Maicon Herverton Lino Ferreira da Silva Barros
Katia Maria Mendes
Waldemar Brandão Neto
Patricia Takako Endo

Resumo

Introdução: O período neonatal compreende os primeiros 28 dias de vida do recém-nascido, sendo uma fase de alta vulnerabilidade para desfechos adversos de saúde. A mortalidade neonatal é responsável por ceifar a vida de aproximadamente 2,3 milhões de crianças em 2023, cerca de 6.500 mortes por dia no mundo (UNICEF, 2024). No Brasil, em 2023, foram registrados 21.582 óbitos neonatais, com uma taxa de 8,51 mortes por mil nascidos vivos. No mesmo período, o estado de Pernambuco apresentou média semelhante, com 8,44 óbitos a cada mil nascidos vivos (SINASC, 2023; SIM, 2023). Estudos indicam que a maioria desses óbitos poderiam ser evitados com intervenções oportunas e eficazes (UNICEF, 2024; DATASUS, 2022; PREZOTTO, 2023). Nesse contexto, modelos de Inteligência Artificial (IA) têm sido cada vez mais explorados como ferramentas auxiliares na predição de desfechos neonatais (HENRY, Caroline et al., 2022). Objetivo: Este estudo pretende avaliar o desempenho dos modelos de IA na predição da mortalidade neonatal no estado de Pernambuco. Metodologia: O estudo utilizou dados clínicos e demográficos do Centro Universitário Integrado de Saúde Amaury de Medeiros (CISAM), com autorização do Comitê de Ética em Pesquisa (CAAE: 78547524.8.0000.5191). O dataset original era composto por 28.501 registros e 876 atributos. A metodologia foi estruturada em sete etapas: 1) Análise exploratória dos dados que permitiu a identificação do tipo, completude e comportamento dos atributos. 2) Seleção de atributos, que foi realizada baseada na qualidade dos dados e no preenchimento (excluindo os atributos com mais de 60% de dados vazios), sendo selecionados nove atributos mais o atributo alvo (SN_OBITO, TP_SEXO, TP_COR, PESO, ALTURA, APGAR_1MIN, APGAR_5MIN, PERIMETRO_CEFALICO, PERIMETRO_TORAXICO). 3) Pré-processamento, onde foram removidos os registros com valor ausente no atributo alvo; resultando em 10 atributos e 5.210 registros, sendo 326 registros de mortalidade e 4.984 de sobrevida. Por fim, os atributos com dados textuais foram transformados para valores categóricos nominais. 4) O dataset foi separado em 70% para treino e 30% para teste. Os dados de teste continham apenas registros completos, enquanto os de treino permaneceram com valores ausentes para avaliação do seu impacto. Dois experimentos foram realizados: Experimento 1 (Exp. Desconhecido): valores ausentes substituídos por -1; Experimento 2 (Exp. Probabilístico): imputação baseada na distribuição dos valores observados em cada atributo. Os atributos com dados ausentes incluem ALTURA, PERIMETRO_CEFALICO, PERIMETRO_TORAXICO e TP_COR, reconhecidos na literatura como relevantes para o estado de saúde neonatal. 5) Aplicou-se a técnica de undersampling nas bases de treino e teste, reduzindo aleatoriamente a quantidade de registros das classes de óbito e sobrevivência. 6) Foram usados os modelos de IA: Decision Tree (DT), configurado com critério Gini, uma amostra mínima por folha, 30 para divisão de um nó, fração mínima de 0.0, semente aleatória 42 e divisão determinística; TabPFN, com arquitetura baseada em transformers probabilísticos pré-treinados e configuração padrão; LightGBM (LGBM), com boosting do tipo GBDT, taxa de aprendizado de 0.01, 700 estimadores e profundidade máxima de 5. A seleção dos parâmetros dos modelos DT e LGBM foi realizada heuristicamente, a partir de múltiplos testes empíricos visando melhor desempenho. 7) Os modelos foram avaliados pelas métricas: acurácia, precisão, recall, especoificidade, f1-score e AUCROC. Resultados e discussões: No Exp. Desconhecido, o modelo TabPFN apresentou o melhor desempenho gera nos dados de testel, com acurácia (0,9219), precisão (0,9298), recall (0,8542), especificidade (0,9896), f1-score (0,9215) e AUCROC (0,9646), superando os demais em todas as métricas. O LGBM também se destacou com valores próximos ao TabPFN com acurácia (0,9063), precisão (0,9151), recall (0,8333), especificidade (0,9792), f1-score (0,9057) e AUCROC (0,9626). Já o DT obteve os menores valores de avaliação com acurácia (0,9010), precisão (0,9111), recall (0,8229), especificidade (0,9792), f1-score (0,9004) e AUCROC (0,9212). Já no Exp. Probabilístico, novamente o TabPFN obteve os melhores resultados gerais, com métricas idênticas às do experimento anterior. O DT melhorou o recall (0,8542) igualando a mesma quantidade de acerto para mortalidade neonatal que o TabPFN e AUCROC (0,9422), embora com leve queda na acurácia (0,8906), precisão (0.8927), especificidade (0.9271) e f1-score (0,8905). O LGBM, por outro lado, foi o mais impactado, com redução em quase todas as métricas: acurácia (0,8802), precisão (0,8822), especificidade (0,9167), f1-score (0,8800) e AUCROC (0,9454), exceto o recall (0,8438) que apresentou um leve aumento de desempenho na predição dos casos positivos de mortalidade neonatal, mas obtendo resultados inferiores ao demais. Esses resultados mostram que, em ambos os experimentos, os modelos tiveram os valores mais altos na métrica de especificidade e mais baixos para o recall (mesmo com aumento no Exp. Probabilístico), indicando que os modelos conseguem predizer melhor os casos de neonatos que sobrevivem em comparação aos casos de mortalidade. Esses resultados também destacam a robustez do modelo TabPFN frente a dados faltosos, provavelmente devido à sua arquitetura pré-treinada, capaz de lidar com a variabilidade dos dados sem necessidade de ajustes manuais. Embora tenham apresentado uma melhora no recall, tanto o DT quanto o LGBM tiveram variações de desempenho conforme a estratégia de imputação utilizada. Ambos os modelos sofreram pequena queda em quase todas as métricas quando a imputação probabilística foi aplicada, sugerindo que sua performance é mais sensível à forma como os dados ausentes são tratados. Esses resultados reforçam a importância de investigações criteriosas antes da escolha da técnica de imputação, sugerindo que essa decisão deve ser orientada por conhecimento clínico contextualizado, idealmente com o apoio de profissionais de saúde, para garantir a integridade e a representatividade dos dados. Conclusões: Este estudo demonstrou que modelos de IA são capazes de prever a mortalidade neonatal, mesmo diante de desafios como dados faltantes. Dentre os modelos avaliados, o TabPFN apresentou o melhor desempenho geral, evidenciando sua robustez frente à variabilidade e incompletude dos dados. No entanto, trata-se de uma abordagem recente, que ainda requer mais estudos e validações antes de ser incorporada à prática clínica real. Os modelos mais consolidados, como LGBM e DT, mostraram-se mais sensíveis às técnicas de imputação utilizadas, o que reforça a importância de uma escolha criteriosa do método de preenchimento de dados ausentes, além disso, os seus resultados são promissores e indicam o potencial da IA como ferramenta auxiliar na tomada de decisão clínica, especialmente em contextos de risco neonatal como a mortalidade, podendo contribuir para a identificação precoce de desfechos adversos e, assim, para a redução da mortalidade neonatal.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas