Avaliação de técnicas de undersampling na predição de casos potenciais de sífilis congênita utilizando dados do Programa Mãe Coruja Pernambucana

##plugins.themes.bootstrap3.article.main##

Morgana Thalita da Silva Leite
Patricia Takako Endo

Resumo

Introdução. As Infecções Sexualmente Transmissíveis (ISTs) representam uma significativa ameaça à saúde pública em escala global, afetando a mortalidade, morbidade e qualidade de vida. Estima-se que ocorram mais de 374 milhões de novos casos de ISTs anualmente, com aproximadamente 1 milhão de pessoas infectadas diariamente. Entre as diversas enfermidades desse grupo, a sífilis foi responsável por cerca de 7,1 milhões de casos em 2020 (ORGANIZATION et al., 2021). A sífilis é uma infecção crônica causada pela bactéria Treponema pallidum (RICCO; WESTBY, 2020) e pode ser transmitida de forma congênita, ou seja, da mãe para o feto. De acordo com Cooper e Sánchez (2018), na forma congênita, a sífilis pode ser transmitida para o feto de maneira transplacentária ou por meio do contato com lesões genitais maternas. Essa transmissão pode resultar em complicações graves, como parto prematuro, aborto espontâneo e morte perinatal. Embora a maioria dos bebês nascidos de mães com sífilis não apresente sinais evidentes de infecção no momento do nascimento, se não tratada, a doença pode se manifestar meses ou até anos após o parto, acarretando em condições adversas como pseudoparalisia de Parrot, anemia, anomalias ósseas, convulsões, hidrocefalia, deformidade do nariz em sela, entre outras. Dados do boletim epidemiológico de sífilis do Brasil (BRASIL, 2021) revelam que, em 2020, foram registrados 22.065 casos de sífilis congênita, resultando em 186 óbitos. Em Pernambuco, o Programa Mãe Coruja Pernambucana (PMCP) (SAÚDE, 2022) é um programa social de referência no campo da saúde materno-infantil. Ele oferece apoio às mães pernambucanas que são usuárias do Sistema Único de Saúde (SUS). O PMCP conta com um sistema de armazenamento de informações das participantes, onde são registrados os resultados do exame Venereal Disease Research Laboratory (VDRL), utilizado para detectar a presença de sífilis congênita. Esses registros podem ser aproveitados para o treinamento de modelos de aprendizado de máquina, visando prever possíveis desfechos da doença. A identificação antecipada de casos suspeitos permite direcionar atenção especializada para pacientes que necessitam de cuidados mais intensivos, evitando ou minimizando as consequências relacionadas à sífilis congênita. Objetivos. Este trabalho possui como objetivo a avaliação de modelos de machine learning, utilizando dados socioeconômicos e clínicos de gestantes acompanhadas pelo PMCP, para predição de possíveis casos positivos para sífilis congênita em recém-nascidos, e avaliar como diferentes técnicas de undersampling podem impactar no desempenho destes modelos. Metodologia. Os dados foram adquiridos por meio de uma colaboração com o PMCP. Antes de utilizar o conjunto de dados para o treinamento dos modelos, é necessário realizar uma preparação dos dados. Inicialmente, os conjuntos de dados foram combinados para extrair os atributos relevantes, excluindo aqueles que apresentavam mais de 70% de dados faltantes. Em seguida, especialistas do PMCP foram consultados para uma seleção manual de atributos e identificação de valores discrepantes (outliers). Os registros que não continham informações preenchidas para o exame VDRL foram removidos, e os atributos numéricos foram convertidos em categorias. Os valores faltantes foram substituídos pelo valor mais frequente em cada atributo. Após esse processo, o conjunto de dados possui 47.516 registros, destes 46.493 são de casos negativos para sífilis congênita e 1.023 positivos. As técnicas Random Undersampling (RUS), under-Sampling Based on Clustering (SBC) e NearMiss (NM) em suas versões 1, 2 e 3 foram aplicadas para balanceamento do conjunto de dados. O hiperparâmetro quantidade de vizinhos K das técnicas NM 1 e 2, e K2 para a versão 3, foi variado na faixa de 1 a 11, ao passo de 2, gerando 29 bases balanceadas. Cada base balanceada foi dividida em 70% para treinamento e 30% para teste. Os modelos Decision Tree (DT), Random Forest (RF), AdaBoost, Gradient Boosting Machine (GBM) e K-Nearest Neighbors (KNN) foram aplicados. Para otimização de hiperparâmetros, a técnica Grid Search foi aplicada em relação à métrica AUC ROC com validação cruzada k-fold 5, e as métricas acurácia, precisão, sensibilidade, especificidade, f1-score e AUC ROC para avaliação dos resultados. Com relação às técnicas aplicadas e os modelos com maiores resultados, as seguintes análises foram feitas: a capacidade de predição nas amostras descartadas, por técnica de undersampling, através da métrica especificidade, e a técnica Permutation Importance foi aplicada para análise dos atributos mais importantes. Resultados. Os maiores resultados de AUC ROC por técnica de undersampling foram 55,21% para o RUS e 91,36% para o NM-1 com K=11, ambos com o modelo RF, 64,69% para o SBC com DT, 98,53% para o NM-2 com K=7 com KNN e 91,21% para o NM-3, K=9 e K2=11, com GBM. Ao analisar as demais métricas de avaliação (acurácia, precisão, sensibilidade, especificidade, f1-score), as bases com o NM obtiveram todas as métricas na faixa de 80% a 100%, SBC 60% e RUS entre 50% a 60%. Com os dados descartados, a especificidade foi de 53,85% para o RUS, 21,46% para o SBC, 18,73% para o NM-1, 0,92% para o NM-2 e 10,21% para o NM-3. Com relação ao Permutation Importance, os seguintes atributos foram os três mais importantes: nível de escolaridade para NM-1, NM-2 e RUS; recebeu informação do plano familiar para NM-1, NM-2 e SBC; estado civil para NM-2 e RUS; risco gestacional para SBC e RUS; idade para SBC, renda familiar para NM-1; quantidade de gestações, nível de insegurança e tipo de construção da casa para o NM-3. Conclusão. Resumidamente, a sífilis congênita é uma doença que pode ser tratada, porém continua a ser um problema presente tanto no Brasil quanto no mundo. Dentre as bases balanceadas, o NM-2 obteve o maior AUC ROC (98,53%) com 7 vizinhos e o modelo KNN. Porém, na predição das amostras descartadas pelo NM-2, o KNN obteve 0,92% de especificidade, um valor muito baixo. O RUS teve o menor AUC ROC (55,21%) com o modelo RF, porém nas amostras descartadas obteve 53,28% de especificidade, demonstrando comportamentos parecidos na predição das amostras escolhidas e nas descartadas. Para próximos passos, os modelos Support Vector Machines (SVM) e XGBoost serão aplicados, será realizada uma análise da distribuição dos valores dos atributos mais importantes no Permutation Importance para cada técnica de undersampling e discussão da melhor técnica, com base nas discussões feitas.
 
Palavras-chave: Sífilis congênita; Machine learning, Undersampling.
 
Referências 
MINISTÉRIO DA SAÚDE DO BRASIL. Boletim Epidemiológico Sífilis 2021, 2021. Disponível em: https://www.gov.br/aids/pt-br/centrais-de-conteudo/boletins-epidemiologicos/2021/sifilis/boletim_sifilis_2021_internet.pdf/view. Acesso em: 21 jun. 2023. 
 
COOPER, J. M.; SANCHEZ, P. J. Congenital syphilis. Seminars in perinatology. v. 42, n. 3, p. 176–184, 2018.
 
WORLD HEALTH ORGANIZATION. Global progress report on HIV, viral hepatitis and sexually transmitted infections 2021, 2021. Disponível em: https://www.who.int/publications/i/item/9789240027077. Acesso em: 21 jun. 2023.
 
RICCO, J.; WESTBY, A. Syphilis: Far from ancient history. American family physician, v. 102, n. 2, p. 91–98, 2020.
SECRETARIA DE SAÚDE. Programa Mãe Coruja Pernambucana, 2022. Disponível em: https://maecoruja.pe.gov.br/. Acesso em: 21 jun. 2023.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas