Modelos de inteligência artificial para predição de casos de sífilis congênita utilizando dados do Programa Mãe Coruja Pernambucana

##plugins.themes.bootstrap3.article.main##

Morgana Thalita da Silva Leite
Patricia Takako Endo

Resumo

Introdução. Infecções sexualmente transmissíveis (ISTs) são grandes ameaças à saúde pública mundial em termos de mortalidade, morbidade e qualidade de vida, com mais de 374 milhões novos casos por ano, 1 milhão de infectados por dia e, dentre essas enfermidades, a sífilis foi responsável por cerca de 7,1 milhões de casos em 2020 (ORGANIZATION et al., 2021). A sífilis é uma infecção crônica causada pela bactéria Treponema pallidum (RICCO; WESTBY, 2020), podendo ser transmitida de forma congênita (da mãe para o filho). Segundo Cooper e Sánchez (2018), em sua forma congênita a sífilis é transmitida para o feto de modo transplacentário ou por contato com lesões genitais maternas, podendo ocasionar parto prematuro, aborto espontâneo e morte perinatal. Já os bebês nascidos de mães com sífilis, em sua maioria, não possui evidências de infecção no nascimento, mas, se não tratada, pode se manifestar meses ou anos depois, podendo ocasionar pseudoparalisia de Parrot, anemia, anomalias dos ossos, convulsões, hidrocefalia, deformidade do nariz em sela, dentre outros. Dados do boletim epidemiológico de sífilis do Brasil (BRASIL, 2021) mostram que em 2020, 22.065 casos e 186 óbitos de sífilis congênita foram registrados. Em Pernambuco, o Programa Mãe Coruja Pernambucana (PMCP) (SAÚDE, 2022) é um dos programas sociais de referência na área materno-infantil, oferecendo suporte às mães pernambucanas usuárias do Sistema Único de Saúde (SUS). O PMCP dispõe de um sistema para armazenar informações das participantes, e nele registra o exame VDRL, do inglês Venereal Disease Research Laboratory, usado para detectar a presença de sífilis congênita. Esses registros podem ser utilizados para treinar modelos de machine learning, com a finalidade de prever possíveis desfechos da doença. Com a identificação de possíveis casos positivos, atenção especializada pode ser destinada para pacientes que necessitam de mais cuidados, e consequências relacionadas à sífilis congênita podem ser evitadas ou minimizadas. Este trabalho possui como objetivo a avaliação de modelos de machine learning, utilizando dados socioeconômicos e clínicos de gestantes acompanhadas pelo PMCP, para predição de possíveis casos positivos para sífilis congênita em recém-nascidos. Objetivos. Os objetivos deste projeto são avaliar como diferentes técnicas de data slicing, undersampling, oversampling e imputação de dados faltantes podem impactar no desempenho de modelos preditivos. Metodologia. Os dados foram obtidos através da parceria com o PMCP, que disponibilizou um recorte do seu banco de dados. Antes de a base ser utilizada para o treinamento dos modelos, uma preparação dos dados é necessária. Preliminarmente, as tabelas foram unificadas para extração dos atributos, e os atributos que possuem acima de 70% de dados faltantes foram excluídos. Em sequência, especialistas do PMCP foram consultados para uma seleção manual de atributos e identificação de outliers. Os registros que não possuem o exame VDRL preenchido foram excluídos, e os atributos numéricos foram categorizados. Segundo os especialistas, a partir de 2016, ocorreu uma melhoria nos dados, e com um recorte a partir desse ano, teoricamente haveria uma melhor qualidade. Portanto, a base foi recortada no período de 2016 até 2022. Os dados faltantes foram imputados com o valor mais frequente em cada atributo, e as técnicas random undersampling e random oversampling foram aplicadas para balanceamento. Diferentes modelos serão aplicados em busca de melhor desempenho. Dividiu-se a base em 70% treino e 30% teste. Para otimização de 
hiperparâmetros, a técnica grid search foi aplicada em relação à métrica AUC ROC com validação cruzada k-fold 10, e as métricas acurácia, precisão, sensibilidade, especificidade, f1-score e AUC ROC para avaliação dos resultados. Resultados. 211.297 registros foram localizados após a unificação, destes 43.774 negativos e 901 positivos para sífilis congênita, e o restante não preenchidos, havendo desbalanceamento na ocorrência da doença na base. Para o pré-processamento, os atributos foram selecionados pelos especialistas e registros com renda familiar sem a data da última alteração ou maior que 20.000, e datas de nascimento com ano anterior à 1960 e após 2020, removidos. Os registros com quantidade de filhos, gestações e abortos acima de 15 seriam inicialmente excluídos por serem outliers. Entretanto, após análise, os registros com 22 abortos e 16, 21 e 22 gestações foram identificados como pertencentes a gestações com desfecho positivo para sífilis congênita, e, para não causar perda desta classe escassa, para estes em específico apenas a informação outlier foi apagada, e marcada para preenchimento por imputação de dados faltantes. Após o pré-processamento, a base possui 44.524 registros. Com 31.103 de casos negativos e 740 positivos, a base com o recorte 2016-2022 possui 31.843 registros, 71,52% do seu tamanho original, mas tem um melhor preenchimento. O modelo Gradient Boosting Machine (GBM) foi aplicado, com a base do recorte 2016-2022 usada para treino, e os hiperparâmetros selecionados pelo grid search foram taxa de aprendizado 0,1, valor mínimo de divisão das amostras 200, valor mínimo de amostras em cada folha 1, máxima profundidade 1, sem máxima quantidade de atributos e número de estimadores 12. Nas métricas, a acurácia foi 58,78%, 56,61% de precisão, 75,23% de sensibilidade, 42,34% de especificidade, 64,60% para o f1-score e 58,78% para AUC ROC. O maior resultado ocorreu na sensibilidade, demonstrando uma capacidade razoável do modelo GBM em identificar casos positivos. Conclusão. Em suma, a sífilis congênita é uma doença tratável, mas continua ocorrendo no Brasil e no mundo. O atual estudo tem como resultados a classificação de sífilis congênita com métricas de avaliação, e uma diferenciação entre casos positivos e negativos.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas