Previsão de malária utilizando modelos computacionais um estudo de caso em clusters de cidades no estado do Amazonas
##plugins.themes.bootstrap3.article.main##
Resumo
A malária é uma doença infecciosa transmitida através da fêmea de mosquitos do gênero Anopheles e é causada através de parasitas do gênero Plasmodium. Dentro desse grupo há quatro espécies que podem infectar humanos e duas delas (P. falciparum e P. vivax) apresentam maior ameaça (OPAS 2021). Após a infecção, a malária se desenvolve no fígado e destrói as células vermelhas do sangue, causando sintomas que podem durar de 10 a 15 dias após a picada, como náuseas, calafrios, vômito, febre e dor de cabeça, caso não seja tratada em um período de 24 horas após a aparição destes sintomas, ela pode se agravar e se tornar fatal (OPAS 2021). No Brasil, é possível notar um impacto significativo da malária, pois, ainda que as taxas se encontrassem estáveis nos anos de 2014 a 2016 (WHO, 2018) e menores do que os anos anteriores, o Brasil era o país com o maior número de mortes por malária no continente americano no ano de 2014 (WHO, 2016). A área endêmica da doença no Brasil compreende a região amazônica, responsável por 99% dos casos notificados, incluindo Acre, Amapá, Amazonas, Mato Grosso, Pará, Rondônia e Roraima (Souza et al., 2017). Dentro da região amazônica, a ocorrência da doença não é igualmente distribuída entre as regiões, variando de localidade de acordo com algumas características como fatores naturais, fatores geográficos e condições sociais (Confalonieri et al., 2017). O estado do Amazonas apresenta um alto índice de transmissão decorrente de questões, como condições climáticas e ambientais; e questões políticas, econômicas e socioculturais que influenciam na dinâmica da transmissão e da distribuição espacial da doença. Esta pesquisa propõe estudar técnicas de agrupamentos de municípios do estado do Amazonas em três formatos diferentes, os dois primeiros formatos compostos por divisões categorizadas pelo Instituto Brasileiro de Geografia e Estatística (IBGE) e terceiro e ultimo, através de clusters desenvolvidos por algoritmos de clustering. Para tanto, foi utilizada a base de dados do Sistema de Informação de Vigilância Epidemiológica da Malária (SIVEP-Malária) com dados relacionados a notificações de casos de malária, entre os anos de 2003 a 2018, referentes a todos os sessenta e dois municípios do estado do Amazonas, com o número aproximado de seis milhões de registros. Devido ao número de municípios no estado do Amazonas, foi decidido agrupá-los de acordo com características semelhantes entre si. Para uma melhor compreensão dos dados, o estado foi dividido através de três formas distintas, as duas primeiras são compostas por Regiões Geográficas Intermediárias e Imediatas, na qual os municípios são divididos de acordo com fatores determinados pelo IBGE. Para comparação com os dois primeiros casos, utilizamos técnicas de clustering definidas através do algoritmo k-means, na qual são divididas as amostras de um conjunto de dados em grupos de acordo com a similaridade das características de cada elemento (Kopec, 2019). Cada agrupamento é representado por uma série temporal diferente, inicialmente, o algoritmo k-means resultou em sete clusters. Este algoritmo está entre os métodos de agrupamento de dados mais conhecidos. Ele particiona um número predefinido de clusters k usando uma classificação não supervisionada. O algoritmo compara elementos com base na distância euclidiana entre os valores médios dos dados. Para definir uma quantidade de clusters k para particionar os sessenta e dois municípios do estado de forma bem definida, foi utilizado o Elbow Method. As principais características para definição dos clusters foram: taxa de casos notificados a cada 1000/habitantes, média e mediana de notificações por município. Os outros dois tipos de agrupamentos foram definidos de acordo com as Regiões Geográficas Imediatas e Intermediárias do estado do Amazonas. As onze Regiões Geográficas Imediatas têm na rede urbana o seu principal elemento de referência. Essas regiões são estruturadas a partir de centros urbanos próximos para a satisfação das necessidades imediatas das populações, tais como: procura por serviços de saúde e educação; busca de trabalho; compras de bens de consumo duráveis e não duráveis; e prestação de serviços públicos, como postos de atendimento do Instituto Nacional do Seguro Social (INSS), do Ministério do Trabalho e de serviços judiciários, entre outros. As quatro Regiões Geográficas Intermediárias correspondem a uma escala intermediária entre os estados do Brasil e as Regiões Geográficas Imediatas. As Regiões Geográficas Intermediárias estruturam o território, organizando as Regiões Geográficas Imediatas por meio de um polo de hierarquia superior diferenciado a partir dos fluxos de gestão privado e público (IBGE, 2017). Após o agrupamento de municípios, será realizado o somatório dos casos notificados relativos ao cluster, em formato de série temporal, para servir de entrada para os modelos de regressão. Até o presente momento, para os resultados preliminares, foram utilizados três modelos de regressão para estimar o número de casos de malária: Long-short Term Memory (LSTM), Gated Recurrent Unit (GRU) e o modelo convencional de séries temporais, Autoregressive Integrated Moving Average (ARIMA). Usaremos o método de validação para realizar os experimentos, selecionando 80% dos dados históricos para o treinamento e 20% para o teste. Os experimentos serão executados um total de 10 vezes, as médias do erro quadrático médio root-mean-square error (RMSE) e Mean Absolute Error (MAE) para avaliação dos modelos. Por fim, espera-se que os resultados deste estudo possam ser utilizados por gestores de saúde para análise de predição de casos de malária, sendo possível gerar alertas automáticos de surtos para que as devidas ações de prevenção possam ser tomadas em tempo hábil.
Downloads
Não há dados estatísticos.
##plugins.themes.bootstrap3.article.details##
Edição
Seção
Engenharia da Computação e Sistemas