Clusterização Hierárquica de Mesorregiões com Base de Dados do SINAN: Um Estudo sobre Tuberculose no estado de Pernambuco

##plugins.themes.bootstrap3.article.main##

Franciele Franca
Roberta Fagundes

Resumo

A tuberculose é uma doença infectocontagiosa, com transmissão pelas vias aéreas e provocada por uma bactéria (Mycobacterium tuberculosis, também conhecida como bacilo de Koch) (BRASIL, 2025a). Essa foi uma doença em grande destaque no passado, contudo ela não foi completamente erradicada, afetando o cenário brasileiro de forma preocupante. Segundo o Ministério da Saúde (BRASIL, 2025b), a tuberculose apresenta mais de 84 mil notificações por ano, com aproximadamente 6 mil óbitos anuais, o estado de Pernambuco não está de fora, apresentando 55,9 casos por 100 mil habitantes no ano de 2023. O objetivo principal deste estudo é a identificação de grupos homogêneos de mesorregiões no estado de Pernambuco, a partir de padrões de incidência de tuberculose e de fatores epidemiológicas associados, utilizando os dados do SINAN (Sistema de Informação de Agravos de Notificação), por meio da aplicação de técnicas de clusterização hierárquica. A base de dados utilizada foi obtida por meio da plataforma de Transferência de Arquivos do DATASUS (BRASIL, 2025), abrangendo os registros de casos de Tuberculose no Brasil, referentes aos anos de 2001 até 2024.  Os dados brutos estão no formato .dbc, necessitando de um processamento utilizando o software TabWin (BRASIL, 2025), disponibilizado pelo DATASUS, permitindo a conversão para o formato .csv e posterior análise, filtrando para o estado de Pernambuco. As variáveis utilizadas para a análise foram, os atributos, ano de notificação (NU_ANO), município de notificação dos casos (ID_MUNICIP) e obteve-se a soma de ocorrências naquele período. Após a seleção, foi realizado um pré-processamento dos dados, como tratamento dos valores e escalonamento dos valores das colunas, foi aplicada a padronização (Standardisation). A técnica de agrupamento hierárquico, aplicada com suporte da biblioteca Scikit-learn (SCIKIT-LEARN, 2025), foi escolhida por permitir a formação de agrupamentos com base na proximidade entre registros, ideal para identificar padrões de concentração nas mesorregiões. A técnica foi implementada no ambiente Jupyter Notebook (PROJECT JUPYTER, 2025). A abordagem seguida permitiu identificar as localidades que precisam de mais atenção no território pernambucano. O número de clusters (agrupamentos) é determinado por meio da análise do gráfico dendrograma, cuja estrutura exibe uniões de clusters entre pares mais próximos e distantes, foi possível identificar uma divisão clara em três agrupamentos, sem cruzamentos, indicando uma boa separação dos grupos. Nos quais, tendo 0, 1 e 2, representando baixa, média e alta concentração de casos, respectivamente. O estado de Pernambuco é dividido em 5 mesorregiões, Metropolitana de Recife (RMR), Agreste Pernambucano, Mata Pernambucana, Sertão Pernambucano e São Francisco Pernambucano. A mesorregião RMR apresentou uma elevada quantidade de casos, algo alarmante. O resultado foi condizente com o esperado em grandes centros urbanos, onde uma alta densidade populacional facilita a transmissão da doença, especialmente em ambientes compartilhados, como transportes públicos ou locais de trabalho. A estrutura mais robusta de saúde, também pode influenciar na quantidade de notificações de casos, já que há maior capacidade de diagnóstico e registro. Por outro lado, mesorregiões como o Agreste e Mata Pernambucana, foram áreas com quantidade moderada de casos. Os resultados podem ser justificados por fatores como estrutura de saúde com menor cobertura e proximidade geográfica com a região Metropolitana, criando “pontes” epidemiológicas que facilitam o deslocamento da transmissão. O último agrupamento, com as mesorregiões referentes ao Sertão Pernambucano e São Francisco Pernambucano apresenta baixo número de casos. Essas áreas são mais distantes da capital e são caracterizadas por menores densidades populacionais, além de possível dificuldade de acesso aos serviços de saúde, esses fatores podem tanto diminuir a transmissão quanto subnotificar os casos. A utilização de clusterização hierárquica demonstrou-se vantajosa por permitir a estruturação dos dados com base em padrões emergentes, sem a necessidade de pré-definir o número de agrupamentos, além de possibilitar visualizações claras para interpretações. O estudo realizado permitiu concluir que a densidade populacional e o desenvolvimento urbano estão diretamente relacionados a um alto número de notificações. A RMR, possui uma grande concentração populacional e em consequência, um padrão alarmante de casos, necessitando de políticas mais efetivas e adaptadas para reverter essa tendência que vem se mantendo ao longo dos anos. Além disso, também revelou mesorregiões com quantidade de casos moderados (Agreste e Mata Pernambucana). Essas áreas requerem cuidados estratégicos para prevenir uma futura escalada de ocorrências, evitando situação parecida com à RMR.  Por outro lado, as mesorregiões do Sertão e São Francisco Pernambucano apresentaram baixos números de casos, sugerindo a permanência de vigilância e investigações para entender se as incidências refletem uma menor circulação da doença ou desafios de acesso e notificação dos casos. Os resultados obtidos fornecem uma base sólida para um planejamento mais efetivo e estratégico de políticas públicas para o controle da Tuberculose no estado de Pernambuco, permitindo ações regionalizadas e focadas nas necessidades particulares de cada mesorregião. A aplicação de técnicas de clusterização hierárquica e o uso de ferramentas computacionais possibilitaram o agrupamento homogêneo das mesorregiões pernambucanas, de forma objetiva, revelando mesorregiões com diferentes níveis de incidência. Portanto, o estudo reforçou como a computação pode oferecer suporte à área da saúde, permitindo uma análise territorial baseada em dados epidemiológicos que favorecem o planejamento de políticas públicas de saúde. Para estudos futuros, é essencial o aprofundamento dos fatores que justificam as concentrações de casos, como crescimento populacional e acesso aos serviços de saúde, especialmente em regiões mais distantes da capital.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas