Uma proposta para automatização do retreino de modelos de machine learning para auxiliar o diagnóstico de arboviroses

##plugins.themes.bootstrap3.article.main##

Sebastiao Rogério da Silva Neto
Kayo Henrique de Carvalho Monteiro
Élisson da Silva Rocha
Vanderson de Souza Sampaio
Patricia Takako Endo

Resumo

As doenças arbovirais, como a Dengue e a Chikungunya, representam um desafio global de saúde, especialmente no Brasil, que registra o maior número absoluto de casos no mundo (ACHEE et al. 2019), (LETA et al. 2018). O diagnóstico correto dessas doenças é complexo devido à similaridade de sintomas e à circulação simultânea de outros vírus. A falta de testes específicos nos centros de atendimento e a disponibilidade limitada de equipamentos e recursos laboratoriais contribuem para o diagnóstico incorreto e subnotificação destes casos (LIMA-CAMARA, 2016). No entanto, o Brasil possui uma grande quantidade de dados de pacientes, armazenada no Sistema de Informação de Agravos de Notificação (SINAN), o que representa uma fonte de informações para análises epidemiológicas. Esse conjunto de dados nacional possui informações clínicas, laboratoriais e sociodemográficas de casos de Dengue e Chikungunya: confirmados, descartados e de casos inconclusivos. Esses dados podem ser utilizados para desenvolvimento de soluções com modelos de machine learning para auxiliar no diagnóstico adequado desses pacientes. Neste sentido, DE OLIVEIRA et al. (2021) desenvolveram o Assistente Virtual para Processos de Aprendizagem em Arbovírus (VALERIA), um sistema de suporte à decisão clínica (do inglês Clinical Decision Support System - CDSS) que auxilia os profissionais de saúde no processo de diagnóstico de Dengue e Chikungunya. Esse assistente incorpora um modelo de machine learning treinado com dados do SINAN no período de 2015 a 2020. No entanto, considerando que novos dados são disponibilizados anualmente, ajustar o modelo com esses dados representa uma oportunidade de melhorar e refinar a performance do modelo em produção. Este trabalho visa expandir as contribuições de DE OLIVEIRA et al. (2021), propondo um processo automatizado de retreinamento dos modelos, com o intuito de aprimorar seu desempenho preditivo, fornecendo um suporte ainda mais eficiente aos profissionais de saúde. Diante do desafio de lidar com a obsolescência e ineficiência dos modelos de machine learning em produção ao longo do tempo, adotamos o paradigma do MLOps (Machine Learning Operations). Esse paradigma é uma prática de engenharia que combina machine learning, engenharia de software (especialmente DevOps) e engenharia de dados para facilitar a criação e a produção de sistemas de machine learning, preenchendo a lacuna entre desenvolvimento e operações (SYMEONIDIS et al. 2022). O MLOps utiliza princípios como automação de integração e entrega contínuas (do inglês Continuous Integration/Continuous Delivery - CI/CD), orquestração de fluxo de trabalho, reprodutibilidade, versionamento de dados, modelo e código, colaboração, treinamento e avaliação contínuos de machine learning, rastreamento e registro de metadados de machine learning, monitoramento contínuo e ciclos de feedback. Esse reajuste pode ser realizado usando ferramentas de orquestração, como MLflow, Apache Airflow e outras. Neste trabalho, utilizou-se o MLflow para monitorar os experimentos, comparar parâmetros e resultados, além de gerenciar e implantar modelos, servindo como um repositório central de modelos. Para a implementação e orquestração dos pipelines, foi utilizado o Apache Airflow. Dessa forma, espera-se que o retreinamento automático dos modelos do VALERIA por meio do MLOps permita que o sistema mantenha-se atualizado e eficiente ao lidar com os desafios diagnósticos das arboviroses. A contínua melhoria dos modelos, baseada em novos dados e informações, contribui para a precisão do diagnóstico inicial, auxiliando os profissionais de saúde na tomada de decisões clínicas e no manejo adequado dos pacientes afetados por Dengue e Chikungunya.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas