Seleção de Características com Algoritmos Bioinspirados para Acurácia e Eficiência na Previsão do IPCA

##plugins.themes.bootstrap3.article.main##

Bruno C.P. Lima Filho
Bruno J.T. Fernandes
Andre L.S. Xavier

Resumo

A inflação, definida como o aumento contínuo e generalizado do nível de preços da economia, corrói o poder de compra da moeda e gera incertezas que afetam as decisões de consumo e investimento (MANKIW, 2021). Por seus efeitos na estabilidade e no desenvolvimento econômico, sua previsão é uma tarefa de grande interesse para bancos centrais e projetistas. O Índice Nacional de Preços ao Consumidor Amplo (IPCA), principal indicador da inflação brasileira, é um índice composto pela variação de preços de um conjunto de produtos e serviços divididos em subgrupos, e exibe um comportamento complexo e não linear. Contudo, a modelagem preditiva do IPCA se depara com um desafio inerente à complexidade da economia: a alta dimensionalidade. A abundância de variáveis macroeconômicas disponíveis, embora potencialmente informativas, pode paradoxalmente prejudicar a análise, aumentando o custo computacional, introduzindo ruídos e elevando o risco de sobreajuste do modelo (overfitting). A literatura recente reforça a importância de lidar com essa questão, como no estudo de Miałkowska et al. (2022), que demonstrou uma aceleração de quase cinco vezes no aprendizado de um modelo financeiro ao reduzir drasticamente o número de variáveis, evidenciando o compromisso crucial entre acurácia e eficiência. Para realizar essa seleção, a literatura apresenta diferentes abordagens, como métodos de Filtro, que são rápidos, mas podem ignorar interações complexas; métodos Embutidos, que integram a seleção ao treinamento do modelo; e métodos de Envoltório (Wrapper), que tratam a seleção como um problema de busca. . Neste trabalho, optou-se pela abordagem de Envoltório, que, embora computacionalmente mais intensiva, oferece uma vantagem decisiva: ela avalia a qualidade de um subconjunto de características utilizando o próprio modelo de previsão final como critério. Isso garante que as variáveis selecionadas são otimizadas para maximizar a performance do modelo específico em questão. Para implementar essa abordagem,foram utilizados o Algoritmo Genético (GA) e o Otimizador por Enxame de Partículas (PSO), duas técnicas bioinspiradas capazes de explorar eficientemente um vasto espaço de soluções para identificar subconjuntos de características com alto poder preditivo combinado, uma vantagem decisiva para modelar fenômenos complexos como a inflação. Para testar a eficácia desses algoritmos, o arcabouço metodológico deste estudo foi aplicado sobre um modelo de previsão híbrido. Essa estrutura segue a abordagem proposta por Zhang (2003), que parte da premissa de que uma série temporal pode ser decomposta em componentes lineares e não lineares. Assim, o modelo combina um ARIMAX para capturar as relações lineares nos dados com um Random Forest (RF) para modelar os padrões não lineares remanescentes nos resíduos. É sobre essa estrutura que o impacto da seleção de características com GA e PSO é avaliado, utilizando um dataset inicial de 28 variáveis macroeconômicas e setoriais para prever o IPCA.. A análise quantitativa dos resultados revelou que, com a drástica redução das features, os modelos apresentaram um desempenho preditivo inferior. Para avaliar os modelos, utilizou-se a Raiz do Erro Quadrático Médio (RMSE). O modelo completo, utilizando todas as 27 variáveis exógenas, serviu como benchmark, alcançando um RMSE de 0.1046. Em contraste, os modelos com seleção de características tiveram erros maiores: o subconjunto selecionado pelo Algoritmo Genético (GA) ('IPCA_Saúde_cuidados_pessoais', 'IPCA_Vestuário', 'USDBRL', 'Consumo_Energia_Comercial' e 'Estoque_Empregos_Formais_Total') resultou em um RMSE de 0.1266, enquanto o conjunto do Otimizador por Enxame de Partículas (PSO) ('IPCA_Transportes', 'IGP_DI', 'Produção_Derivados_Petróleo', 'Consumo_Gasolina' e 'Estoque_Empregos_Formais_Total') alcançou um RMSE de 0.1707. Essa perda de acurácia pode ser atribuída a alguns fatores. Primeiramente, a quantidade de features foi pré-fixada em cinco, um número que pode ter sido restritivo demais, levando à exclusão de variáveis com informações relevantes. Adicionalmente, a própria natureza complexa e não linear das interações entre as variáveis econômicas pode exigir um conjunto maior de dados para ser adequadamente modelada. Ainda assim, o estudo evidencia um claro trade-off: apesar da queda na performance, obteve-se uma redução de mais de 81% na dimensionalidade, resultando em modelos mais simples e interpretáveis. Essa observação motiva diretamente os trabalhos futuros, que incluem a ampliação da análise para datasets de outros países, a exploração de técnicas baseadas em grafos e, crucialmente, a realização de um estudo para descobrir, de maneira automática, a quantidade ideal de features para o modelo, buscando um equilíbrio ótimo entre acurácia e parcimônia.

Palavras-chave: Previsão de Séries Temporais; Seleção de Características; Modelos Híbridos; Algoritmos Bioinspirados.
 
Referências 
MANKIW, N. G. Princípios de Macroeconomia. 9. ed. São Paulo: Cengage Learning, 2021.
MIAŁKOWSKA, K. et al. Feature Selection for financial data – comparison. Procedia Computer Science, v. 207, p. 3041–3050, 2022.
ZHANG, G. P. Time series forecasting using a hybrid ARIMA and neural network model. Neurocomputing, v. 50, p. 159-175, 2003.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas