Previsão da perfomance dos estudantes brasileiros utilizando otimização de hiperparâmetros

##plugins.themes.bootstrap3.article.main##

Messias Rafael Batista
Roberta Andrade de Araújo fagundes

Resumo

Contexto: O Programa Internacional de Avaliação de Estudantes (PISA) 2018 é um concurso educacional global aplicado em múltiplos países, com o objetivo de examinar elementos que podem impactar a qualidade da educação. Sua avaliação se concentra em áreas como leitura, matemática e ciências, proporcionando uma visão ampla desses aspectos. Além disso, o PISA 2018 também investiga fatores contextuais, como o ambiente socioeconômico e a estrutura escolar, para compreender melhor os determinantes que afetam o desempenho dos estudantes. A análise dos dados obtidos no concurso revela tendências e desafios educacionais, fornecendo informações valiosas para a melhoria das políticas e práticas educacionais em cada país participante. Esses programas têm como objetivo principal obter uma perspectiva abrangente da educação levando em consideração fatores socioeconômicos, comportamentais, de infraestrutura escolar. A coleta e análise dos dados resultantes permitem identificar indicadores de progresso e áreas de avaliação relevantes para cada contexto específico. Essas informações oferecem insights relevantes para entender o ambiente educacional, identificar tendências e desafios, e embasar decisões e intervenções visando o aprimoramento da qualidade da educação oferecida. Motivação: Este estudo se insere em um contexto de pesquisa que se concentra na performance dos estudantes em concursos educacionais, utilizando a utilização de modelos de machine learning para desenvolver soluções eficientes que auxiliem na tomada de decisões. Nesse sentido, uma análise realizada por Cortez e Silva (2008) investigou a performance dos estudantes com base em dados acadêmicos e sociais de duas escolas em Portugal. Os resultados indicaram que as notas anteriores dos estudantes exercem a maior influência nos resultados acadêmicos, enquanto os aspectos sociais não apresentaram um impacto tão significativo. Outros estudos abordam diferentes técnicas, como Deep Learning (HUSAIN, 2019) e Naive Bayes (JAYAPRAKASH et al., 2015), ressaltando a seleção de atributos como um elemento comum nessas pesquisas. No entanto, apesar da existência de estudos relevantes sobre a performance dos estudantes e a seleção de atributos, não foram encontradas abordagens que abordem a otimização dos hiperparâmetros por meio de técnicas de Inteligência de Enxames. Esse fato indica uma lacuna no conhecimento atual e abre uma oportunidade para investigar o potencial dessas técnicas no contexto específico. Objetivo: Este estudo busca compreender se a utilização da Particle Swarm Optimization (PSO), uma técnica baseada na inteligência de enxames, na otimização de hiperparâmetros resulta em melhorias nos modelos de machine learning desenvolvidos para explicar a performance dos estudantes no PISA 2018. Metodologia: De forma a atingir o objetivo proposto, foram utilizados os dados do PISA 2018, disponibilizados pela Organização para Cooperação e Desenvolvimento Econômico (OCDE). Para o pré-processamento dos dados, foi realizada uma redução do conjunto, concentrando-se especificamente no contexto brasileiro e selecionando atributos relevantes relacionados a informações socioeconômicas, comportamentais e de infraestrutura escolar dos estudantes. Em seguida, foi calculada a média das pontuações obtidas pelos alunos na prova de ciências, que foi adotada como a variável alvo do estudo. Para modelar a relação entre os atributos selecionados e a variável alvo, foram implementados dois modelos de Machine Learning: Decision Tree e o Histogram Gradient Boost. Esses modelos foram desenvolvidos utilizando a biblioteca SkLearn. Além disso, também foi realizada uma otimização de hiperparâmetros para comparar os resultados obtidos pelos modelos. Resultados: Os resultados deste estudo compõem um novo recorte que faz parte de uma pesquisa maior na base de dados do PISA 2018 sobre performance dos estudantes. Através da aplicação da técnica de seleção de atributos SelectKBest com f_regression, estabelecendo como parâmetro k=10, foram identificados os dez atributos mais relevantes, demonstrando sua capacidade explicativa. Esses atributos foram utilizados como entrada nos modelos de Machine Learning, resultando nas métricas apresentados na Tabela 1 abaixo. A escolha do SelectKBest se deu devido à sua capacidade de selecionar os k atributos com as pontuações mais altas em relação à variável alvo.
 

Modelos


Configuração


R2


MAE


MSE


Decision Tree


Padrão


-0.06


0.81


1.03


Otimizado


0.37


0.61


0.60


Histrogram Gradient Boost


Padrão


0.44


0.58


0.53


Otimizado


0.46


0.57


0.52

 
A análise dos resultados na tabela revela as métricas de avaliação de dois modelos: Decision Tree e Histogram Gradient Boost. Para o modelo Decision Tree, observa-se que a configuração padrão apresenta um valor negativo de R2, indicando que o modelo não se ajusta bem aos dados e não consegue explicar a variabilidade da variável alvo. No entanto, após a otimização, o modelo apresenta um valor positivo de R2, indicando uma melhoria significativa na capacidade de explicação dos dados. Além disso, observa-se uma redução no erro absoluto médio (MAE) e no erro quadrático médio (MSE), o que indica uma melhor precisão do modelo otimizado em relação ao padrão.
Por outro lado, para o modelo Histogram Gradient Boost, tanto a configuração padrão quanto a otimizada apresentam valores positivos de R2, indicando que ambos os modelos conseguem explicar uma parte da variabilidade dos dados. No entanto, a otimização resulta em pequenas melhorias nas métricas MAE e MSE, indicando uma ligeira redução nos erros de previsão em comparação com a configuração padrão. Em geral, os resultados sugerem que a otimização dos modelos melhora seu desempenho, tornando-os mais eficazes na explicação e previsão da variável alvo.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas