Causas que influenciam o desempenho educacional dos alunos no estado de Pernambuco

##plugins.themes.bootstrap3.article.main##

Silas Nunes Nascimento
Roberta Andrade de Araújo Fagundes

Resumo

Na sociedade competitiva é comum medir e comparar o desempenho, porém quando as métricas não qualitativas como beleza ou modernidade, essa comparação acaba dependendo muito dos valores do avaliador. Nesse contexto, desde 2004 o Inep usa para avaliação do ensino superior, o ENADE (Exame Nacional de Desempenho dos Estudantes) para medir a qualidade dos cursos e instituições de educação superior brasileiras. Assim, outras provas de avaliação de ensino no Brasil, como por exemplo, a Prova Brasil, há um questionário socioeconômico que permite mapear fatores que estão associados com o desempenho do aluno, além da qualidade do ensino prestado pela instituição, todos disponíveis no site do Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep). As equações matemáticas e probabilísticas que possibilitam a criação de modelos de Machine Learning (ML) foram desenvolvidas há muito tempo. Um dos principais benefícios desses modelos está na não necessidade de estruturar o problema real, com a utilização de dados reais torna-se mais viável o desenvolvimento desses modelos. No caso de modelos supervisionados, como por exemplo, regressão ou classificação, é possível construir soluções mais fidedignas com os problemas avaliados, levando em consideração os dados realmente coletados. Com isso, obtém-se um retrato da realidade a ser avaliada. Os modelos de ML que utilizam técnica de regressão são mais apropriados para situações em que a saída (output) da solução proposta, apresenta uma distribuição numérica contínua, diferentemente, por exemplo dos modelos de ML que usam a técnica de classificação, onde a saída da solução proposta (output) se assemelha a uma distribuição discreta, com um conjunto de entradas associados a uma classe específica. Esse trabalho tem como objetivo, definir quais aspectos socioeconômicos influenciam o desempenho dos alunos de Pernambuco através da correlação entre esses aspectos, construir soluções baseadas em modelos de ML, com a utilização de técnicas de regressão. Sendo assim, foi feita a etapa de pré-processamento desses dados que consistem na remoção das entradas de alunos de outros estados; remoção de colunas/linhas que não apresentem valores. Na etapa seguinte, foi calculado estatísticas descritivas, depois disso, foi realizada uma análise da correlação de Pearson para verificar a relação entre as variáveis do problema em estudo, seguido do método de ML que utiliza técnicas de regressão (com a uso do método dos mínimos quadrados ordinários ou Ordinary Least Squares - OLS) com o objetivo de encontrar as variáveis que mais influenciam o desempenho do aluno através da variável Nota Geral. Por fim, foi feita a criação de modelos de regressão para saber quais os coeficientes para cada variável. Durante a análise das estatísticas descritivas atenção uma tendência a uma renda familiar acima de 1,5 salários-mínimos, a média foi 2,7 e a mediana foi 2. Para essa categoria 2 representa uma renda de 1,5 a 3 salários-mínimos e 3 representa uma renda de 3 a 4,5 salários-mínimos. Ainda em métricas financeiras é notório o auxílio financeiro prestado pela família aos alunos 42%. Aqueles que têm alguma renda e ainda assim recebem ajuda da família somam 23,6%. Por fim, há a escolaridade dos pais, tanto a escolaridade do pai quanto a da mãe a mais frequente é Ensino Médio, 36,6% e 37,5%, porém os níveis de escolaridade mais comuns para as mães nas posições seguintes são Ensino Superior Graduação 18,6%, Ensino Fundamental 1 14,6% e Ensino Superior Pós Graduação 13,9% enquanto os pais apresentam as seguintes posições Ensino Fundamental 1 20,8%, Ensino Superior Graduação 16,0% e Ensino Fundamental 1 15,0% ou seja em média a escolaridade da mãe é maior que a do pai.Devido a baixa correlação entre as variáveis independentes, e a variável dependente, nota geral, os modelos de regressão desenvolvidos não tiveram uma boa performance, métodos de regressão paramétricos com aqueles não paramétricos. Para essas categorias, o Regressão Linear se destacou entre os métodos paramétricos e Regressão Polinomial entre os não paramétricos, com R² de 19,92% e 23,98% respectivamente, quando medimos o Erro Absoluto os modelos pontuaram 2040 e 28953 respectivamente. Fica evidente o que o senso comum afirma sobre o cenário brasileiro. Quanto mais o aluno estuda, maior a sua nota, famílias de classe média representam a maioria no Ensino Superior mesmo que nessa base as que possuem renda de até 1,5 salário-mínimo represente 25,9%, os alunos são em sua maioria jovens que precisam de ajuda financeira para manter os estudos e tem como principal sustento financeiro a família. Além disso, o fato de que a escolaridade da mãe ser, em média, maior que a do pai e mesmo assim a correlação de pearson ser maior para a escolaridade do pai e depois de feito o stepwise a escolaridade da mãe ser eliminada, indica que mesmo com mais tempo de estudo muito provavelmente o pai ganha mais que a mãe o que influencia mais na renda familiar.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas