Performance de Estudantes estudo comparativo de classificadores
##plugins.themes.bootstrap3.article.main##
Resumo
Contexto: nas últimas duas décadas é verificado o crescente volume de dados que são trafegados, coletados e analisados por diversas organizações, fazendo-se da inteligência de negócio orientada a dados parte de um processo de destaque, no qual, um dos objetivos é ampliar a vantagem competitiva das organizações. Neste contexto, a mineração de dados é um processo de destaque como parte do Knowledge Databases Discovery (KDD) dado o volume e a necessidade automatizar o processo de inteligência através dos dados (CASTRO, 2016). Em sentido similar, as organizações centradas no campo educacional se utilizam das técnicas de mineração de dados em busca de melhor desempenho de seus estudantes, especializando o campo em mineração de dados educacionais. As questões trabalhadas na Mineração de Dados Educacional dizem respeito as capacidades de classificação e previsão de modelos sob a performance de estudantes, como verificado no trabalho de CORTEZ e SILVA (2008). A problemática da performance de estudantes propõe, por exemplo, a análise dos fatores que influenciam (atributos) o status de aprovação ou a previsão da nota final do aluno. Trabalhos Relacionados: o trabalho de Cotez e Silva (2008) apresenta a análise de desempenho de estudantes a partir de dados acadêmicos e sociais de cada estudantes, com coleta realizada por meio de formulários e análise documental das escolas pesquisadas, os autores executam cinco algoritmos, em dois objetivos de classificação e um de regressão. Na última década, pesquisadores aplicam os diversos algoritmos em conjuntos de atributos diferentes na busca pela combinação que explique com maior assertividade a performance de estudantes. Pode-se destacar estudos que aplicam classificação com Machine Learning (SUGUNA et al 2019), Deep Learnin (HUSAIN, 2019), ou Naive Bayes (JAYAPRAKASH et al 2015), por exemplo. Entretanto, um ponto em comum nos trabalhos de análise de performance e a importância dedica a seleção dos atributos, seja quando é realizada ainda no planejamento e coleta, ou quando os autores utilizam, dentro dos atributos coletados técnicas robustas de feature selection. Nesta, perspectiva, pode-se destacar o trabalho de SOKKHEY e OKAZAKI (2020) que buscam aplicar seleção de variáveis/atributos em uma dataset com objetivo de melhorar a performance do modelo. Motivação: a busca por modelos mais eficientes no campo educacional, servem ao propósito de aumentar a capacidade explicativa e a precisão da solução em problema do mundo real no qual se encontra. O contexto educacional, propõem diversas explicações possíveis para o problema da performance acadêmica de estudantes, seja a partir do seu desempenho em avaliações anteriores, fatores socioeconômicos, ou emocionais. Selecionar os atributos com maior capacidade explicativa e que melhor represente a realidade é um dos desafios neste campo de estudo. Objetivo: realizar um estudo comparativo com o trabalho de Cortez e Silva (2008) da performance dos algoritmos de classificação a partir da aplicação de técnicas de seleção de variáveis/atributos. Metodologia: aplicação da técnica one-hot-encoding de transformação da base de dados, de valores categóricos para discretos; aplicação de técnica de feature selection, em busca de encontrar os atributos de maiore relevância; por fim, verificando o desempenho dos algoritmos Decision Tree, Random Forest e Support Vector Machine (SVM). A biblioteca SkLearn será utilizada para suportar a aplicação dos algoritmos, bem como para verificar os scores de desempenho. Para uma comparação mais justas, será seguido os parâmetros dos autores, que utilizam 10-cross fold, em 20 interações, em dois problemas (i) classificar alunos que são aprovados ou reprovados, e (ii) identificar, a partir da nota final do terceiro ano de ensino médio, qual a classificação entre cinco níveis. Resultados: os resultados encontrados preveem uma comparação de três classificadores, para dois problemas. Foi utilizado o valor de score para comparar com os resultados dos autores (ver Tabela 1).
Tabela 1 – Scores de comparação para problema do status de aprovação ou reprovação
Input
Setup
Português
Random Forest
Decision Tree
SVM
Inicial
Final
Inicial
Final
Inicial
Final
A
92.6
94.9
93.0
93.8
91.4
91.8
B
90.1
90.3
88.4
87.7
88.0
88.7
C
85.0
86.6
84.4
84.6
84.8
84.6
A Tabela 1 apresenta o resultado de três algoritmos de classificação em três setups (combinações de atributos – A, B, C) diferentes, com valores atingidos pela pesquisa, e também por este estudo. Além das técnicas aplicadas ao dataset referentes a disciplina de Português, o mesmo procedimento foi adotado para estudantes da disciplina de Matemática, encontrando resultados similares e maiores dos que apresentados pelos autores (CORTEZ e SILVA, 2008). Conclusão: a performance de estudantes é tema fundamental para que organizações educacionais possam corrigir o caminho traçado por alunos que apresentem resultados abaixo do esperado nos anos iniciais, entretanto, o desafio se impõe não apenas na construção de um modelo preciso, mas também na seleção de atributos que melhor represente a realidade. O trabalho de Cortez e Silva (2008) conclui que a performance em avaliações anteriores afetam fortemente os resultados futuros, corroborando com a linha de investigação deste trabalho. Trabalhos futuros: espera-se que as pesquisas decorrentes possam aplicar outros algoritmos e atingir outros objetivos propostos pelos autores Cortez e Silva (2008) nos problemas de regressão.
Tabela 1 – Scores de comparação para problema do status de aprovação ou reprovação
Input
Setup
Português
Random Forest
Decision Tree
SVM
Inicial
Final
Inicial
Final
Inicial
Final
A
92.6
94.9
93.0
93.8
91.4
91.8
B
90.1
90.3
88.4
87.7
88.0
88.7
C
85.0
86.6
84.4
84.6
84.8
84.6
A Tabela 1 apresenta o resultado de três algoritmos de classificação em três setups (combinações de atributos – A, B, C) diferentes, com valores atingidos pela pesquisa, e também por este estudo. Além das técnicas aplicadas ao dataset referentes a disciplina de Português, o mesmo procedimento foi adotado para estudantes da disciplina de Matemática, encontrando resultados similares e maiores dos que apresentados pelos autores (CORTEZ e SILVA, 2008). Conclusão: a performance de estudantes é tema fundamental para que organizações educacionais possam corrigir o caminho traçado por alunos que apresentem resultados abaixo do esperado nos anos iniciais, entretanto, o desafio se impõe não apenas na construção de um modelo preciso, mas também na seleção de atributos que melhor represente a realidade. O trabalho de Cortez e Silva (2008) conclui que a performance em avaliações anteriores afetam fortemente os resultados futuros, corroborando com a linha de investigação deste trabalho. Trabalhos futuros: espera-se que as pesquisas decorrentes possam aplicar outros algoritmos e atingir outros objetivos propostos pelos autores Cortez e Silva (2008) nos problemas de regressão.
Downloads
Não há dados estatísticos.
##plugins.themes.bootstrap3.article.details##
Edição
Seção
Engenharia da Computação e Sistemas