Comparação de classificadores no desempenho de concurso público

##plugins.themes.bootstrap3.article.main##

Brenda Barros Silva
Wladimir Farias Tenório Filho
Roberta Andrade de Araújo Fagundes
Alexandre Magno de Andrade Maciel

Resumo

Contexto: Concursos públicos são processos seletivos que visam contratar profissionais para atuar em órgãos e instituições governamentais. Estes exames são conhecidos por sua alta competitividade, tendo em vista a estabilidade financeira garantida ao aprovado e também a importância do seu trabalho para o Governo. Nesse cenário, a análise de dados e o uso de algoritmos de aprendizado de máquina foram utilizados com o intuito de entender se existem fatores que influenciam o desempenho dos candidatos. Para isto, a comparação de diferentes algoritmos é uma prática fundamental, pois cada algoritmo tem suas características e capacidades específicas, e podem apresentar desempenhos variados dependendo do contexto e das características dos dados. Portanto, é relevante compreender a influência de diferentes classificadores no desempenho dos candidatos e identificar qual deles oferece o melhor desempenho para o problema. Objetivo: analisar a relação entre diferentes classificadores e o desempenho dos candidatos em concursos públicos. Pretende-se identificar padrões, tendências e avaliar a efetividade de cada algoritmo na análise desses fatores. Os classificadores utilizados neste estudo são a Regressão Logística, a Máquina de Vetores de Suporte (SVM), a Árvore de Decisão, o K-Vizinhos Mais Próximos (KNN) e a Random Forest. Metodologia: A base de dados utilizada foi a de um concurso público da prefeitura da cidade de Gravatá. Foram empregados diversos algoritmos de aprendizado de máquina, cada um com suas características e capacidades específicas, com o intuito de explorar os algoritmos que trazem melhores resultados para o objeto de estudo. Os fatores analisados na construção dos classificadores foram a idade, o gênero e o nível educacional dos candidatos. Estes fatores foram utilizados para entender se eles afetam o desempenho dos candidatos nos concursos públicos e identificar possíveis discrepâncias e desigualdades. As métricas de avaliação utilizadas para comparar o desempenho dos algoritmos foram a acurácia, precisão, recall e F1-score. A acurácia mede a proporção de previsões corretas feitas pelo modelo, a precisão mede a proporção de verdadeiros positivos em relação ao total de previsões positivas feitas, o recall mede a proporção de verdadeiros positivos em relação ao total de casos positivos reais e o F1-score é a média harmônica da precisão e do recall, buscando um balanço entre essas duas métricas. Resultados: A precisão da Regressão Logística e da Máquina de Vetores de Suporte é a mesma, que é de 0,386087. Isso é significativamente mais baixo do que todos os outros modelos. No entanto, a acurácia, o recall e o F1-score estão similares com a SVM, que são respectivamente 0,625200, 0,621359, e 0,476251. Esses números indicam que o modelo tem uma boa capacidade de previsão, mas a precisão mais baixa sugere que pode haver um número significativo de falsos positivos. A Árvore de Decisão tem a menor acurácia de todos os modelos, 0,505100, o que indica que fez a maior quantidade de previsões incorretas. Porém, em termos de precisão, ela tem um desempenho melhor do que a Regressão Logística e a SVM, com um score de 0,508572. O recall e o F1-score estão mais próximos dos resultados do K-Vizinhos Mais Próximos. O K-Vizinhos Mais Próximos tem uma acurácia de 0,549000, que é maior que a da Árvore de Decisão, mas menor que a dos outros modelos. A precisão, o recall e o F1-score estão no meio dos resultados obtidos pelos outros modelos. A Random Forest apresenta a maior acurácia de todos, com 0,558600, além do maior recall e F1-score, respectivamente 0,566343 e 0,553653. A precisão está próxima à da Árvore de Decisão e do K-Vizinhos Mais Próximos, mas é muito maior do que a da Regressão Logística e da SVM. Conclusão: a comparação de diferentes algoritmos de aprendizado de máquina revelou que o algoritmo Random Forest apresentou a melhor performance em termos de acurácia, precisão, recall e F1-score. No entanto, todos os algoritmos tiveram desempenhos similares, destacando a importância de comparar diferentes algoritmos para encontrar o mais adequado para um problema específico. Uma possível melhoria para futuros trabalhos seria realizar um ajuste de hiperparâmetros dos modelos avaliados. O ajuste de hiperparâmetros pode levar a melhorias significativas no desempenho dos modelos. Além disso, a inclusão de mais fatores ou a análise de diferentes conjuntos de dados poderia fornecer insights adicionais sobre o desempenho em concursos públicos.
 

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas