Comparação de classificadores no desempenho de concurso público | Anais da Mostra de Extensão, Inovação e Pesquisa

Publicado Feb 27, 2024

Brenda Barros Silva

Universidade de Pernambuco

Wladimir Farias Tenório Filho

Universidade de Pernambuco

Roberta Andrade de Araújo Fagundes

Alexandre Magno de Andrade Maciel

Universidade de Pernambuco

Resumo

Contexto: Concursos públicos são processos seletivos que visam contratar profissionais para atuar em órgãos e instituições governamentais. Estes exames são conhecidos por sua alta competitividade, tendo em vista a estabilidade financeira garantida ao aprovado e também a importância do seu trabalho para o Governo. Nesse cenário, a análise de dados e o uso de algoritmos de aprendizado de máquina foram utilizados com o intuito de entender se existem fatores que influenciam o desempenho dos candidatos. Para isto, a comparação de diferentes algoritmos é uma prática fundamental, pois cada algoritmo tem suas características e capacidades específicas, e podem apresentar desempenhos variados dependendo do contexto e das características dos dados. Portanto, é relevante compreender a influência de diferentes classificadores no desempenho dos candidatos e identificar qual deles oferece o melhor desempenho para o problema. Objetivo: analisar a relação entre diferentes classificadores e o desempenho dos candidatos em concursos públicos. Pretende-se identificar padrões, tendências e avaliar a efetividade de cada algoritmo na análise desses fatores. Os classificadores utilizados neste estudo são a Regressão Logística, a Máquina de Vetores de Suporte (SVM), a Árvore de Decisão, o K-Vizinhos Mais Próximos (KNN) e a Random Forest. Metodologia: A base de dados utilizada foi a de um concurso público da prefeitura da cidade de Gravatá. Foram empregados diversos algoritmos de aprendizado de máquina, cada um com suas características e capacidades específicas, com o intuito de explorar os algoritmos que trazem melhores resultados para o objeto de estudo. Os fatores analisados na construção dos classificadores foram a idade, o gênero e o nível educacional dos candidatos. Estes fatores foram utilizados para entender se eles afetam o desempenho dos candidatos nos concursos públicos e identificar possíveis discrepâncias e desigualdades. As métricas de avaliação utilizadas para comparar o desempenho dos algoritmos foram a acurácia, precisão, recall e F1-score. A acurácia mede a proporção de previsões corretas feitas pelo modelo, a precisão mede a proporção de verdadeiros positivos em relação ao total de previsões positivas feitas, o recall mede a proporção de verdadeiros positivos em relação ao total de casos positivos reais e o F1-score é a média harmônica da precisão e do recall, buscando um balanço entre essas duas métricas. Resultados: A precisão da Regressão Logística e da Máquina de Vetores de Suporte é a mesma, que é de 0,386087. Isso é significativamente mais baixo do que todos os outros modelos. No entanto, a acurácia, o recall e o F1-score estão similares com a SVM, que são respectivamente 0,625200, 0,621359, e 0,476251. Esses números indicam que o modelo tem uma boa capacidade de previsão, mas a precisão mais baixa sugere que pode haver um número significativo de falsos positivos. A Árvore de Decisão tem a menor acurácia de todos os modelos, 0,505100, o que indica que fez a maior quantidade de previsões incorretas. Porém, em termos de precisão, ela tem um desempenho melhor do que a Regressão Logística e a SVM, com um score de 0,508572. O recall e o F1-score estão mais próximos dos resultados do K-Vizinhos Mais Próximos. O K-Vizinhos Mais Próximos tem uma acurácia de 0,549000, que é maior que a da Árvore de Decisão, mas menor que a dos outros modelos. A precisão, o recall e o F1-score estão no meio dos resultados obtidos pelos outros modelos. A Random Forest apresenta a maior acurácia de todos, com 0,558600, além do maior recall e F1-score, respectivamente 0,566343 e 0,553653. A precisão está próxima à da Árvore de Decisão e do K-Vizinhos Mais Próximos, mas é muito maior do que a da Regressão Logística e da SVM. Conclusão: a comparação de diferentes algoritmos de aprendizado de máquina revelou que o algoritmo Random Forest apresentou a melhor performance em termos de acurácia, precisão, recall e F1-score. No entanto, todos os algoritmos tiveram desempenhos similares, destacando a importância de comparar diferentes algoritmos para encontrar o mais adequado para um problema específico. Uma possível melhoria para futuros trabalhos seria realizar um ajuste de hiperparâmetros dos modelos avaliados. O ajuste de hiperparâmetros pode levar a melhorias significativas no desempenho dos modelos. Além disso, a inclusão de mais fatores ou a análise de diferentes conjuntos de dados poderia fornecer insights adicionais sobre o desempenho em concursos públicos.

Downloads

Não há dados estatísticos.

Edição

v. 10 (2023): Mostra POLI/UPE

Seção

Engenharia da Computação e Sistemas

##plugins.themes.bootstrap3.article.sidebar##

##plugins.themes.bootstrap3.article.main##

Resumo

Downloads

##plugins.themes.bootstrap3.article.details##