Desenvolvimento de um Processo de Aprendizado de Máquina para Avaliação da Fluência em Leitura

##plugins.themes.bootstrap3.article.main##

Gabriel Candido da Silva
Rodrigo Lins Rodrigues
Alexandre Magno Andrade Maciel

Resumo

Há atualmente no Brasil, um baixo índice de rendimento escolar nas habilidades e competências relacionadas à prática da leitura, fator este que tem gerado um aumento de produções científicas que discutem os métodos de avaliação e as dificuldades do aprendizado deste domínio (SILVA et al. 2020). As avaliações da fluência em leitura também necessitam de padronização e automatização para serem realizadas em larga escala e fornecerem informações úteis aos professores, para que eles possam adequar suas práticas em sala de aula às necessidades dos estudantes (CARCHEDI, et al. 2021). Neste contexto, o uso de tecnologias de reconhecimento automático de fala vêm sendo utilizados na construção de sistemas de avaliação de fluência. A automação dessas avaliações em larga escala pode reduzir os custos, tempo de execução e impacto da subjetividade humana na correção das atividades (FERREIRA et al. 2022). No entanto, muitos dos trabalhos realizados nesta área buscam avaliar a fluência apenas pela medição da precisão da leitura de palavras ou pseudopalavras, sendo esta apenas uma das 3 dimensões necessárias para a realização de uma avaliação da capacidade do indíviduo na prática da leitura. Dito isto, este trabalho objetiva o desenvolvimento de um processo de aprendizado de máquina que possa realizar a avaliação a partir das três dimensões de fluência: a precisão, a velocidade e a prosódia. O processo se constitui essencialmente das seguintes etapas: 1) Transcrição dos áudios selecionados; 2) Extração das características de fluência dos textos transcritos e; 3) Aplicação dos modelos de aprendizado de máquina para realização da predição da fluência. Como base de dados, foi utilizado um conjunto de 600 arquivos de áudio de leituras realizada por crianças do 2º e 3º ano de 30 escolas públicas de todas as regiões do Brasil, que foram coletadas e disponibilizadas pela Escribo. Para o processo de transcrição foi utilizado a ferramenta de reconhecimento automático de voz WhisperX (BAIN et al. 2023) com o modelo large-v3, onde os arquivos foram exportados em formato .json, preservando marcadores de tempo para cada segmento transcrito e para cada palavra. No processo de extração foram consideradas as três dimensões da fluência, onde precisão é a quantidade de palavras lidas corretamente, velocidade é a quantidade de palavras lidas corretamente por minuto e prosódia a quantidade de pausas de leitura realizadas corretamente. Por fim, o processo de aprendizado de máquina foi realizado considerando três diferentes experimentos, 1) Classificação Binária; 2) Classificação Multiclasse e; 3) Regressão, onde as variáveis independentes são as variáveis de máquina, obtidas através do processo de extração de características e a variável dependente é o score de fluência formado pela avaliação humana de uma especialista na área que ouviu e diagnosticou os 600 áudios de leitura. Como resultados principais, obtivemos taxas de 83% de acurácia na classificação binária, 75% de acurácia na classificação multiclasse e valores de MAE, MSE e R² de 1.09, 2.37 e 0.71 respectivamente, nas métricas de regressão. Com isto, espera-se que o processo de aprendizado de máquina construído, esteja apto a ser conectado à plataformas de ensino, para que essas avaliações de leitura possam ser realizadas em tempo real e assim servir como uma ferramenta de auxílio para que o professor possa tomar as ações pedagógicas necessárias.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas