Melhorando os resultados de OCR de linhas de texto manuscrito em português brasileiro por meio de LLMs
##plugins.themes.bootstrap3.article.main##
Resumo
Este trabalho explora o ajuste-fino de Modelos Grandes de Linguagem (LLMs) para tarefa de correção ortográfica pós-OCR em redações escritas em Português do Brasil. Foram ajustados quatro LLMs abertos pré-treinados em Português: Portuguese T5 (T5), Bart Portuguese (Bart), Sabiá (LLaMa 1) e Gervásio (LLaMa 2), usando previsões de nível de linha geradas por três modelos ópticos: Bluche, Flor e Puigcerver. O conjunto de dados BRESSAY foi utilizado por esses modelos óticos para gerar as predições das imagens das redações. Após isso os LLMs usaram essas predições para corrigir os erros presentes. O algoritmo de correção ortográfica Symspell também foi usado para comparação com esses modelos. A avaliação utilizou as métricas de taxa de erros de caracteres (CER) e taxa de erros de palavras (WER) para medir o desempenho. Os resultados indicam que os quatro modelos de linguagem e o Symspell melhoraram a métrica WER, mas apenas o Symspell conseguiu melhorar a métrica CER (em dois dos três desafios). Especificamente, para previsões de Bluche, Bart Portuguese reduziu o WER em 11,88 pontos percentuais (pp) e Symspell reduziu o CER em 0,8 pp. Para previsões de Flor, Sabiá reduziu o WER em 9,22 pp e Symspell reduziu o CER para 0,22 pp. Para previsões de Puigcerver, Sabiá reduziu o WER em 3,89 pp, e na métrica CER nenhum conseguiu melhorar a taxa. Essas descobertas demonstram o potencial de LLMs ajustados na correção ortográfica pós-OCR - destacando a superioridade de Sabiá na redução de erros de palavras - ao mesmo tempo em que indica desafios em correções em nível de caractere.
Downloads
Não há dados estatísticos.
##plugins.themes.bootstrap3.article.details##
Seção
Engenharia da Computação e Sistemas