Combinação de modelos multimodais LayoutLMv3 e LILT para extração de entidades nomeadas em documentos
##plugins.themes.bootstrap3.article.main##
Resumo
Esta pesquisa avalia o desempenho da combinação dos modelos multimodais LayoutLMv3 e LiLT, que integram análise de imagem e texto durante o pré-treinamento, com foco na identificação de entidades nomeadas (NER). O objetivo foi comparar o desempenho dos modelos LayoutLMv3 e LiLT, tanto individualmente quanto em conjunto, na tarefa de NER, analisando a eficácia da combinação de informações visuais e textuais para melhorar a precisão e a robustez do reconhecimento de entidades em diferentes contextos. A metodologia incluiu o treinamento dos modelos com os conjuntos de dados FUNSD e CORD para validar a capacidade de generalização dos modelos. Ambos os algoritmos receberam documentos em formato PDF, nos quais foi aplicada uma ferramenta de OCR para a extração das entidades definidas. Os dados foram pré-processados e organizados em uma estrutura de coordenadas, permitindo que os modelos identificassem tanto as partes de imagem quanto de texto dos documentos. Os resultados demonstraram que a combinação dos modelos LayoutLMv3 e LiLT não apresentou ganhos expressivos em relação aos desempenhos individuais em cada conjunto de dados, apesar de representar uma abordagem comumente usada em competições internacionais na tarefa de extração de entidades nomeadas. Portanto, o uso combinado dos modelos é promissor para aprimorar os resultados na tarefa NER e estão em curso novas estratégias de combinação. Além disso, outro aspecto que justifica a combinação de modelos é aumentar a confiabilidade dos resultados obtidos.
Downloads
Não há dados estatísticos.
##plugins.themes.bootstrap3.article.details##
Seção
Engenharia da Computação e Sistemas