Um Estudo Comparativo entre Modelos de NER para Documentos de Identidade e Notas Fiscais
##plugins.themes.bootstrap3.article.main##
Resumo
Os modelos de Named Entity Recognition (NER) são aqueles que utilizam uma técnica de Natural Language Processing (NLP), onde palavras e termos segmentados, chamados de tokens, são identificados e categorizados em diferentes classes de sentidos semânticos. O objetivo do trabalho é investigar diferentes modelos conhecidos na literatura, aplicados a documentos de identificação pessoal e notas fiscais, a fim de concluir qual modelo melhor desempenha tarefas de extração e classificação de informações textuais e posicionais de imagens de documentos. Outra meta importante a qual o trabalho almeja contribuir é a de apontar possíveis fragilidades dos encontradas durante a pesquisa, sugerindo possíveis melhorias para trabalhos futuros.
Foi realizada uma pesquisa experimental avaliando a performance de cada modelo de acordo com os conjuntos de entrada. A principal métrica utilizada para avaliação dos modelos foi o F1-Score, que consiste na média harmônica entre a proporção de verdadeiros positivos entre todos os verdadeiros e a proporção de verdadeiros positivos entre positivos reais, comumente utilizado em modelos de classificação. Durante a fase de treinamento, parte dos conjuntos de dados treinados são separados em trials, com cada conjunto tendo seu desempenho próprio. O trial que obteve a maior pontuação em F1-Score no conjunto de validação é selecionado como o de melhor desempenho para aquele modelo, sendo utilizado sua pontuação do conjunto de treinamento. Ademais, foram testados também versões artificialmente aumentadas dos conjuntos de dados mediante algoritmos de aumento de volume de dados, tendo eles seus resultados próprios.
Dentre os 5 (cinco) modelos elencados para a pesquisa, 2 (dois) deles se destacaram e foram avaliados mais afundo, sendo eles o Language-independent Layout Transformer (LiLT) e o LayoutLMv3. Para estes modelos selecionados, para além da performance com seu conjunto de dados padrão, foi realizada também uma avaliação comparativa testando modelos treinados em dado conjunto em conjuntos diferentes de dados, com o propósito de estimar seu desempenho com dados diferentes de seu treinamento, provando sua capacidade de generalização.
Por fim, pode-se chegar à conclusão de que os modelos apresentavam melhora de capacidade nos conjuntos com volume aumentados artificialmente, evidenciando que uma maior quantidade de dados aprimora a qualidade do treinamento, a custo de maior gasto computacional. Outra característica notável dos resultados é a disparidade de pontuação entre os modelos testados no seu conjunto de treinamento com as pontuações de teste em conjuntos diferentes, os quais apresentaram relevante queda de desempenho, indicando baixa generalização por parte dos modelos treinados. Apesar dos resultados alcançados terem sido abaixo do encontrado em seus benchmarks de cada modelo, foram próximos o bastante para concluir que houve convergência dos modelos. Evidentemente, o surgimento de novas arquiteturas para NER podem proporcionar melhores resultados para as tarefas propostas nesta pesquisa, levando à necessidade de realizar novas apurações para se comparar modelos mais recentes encontrados na literatura.
Foi realizada uma pesquisa experimental avaliando a performance de cada modelo de acordo com os conjuntos de entrada. A principal métrica utilizada para avaliação dos modelos foi o F1-Score, que consiste na média harmônica entre a proporção de verdadeiros positivos entre todos os verdadeiros e a proporção de verdadeiros positivos entre positivos reais, comumente utilizado em modelos de classificação. Durante a fase de treinamento, parte dos conjuntos de dados treinados são separados em trials, com cada conjunto tendo seu desempenho próprio. O trial que obteve a maior pontuação em F1-Score no conjunto de validação é selecionado como o de melhor desempenho para aquele modelo, sendo utilizado sua pontuação do conjunto de treinamento. Ademais, foram testados também versões artificialmente aumentadas dos conjuntos de dados mediante algoritmos de aumento de volume de dados, tendo eles seus resultados próprios.
Dentre os 5 (cinco) modelos elencados para a pesquisa, 2 (dois) deles se destacaram e foram avaliados mais afundo, sendo eles o Language-independent Layout Transformer (LiLT) e o LayoutLMv3. Para estes modelos selecionados, para além da performance com seu conjunto de dados padrão, foi realizada também uma avaliação comparativa testando modelos treinados em dado conjunto em conjuntos diferentes de dados, com o propósito de estimar seu desempenho com dados diferentes de seu treinamento, provando sua capacidade de generalização.
Por fim, pode-se chegar à conclusão de que os modelos apresentavam melhora de capacidade nos conjuntos com volume aumentados artificialmente, evidenciando que uma maior quantidade de dados aprimora a qualidade do treinamento, a custo de maior gasto computacional. Outra característica notável dos resultados é a disparidade de pontuação entre os modelos testados no seu conjunto de treinamento com as pontuações de teste em conjuntos diferentes, os quais apresentaram relevante queda de desempenho, indicando baixa generalização por parte dos modelos treinados. Apesar dos resultados alcançados terem sido abaixo do encontrado em seus benchmarks de cada modelo, foram próximos o bastante para concluir que houve convergência dos modelos. Evidentemente, o surgimento de novas arquiteturas para NER podem proporcionar melhores resultados para as tarefas propostas nesta pesquisa, levando à necessidade de realizar novas apurações para se comparar modelos mais recentes encontrados na literatura.
Downloads
Não há dados estatísticos.
##plugins.themes.bootstrap3.article.details##
Seção
Engenharia da Computação e Sistemas