Tratamento da Oclusão de Textos em Cenas Naturais

##plugins.themes.bootstrap3.article.main##

Aline Geovanna Soares
Byron Leite Dantas Bezerra
Estanislau Lima

Resumo

Textos são uma ferramenta chave para a comunicação e compreensão do mundo ao redor, configurando aplicações que envolvem automação industrial, assistência automotiva, robótica social e diversas outras atividades (RAISI et al., 2020). Frente a todas as peculiaridades presentes no processo de criação da Inteligência Artificial (IA), a detecção e o reconhecimento de textos em cenas naturais são dois dos principais desafios no campo da visão computacional (KARAOGLU; FERNANDO; TREMEAU, 2010) em face das dificuldades impostas às condições do ambiente, tais como: oclusão, iluminação, diversidade de backgrounds e foco (ZHONG et al., 2016). Com o avanço de arquiteturas de Redes Neurais Profundas, muito tem sido feito e o desempenho de modelos como PSENet (LI et al., 2018), EAST (ZHOU et al., 2017), PAN (WANG et al., 2019) e CRAFT (BAEK et al., 2019) em relação à alguns desafios mencionados anteriormente, mostram excelentes resultados em termos de acurácia para benchmarks como ICDAR 2015 (KARATZAS et al., 2015), MSRA-TD500 (YAO et al., 2012) e COCO-Text (VEIT et al., 2016). Contudo, a oclusão de textos ainda é um problema remanescente e está associado à ocultação parcial de um objeto pelo outro, representando uma séria ameaça ao desempenho dos modelos do estado da arte, a confiabilidade e a reconstrução da informação, como mostra o estudo realizado por Raisi et al. (2020). A insuficiência de dados para o treinamento é um dos motivos para a incapacidade de generalização dos dados, uma vez que os métodos de detecção precisam de bases de dados que representem bem o mundo real (RAISI et al., 2020). Com isso, este trabalho propõe a criação de uma base de dados com textos parcialmente oclusos em cenas naturais e a análise do impacto da oclusão em abordagens de reconhecimento de texto do estado da arte para que, através de modelos baseados em Redes Neurais de Arquitetura Profunda, o texto oculto seja reconhecido e reconstruído. O processo de criação e desenvolvimento da base de dados se baseou na aplicação de oclusões parciais às imagens do Incidental Scene Text (ICDAR 2015), um dos benchmarks em detecção de texto em cena que possui 1500 imagens, com 1000 imagens destinadas ao treinamento e 500 imagens ao teste, sem qualquer tipo de manipulação para melhoria do posicionamento ou qualidade de enquadramento. A base de dados inclui textos a nível de palavra em orientações variadas, capturadas em diferentes condições de iluminação e backgrounds complexos (ROBUST READING COMPETITION, 2015). No projeto, foram aplicados três níveis de oclusões: fácil, que inclui de 10 a 20% de oclusão do texto; médio, com 40-50% de oclusão; e difícil, com 60-70%. O cálculo que determina o tamanho da oclusão foi realizado considerando a proporção do tamanho do texto em relação à imagem original e a obstrução atribuída ao texto correspondente a uma parte aleatória da imagem original. De posse das imagens ocluídas, foi realizada a análise de quatro abordagens do estado da arte: PSENet, EAST, PAN e CRAFT. Todos os modelos foram treinados no ICDAR 2015 e os conjuntos de testes da base criada, nunca vistos pelos modelos, foram utilizados a título de comparação dos respectivos desempenhos. Os resultados comprovam que à medida que o nível de oclusão aumenta, as precisões dos modelos diminuem, como era de se esperar. O PSENet, entre todos os modelos, se comportou como o melhor modelo para níveis difíceis de oclusão, com 73% de precisão; e o CRAFT atingiu o pior desempenho, com 59% de precisão.  O desempenho superior do PSENet está associado a geração de diferentes níveis de escalas de predição e sua gradual expansão até que toda a instância do texto seja detectada. Os próximos passos do estudo correspondem à integralização das predições realizadas pela abordagem com melhor desempenho de detecção a um modelo de reconhecimento de texto que seja capaz de generalizar bem as informações e avaliar também a abordagem sob a oclusão.
Palavras-chave: Reconhecimento de Texto; Redes Neurais; Visão Computacional; Cenas Naturais.
 
Referências
BAEK, Youngmin et al. Character region awareness for text detection. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. p. 9365-9374.
KARAOGLU, Sezer; FERNANDO, Basura; TREMEAU, Alain. A novel algorithm for text detection and localization in natural scene images. In: 2010 International Conference on Digital Image Computing: Techniques and Applications. IEEE, 2010. p. 635-642.
KARATZAS, Dimosthenis et al. ICDAR 2015 competition on robust reading. In: 2015 13th International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2015. p. 1156-1160.
LI, Xiang et al. Shape robust text detection with progressive scale expansion network. arXiv preprint arXiv:1806.02559, 2018.
OVERVIEW – Incidental scene text. Robust Reading Competition, 2015. Disponível em: <https://rrc.cvc.uab.es/?ch=4>. Acesso em: 26 de out. de 2020.
RAISI, Zobeir et al. Text Detection and Recognition in the Wild: A Review. arXiv preprint arXiv:2006.04305, 2020.
VEIT, Andreas et al. Coco-text: Dataset and benchmark for text detection and recognition in natural images. arXiv preprint arXiv:1601.07140, 2016.
WANG, Wenhai et al. Efficient and accurate arbitrary-shaped text detection with pixel aggregation network. In: Proceedings of the IEEE International Conference on Computer Vision. 2019. p. 8440-8449.
YAO, Cong et al. Detecting texts of arbitrary orientations in natural images. In: 2012 IEEE conference on computer vision and pattern recognition. IEEE, 2012. p. 1083-1090.
ZHONG, Zhuoyao et al. Deeptext: A unified framework for text proposal generation and text detection in natural images. arXiv preprint arXiv:1605.07314, 2016.
ZHOU, Xinyu et al. East: an efficient and accurate scene text detector. In: Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2017. p. 5551-5560.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas