Sistema de Reconhecimento de Texto e Síntese de Áudio para Auxilio a Deficientes Visuais

##plugins.themes.bootstrap3.article.main##

Matheus Henrique Marques da Silva
Byron Leite Dantas Bezerra

Resumo

Segundo uma pesquisa realizada pela WORLD HEALTH ORGANIZATION (2010), há aproximadamente 285 milhões de deficientes visuais no mundo, dos quais 39 milhões são cegos. Além disso, cerca de 82% dos cegos têm a idade acima dos 50 anos. Neste contexto, este trabalho tem como propósito o desenvolvimento de um sistema que possa auxiliar deficientes visuais na leitura de textos. Para isso, o sistema deve capturar a imagem, realizar o reconhecimento do texto na imagem, e com o resultado obtido, sintetizar a voz do texto correspondente. Os dispositivos utilizados para a prototipação do sistema foram o Google Glass e o Smartphone Lenovo Vibe K6 Plus. O primeiro é responsável por capturar a imagem e interação com o usuário e o segundo por executar o reconhecimento de texto da imagem. Por outro lado, a transferência de dados entre os dispositivos foi realizada via Bluetooth. O trabalho foi dividido em três partes: pesquisar, desenvolver e testar. Primeiramente, foi realizada uma pesquisa sobre as tecnologias que podem efetuar o processo de extração de texto em uma imagem e a síntese de voz para o usuário. Para isso, foi realizado um estudo por meio de livros e artigos relacionados ao tema. Assim, foram escolhidas as APIs (ferramentas que auxiliam na construção do software) Mobile Vision e TextToSpeech, disponibilizadas pelo Google. A codificação do software foi realizada por meio do ambiente de desenvolvimento integrado Android Studio nas versões 3.1.4 e 1.5. Dessa forma, com os conhecimentos obtidos até então, foram implementadas as funções que realizam a conexão via Bluetooth. Em seguida, a aplicação da função de reconhecimento de texto no smartphone. Por fim, foi desenvolvida a interface do dispositivo com o usuário, implementação da função de síntese de voz e integração de tudo que foi elaborado. Enfim, com o protótipo finalizado foram realizados testes para observar o tempo de resposta e a precisão do sistema no processo de reconhecimento e síntese do texto transcrito. Para isso, foi registrado o tempo, desde o momento da captura da imagem até o recebimento da resposta do sistema, para 50 imagens diferentes e, por fim, calculada a média aritmética dos resultados obtidos. Como resultado, foi obtido um tempo de resposta médio de aproximadamente 521ms. Além disso, foram realizados testes com textos manuscritos e impressos. O OCR apresentou precisão compatível com o estado-da-arte ao ler textos impressos (Bezerra et al, 2017), porém apresentou deficiência na leitura de manuscritos. Assim, pode-se dizer que o resultado é bastante satisfatório diante do fato de que há o tempo de transferência dos dados via Bluetooth, somado ao tempo de processamento da imagem. No entanto, a dificuldade na leitura de manuscritos pode restringir o uso do sistema, requerendo o aprofundamento da pesquisa para aprimoramentos nessa direção.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas
Biografia do Autor

Matheus Henrique Marques da Silva, Universidade de Pernambuco

Estudante de Engenharia da Computação

Byron Leite Dantas Bezerra, Universidade de Pernambuco

Bacharel em Ciência da Computação pela Universidade Federal de Pernambuco (2001)Mestrado em Ciências da Computação pela Universidade Federal de Pernambuco (2004)Doutorado em Ciências da Computação pela Universidade Federal de Pernambuco (2008)

Referências

WORLD HEALTH ORGANIZATION. Global data on visual impairment 2010. Geneva, 2010.
BEZERRA, B. L. D.; ZANCHETTIN, C.; TOSELLI, A. H.; PIRLO, G. Handwriting: Recognition,
Development and Analysis. 1. ed. Nova York: Nova Science Publishers, 2017. v. 1. 394p.