Sistema de Reconhecimento de Texto e Síntese de Áudio para Auxilio a Deficientes Visuais
##plugins.themes.bootstrap3.article.main##
Resumo
Segundo uma pesquisa realizada pela WORLD HEALTH ORGANIZATION (2010), há aproximadamente 285 milhões de deficientes visuais no mundo, dos quais 39 milhões são cegos. Além disso, cerca de 82% dos cegos têm a idade acima dos 50 anos. Neste contexto, este trabalho tem como propósito o desenvolvimento de um sistema que possa auxiliar deficientes visuais na leitura de textos. Para isso, o sistema deve capturar a imagem, realizar o reconhecimento do texto na imagem, e com o resultado obtido, sintetizar a voz do texto correspondente. Os dispositivos utilizados para a prototipação do sistema foram o Google Glass e o Smartphone Lenovo Vibe K6 Plus. O primeiro é responsável por capturar a imagem e interação com o usuário e o segundo por executar o reconhecimento de texto da imagem. Por outro lado, a transferência de dados entre os dispositivos foi realizada via Bluetooth. O trabalho foi dividido em três partes: pesquisar, desenvolver e testar. Primeiramente, foi realizada uma pesquisa sobre as tecnologias que podem efetuar o processo de extração de texto em uma imagem e a síntese de voz para o usuário. Para isso, foi realizado um estudo por meio de livros e artigos relacionados ao tema. Assim, foram escolhidas as APIs (ferramentas que auxiliam na construção do software) Mobile Vision e TextToSpeech, disponibilizadas pelo Google. A codificação do software foi realizada por meio do ambiente de desenvolvimento integrado Android Studio nas versões 3.1.4 e 1.5. Dessa forma, com os conhecimentos obtidos até então, foram implementadas as funções que realizam a conexão via Bluetooth. Em seguida, a aplicação da função de reconhecimento de texto no smartphone. Por fim, foi desenvolvida a interface do dispositivo com o usuário, implementação da função de síntese de voz e integração de tudo que foi elaborado. Enfim, com o protótipo finalizado foram realizados testes para observar o tempo de resposta e a precisão do sistema no processo de reconhecimento e síntese do texto transcrito. Para isso, foi registrado o tempo, desde o momento da captura da imagem até o recebimento da resposta do sistema, para 50 imagens diferentes e, por fim, calculada a média aritmética dos resultados obtidos. Como resultado, foi obtido um tempo de resposta médio de aproximadamente 521ms. Além disso, foram realizados testes com textos manuscritos e impressos. O OCR apresentou precisão compatível com o estado-da-arte ao ler textos impressos (Bezerra et al, 2017), porém apresentou deficiência na leitura de manuscritos. Assim, pode-se dizer que o resultado é bastante satisfatório diante do fato de que há o tempo de transferência dos dados via Bluetooth, somado ao tempo de processamento da imagem. No entanto, a dificuldade na leitura de manuscritos pode restringir o uso do sistema, requerendo o aprofundamento da pesquisa para aprimoramentos nessa direção.
Downloads
Não há dados estatísticos.
##plugins.themes.bootstrap3.article.details##
Edição
Seção
Engenharia da Computação e Sistemas
Referências
WORLD HEALTH ORGANIZATION. Global data on visual impairment 2010. Geneva, 2010.
BEZERRA, B. L. D.; ZANCHETTIN, C.; TOSELLI, A. H.; PIRLO, G. Handwriting: Recognition,
Development and Analysis. 1. ed. Nova York: Nova Science Publishers, 2017. v. 1. 394p.
BEZERRA, B. L. D.; ZANCHETTIN, C.; TOSELLI, A. H.; PIRLO, G. Handwriting: Recognition,
Development and Analysis. 1. ed. Nova York: Nova Science Publishers, 2017. v. 1. 394p.