Dispositivo para o reconhecimento de padrões sonoros para deficientes auditivos
##plugins.themes.bootstrap3.article.main##
Resumo
Este trabalho apresenta o desenvolvimento de um dispositivo baseado em inteligência artificial (IA), com o propósito de proporcionar mais acessibilidade para pessoas surdas. Pesquisa realizada nos Estados Unidos, apontou que indivíduos com perda auditiva severa podem ter até o dobro de probabilidade de sofrer acidentes em comparação com pessoas com audição normal (BHATTACHARYYA, 2021). Esse risco se deve, principalmente, à dificuldade de perceber sinais sonoros de alertas, como buzinas, alertas de emergência ou sirenes, sendo mais predominante em ambientes de trabalho. Por conseguinte, o objetivo deste trabalho é criar um equipamento, baseado em IA, capaz de transcrever falas em texto, interpretar e classificar sons de emergência, sirenes de alerta e palavras faladas, tornando essas informações acessíveis para usuários com deficiência auditiva. Todas essas informações audíveis serão reconhecidas pelo dispositivo, que por sua vez, as traduzirá por meio de vibração, sinais luminosos e exibição em um display LCD. Para o dispositivo reconhecer os padrões sonoros, foi utilizado uma arquitetura de rede neural convolucional desenvolvida pelo Google Reseach, chamada YAMNet. Esta, utiliza o conjunto de dados AudioSet, uma enorme coleção de trechos de áudio, para aprender e identificar 527 classes distintas de eventos sonoros (GOOGLE RESEACH, 2023). O modelo recebe como entrada sinais de áudios amostrados a 16 kHz, com duração mínima de 0,96 segundos. E, processa-os para gerar uma distribuição de probabilidades sobre diversas classes sonoras, como sirenes, alarmes, animais, entre outros. Por fim, determina-se qual classe apresenta maior probabilidade de corresponder ao som captado, acionando os atuadores específicos para o evento ocorrido, o que o torna uma solução eficiente e acessível para aplicações de detecção sonora em tempo real (TENSORFLOW, 2024). Para o reconhecimento automático de fala, foi utilizado a biblioteca SpeechRecognition, uma ferramenta em Python amplamente empregada para esta finalidade (PYPI, 2025). O reconhecedor do Google Web Speech API foi escolhido neste projeto por ser, de fácil uso (dispensa chave de autenticação), gratuito, apresenta alta precisão e oferece suporte confiável ao português do Brasil, incluindo variações de sotaque e linguagem coloquial. A implementação do sistema foi realizada sobre o Raspberry Pi Model 4 B juntamente com um microfone sem fio Onistek On-MC811 para a entrada e processamento de áudio. Os atuadores do sistema consistem em um display LCD para notificação visual por texto, LEDs indicadores e um motor de vibração acoplado a uma pulseira, responsável por transmitir os alertas de forma tátil ao usuário. Para o reconhecimento de padrões sonoros, foi empregado o modelo, anteriormente citado, YAMNet. O dispositivo capta o som em tempo real com taxa de amostragem de 16 kHz, dividindo-o em blocos para análise. Esses blocos são convertidos em espectrogramas e classificados pelo modelo, que retorna probabilidades para cada classe sonora. As classes de interesse foram definidas previamente, entre elas estavam: “siren”, “fire alarm”, “reverse beeps”, entre outros. Quando a probabilidade na detecção de uma das classes ultrapassa o limiar definido (indicando que um som de emergência foi identificado), o sistema ativa automaticamente os atuadores: o LED vermelho é aceso por 3 segundos, o display LCD exibe a mensagem de alerta com o nome da classe detectada, e o motor de vibração é acionado com três pulsos de 0,7 segundos. Garantindo, portanto, uma efetiva notificação ao usuário. Simultaneamente à detecção de sons de emergência, o sistema executa um módulo de reconhecimento de fala utilizando a biblioteca SpeechRecognition. O processo inicia-se com um ajuste automático de sensibilidade ao ruído do ambiente, garantindo uma captação mais precisa. A seguir, a escuta é realizada. As amostras de áudio capturadas são enviadas à API (Application Programming Interface) do Google, configurado para o idioma português do Brasil, retornando como resultado a transcrição automática da fala. Todas as palavras ditas são exibidas em tempo real no display LCD do dispositivo. Quando, uma palavra de interesse, previamente definida, for detectada na transcrição da fala, o dispositivo aciona o LED amarelo como sinal visual e, também, ativa o motor de vibração emitindo dois pulsos curtos de 0,2 segundos cada, gerando um alerta tátil ao usuário. O circuito foi montado soldando os componentes em placas de protótipo padrão ilha. Os LEDs indicadores foram conectados com resistores para limitar a corrente, contendo um LED verde para indicar o funcionamento do sistema, um amarelo para sinalizar as palavras de interesse e um vermelho para alertas de emergência. O motor de vibração modelo 1027 foi acionado por meio de um transistor configurado como chave eletrônica. A alimentação do motor é feita por duas pilhas AA de 1,5V em série. O motor foi fixado a uma pulseira de borracha, permitindo a sinalização tátil ao usuário. O display LCD foi conectado ao dispositivo para exibição da transcrição da fala, em tempo real, e dos alertas de emergência. Os testes realizados indicaram que o sistema funciona de forma eficiente. Portanto, este projeto busca oferecer uma solução tecnológica para ampliar a segurança e a acessibilidade de pessoas surdas. Além de reduzir os riscos associados à falta de percepção de sons críticos, o dispositivo contribui para a autonomia dos usuários, promovendo uma maior inclusão social. Os resultados demonstraram que a solução proposta é satisfatória e com respostas rápidas e confiáveis.
Downloads
Não há dados estatísticos.
##plugins.themes.bootstrap3.article.details##
Seção
Engenharia Elétrica (Eletrônica/Eletrotécnica/Telecomunicações)