Reconhecimento de deficiência da fala utilizando redes neurais profundas

##plugins.themes.bootstrap3.article.main##

Jordana Leandro Seixas

Resumo

Desde o surgimento do aprendizado profundo, área específica do aprendizado de máquina, este modelo tem sido utilizado em diversas áreas de pesquisa. Desde a introdução da inteligência artificial, os algoritmos de aprendizagem profunda têm sido utilizados, ​​principalmente, para aumentar as capacidades dos computadores no entendimento do que os humanos podem fazer, inclusive no reconhecimento da fala (Nassif et. al., 2019). Dentre os maiores beneficiários por esse tipo de redes neurais profundas estão os pacientes que têm sua fala com deficiência, vítimas de derrame cerebral (AVC), Alzheimer, Parkinson e Esclerose Lateral Amiotrófica ou ELA (do inglês, Amyotrophic Lateral Sclerosis, ou ALS). O Google, através do projeto Euphonia, tem coletado gravações de vozes de pessoas com deficiência de fala para melhorar a forma como esses sistemas reconhecem a fala deficiente (Google Project Euphonia). Um grande número de trabalhos de pesquisa tem sido publicado considerando-se o uso de aprendizado profundo para aplicativos relacionados ao reconhecimento da fala (Nassif et. al., 2019). No entanto, os sinais da fala e de áudio variam continuamente com o tempo. A natureza sequencial inerente e variável no tempo dos sinais de áudio tornam as redes neurais recorrentes (recurrent  neural  networks ou RNNs) o modelo ideal para a aprendizagem de recursos neste campo (Amberkar et. al., 2018). Estas redes neurais tiveram sucesso na melhoria do desempenho do reconhecimento da fala devido à sua capacidade de aprender padrões sequenciais como vistos na fala, linguagem ou dados de séries temporais (Alam et. al, 2019). Anteriormente, as RNNs tinham contribuição limitada na rotulagem de dados de fala não segmentados, principalmente porque esta tarefa requeria dados pré-segmentados e pós-processados para produção de saídas. Dado que as informações sequenciais passadas e futuras podem ser úteis nas predições de reconhecimento da fala, o conceito de BRNNs (bi-directional RNN) foi introduzido para o reconhecimento da fala. Posteriormente, as RNNs foram combinadas com os modelos ocultos de Markov (hidden Markov models ou HMM) nos quais o HMM atuou como um modelo acústico enquanto a RNN atuava como o modelo de linguagem (Amberkar et. al., 2018). Os sistemas convencionais de reconhecimento de fala são baseados na representação de sinais de voz usando Modelos de Mistura Gaussiana (GMMs), que são baseados em modelos de Markov ocultos (HMMs).  Isso se deve ao fato de que um sinal de voz pode ser considerado um sinal estacionário por partes ou um sinal estacionário de curto período. No curto período de tempo, o sinal de voz pode ser aproximado como um processo estacionário podendo, portanto, ser pensado como um modelo de Markov para muitos processos estocásticos. Este tipo de sistema é considerado simples em uso prático, no entanto são consideradas estatisticamente ineficientes para modelar funções não lineares ou quase não lineares. Ao contrário dos HMMs, as redes neurais permitem o treinamento discriminativo de uma maneira muito eficiente. No entanto, funciona melhor para sinais de tempo curto, como palavras isoladas, quando se trata de sinais de fala contínua raramente é bem-sucedido. Isso se deve à sua incapacidade de modelar dependências temporais para sinais contínuos. Assim, uma solução é usar redes neurais no pré-processamento, por exemplo, por meio de transformação de características e redução de dimensionalidade para o reconhecimento baseado em HMM. Existem muitos exemplos que provam que o uso de redes neurais profundas produz melhores resultados do que os modelos clássicos (Nassif et. al., 2019). Um dos objetivos deste trabalho é aplicar as técnicas de redes neurais profundas para reconhecer a fala disártrica. A disartria é um distúrbio motor da fala que impede a produção física da fala, geralmente provenientes de um AVC, Alzheimer, Parkinson e ELA. A fala em pacientes com disartria é comumente caracterizada por má articulação, voz soprosa e entonação monotônica (Kim et. al., 2018). Modelar as características espectrais e temporais da fala disártrica é fundamental para um melhor desempenho no reconhecimento desta fala. Para as pessoas com disartria há ausência de bases de dados públicos na língua portuguesa falada no Brasil. Portanto, precisamos obter uma base de dados com fala disártrica como entrada do nosso modelo de rede neural profunda, por meio de colaboração com profissionais das áreas médicas como neurologia e geriatria, e também de fonoaudiologia, para a obtenção das vozes de pacientes com fala disártrica, com o consentimento prévio dos pacientes, considerando as dificuldades inerentes ao processo de gravação, o qual pode ser não prazeroso ou mesmo exaustivo. A metodologia utilizará as redes neurais profundas, por meio das redes neurais recorrentes (RNN) e das redes neurais convolucionais (CNN). As redes neurais recorrentes de memória convolucional longa de curto prazo (CLSTM-RNNs) foram recentemente usadas com sucesso no reconhecimento de fala normal, mas raramente foram usadas no reconhecimento de fala disártrica (Kim et. al., 2018). Por fim, espera-se que os resultados obtidos através do reconhecimento da fala disártrica possam proporcionar uma melhor qualidade de vida às pessoas que sofrem com tal deficiência e que estas possam se comunicar mais facilmente, sem a dependência da interpretação de outras pessoas.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas