Integração do Mecanismo de Síntese de Fala MaryTTS ao Avatar Educação

##plugins.themes.bootstrap3.article.main##

Fábio Alexandre Magalhães de Holanda Silva
Alexandre Magno Andrade Maciel

Resumo

O Avatar Educação consiste num assistente virtual que utiliza personagens animados com voz sintética com o objetivo de melhorar a comunicação e a interação no Ambiente Virtual de Aprendizagem (AVA) Moodle (Maciel et al., 2014). Apesar da sua considerável contribuição na área educacional, alguns problemas na qualidade da voz sintética têm sido relatados pelos os usuários que utilizam o ambiente. Síntese de fala é o processo de criação de uma réplica sintética de um sinal de voz, a fim de transmitir uma mensagem a partir de uma máquina para uma pessoa, com a finalidade de fornecer as informações como mensagem (Taylor, 2009). Existem diferentes abordagens que podem ser utilizadas para implementar um sistema de síntese de voz baseado em algoritmos. As abordagens mais comuns são a síntese de voz baseada em seleção e concatenação de unidades e, com base em parâmetros calculados pelo Hidden Markov Models (HMM). Em Maciel et al. (2012) foram construídas, apartir de uma base de dados própria contendo cerca de quatro horas de áudio, um conjunto de vozes masculina e feminina, tomando como base o toolkit de síntese de fala HTS (HMM-based Speech Synthesis Toolkit). Apesar dos bons resultados obtidos a solução apresentou problemas de portabilidade que foram solucionados em Sousa et al. (2014) que apresentou um novo conjunto de vozes tomando como base a plataforma MaryTTS (Modular Architecture for Research in sYynthesis). Diante deste cenário, o objetivo geral deste trabalho foi integrar a plataforma MaryTTS ao Avatar Educação. Para isso foram dedicados os esforços na análise da arquitetura do framework FIVE (módulo responsável pela geração de síntese de fala) (Maciel et al. 2010) e do middleware Avatar Vocálico (módulo responsável pela geração da animação do avatar) (Rodrigues et al. 2012) de modo a proporcionar um entendimento geral da situação. O MaryTTS é disponibilizado com toolkits para dar suporte a adição de novos idiomas rapidamente e para construção de vozes baseadas em seleção e concatenação de unidades e em HMM (Charfuelan, et al.,2013). O processo de integração realizado neste trabalho iniciou com a agregação dos módulos essenciais do MaryTTS (client e server) ao módulo CORE do FIVE. Depois de realizado todo o encapsulamento das classes, foi alterado o módulo API do FIVE para que o mesmo reconheça os novos serviços de voz e os forneça às aplicações que a instanciarem. Na sequência, foi realizada uma adaptação do middleware Avatar Vocálico para que ele fosse capaz de optar pelas vozes produzidas seja pelo HTS, seja pelo MaryTTS. Isto feito, como resultados obtidos, consegui-se disponibilizar aos usuários do Avatar Educação a possibilidade de escolha entre diferentes sistemas de síntese. Em paralelo a este trabalho, experimentos com novas vozes utilizando a abordagem de seleção e concatenação de unidades vem sendo realizado a fim de proporcionar maior naturalidade e inteligibilidade. Como trabalhos futuros integrar novos motores e serviços de fala, assim como criar um serviço web para o HTS, para que as mudanças na arquitetura do FIVE fiquem mais consolidadas.Palavras-chave: Síntese de Fala; MaryTTS; FIVE; Avatar Educação.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas

Referências

CHARFUELAN, M.; PAMMI, S.; STEINER, I. MARY TTS unit selection and HMM-based voices for the Blizzard Challenge 2013. In:Blizzard Challenge Workshop, 2013

MACIEL, A., CARVALHO, E. FIVE - Framework for an Integrated Voice Environment. International Conference on Systems, Signals and Image Processing, Rio de Janeiro, 2010.
MACIEL, A. Investigação de um Ambiente para o Desenvolvimento Integrado de Interface de Voz, Tese (Doutorado em Ciência da Computação). Universidade Federal de Pernambuco, Recife, 2012.

MACIEL, A. M. A. RODRIGUS, R. L., CARVALHO, E. C. B. Desenvolvimento de um Assistente Virtual Integrado ao Moodle para Suporte a Aprendizagem Online. In Proceedings of Simpósio Brasileiro de Informática na Educação. Dourados, MS, Brazil, November 06-10, 2014.

RODRIGUES, R. L.; MACIEL, A. M. A.; CARVALHO, E. C. Desenvolvimento de uma ferramenta para a produção de mídias utilizando personagem animado com síntese de voz. In: Anais do Simpósio Brasileiro de Informática na Educação. 2012.

TAYLOR, P. Text-To-Speech Synthesis. Cambridge: Cambridge University Press, 2009.