Análise de Modelos de Síntese de Fala para Integração ao Avatar Educação
##plugins.themes.bootstrap3.article.main##
Resumo
O Avatar Educação consiste num assistente virtual que utiliza personagens animados com voz sintética com o objetivo de melhorar a comunicação e a interação no Ambiente Virtual de Aprendizagem (AVA) Moodle (MACIEL et al., 2014). Apesar da sua considerável contribuição na área educacional, alguns problemas na qualidade da voz sintética têm sido relatados pelos usuários que utilizam o ambiente. Na avaliação da qualidade da voz são analisadas a sua naturalidade que avaliar a capacidade de um sistema produzir fala sintética mais próximo da fala humana e a sua inteligibilidade que avaliar a compreensão do conteúdo linguístico sintetizado pela voz (LATSCH, 2011). As vozes avaliadas pelos usuários, tem como base, o trabalho de Maciel et al. (2012), que utiliza uma ferramenta de síntese de fala HTS (HMM-based Speech Synthesis Toolkit) numa base de dados própria, contendo cerca de quatro horas de áudio para voz masculina e feminina. Diante deste cenário, o objetivo geral deste trabalho é analisar um conjunto de mecanismos de síntese de fala visando uma melhor qualidade da voz em termos de naturalidade e inteligibilidade. Para isso, esse trabalho realizou uma análise da arquitetura do framework FIVE (módulo responsável pela geração de síntese de fala) e do Avatar Vocálico (módulo responsável pela geração da animação do avatar) de modo a proporcionar um entendimento geral da situação e favorecer a escolha do sistema de síntese de fala MaryTTS (Modular Architecture for Research in sYynthesis) (MACIEL et al. 2010; RODRIGUES et al. 2012). O MaryTTS disponibiliza ferramentas com suporte para a adição de novos idiomas e para a construção de vozes baseadas nas técnicas seleção de unidades e HMM (CHARFUELAN et al.,2013). Neste trabalho foram realizados experimentos com 30 usuários para avaliar a qualidade da voz, tendo como foco a análise da naturalidade e da inteligibilidade de um conjunto com 30 amostras de áudio. Os resultados obtidos até o presente momento mostraram que no quesito inteligibilidade, as vozes baseadas em seleção de unidades e em HMM obtiveram avaliações similares, já no quesito naturalidade a técnica seleção de unidade produziu melhores resultados do que a HMM dentro da escala MOS (Mean Option Score). Contudo, as vozes baseada em seleção de unidades apresentaram uma importante descontinuidade na pontuação das frases e entre os espaços das palavras. Outro quesito avaliado foi o WER (Word Error Rates) das transcrições realizadas pelos usuários. As vozes baseadas em HMM obtiveram uma taxa de erro (8.05%) maior do que as vozes baseadas em seleção de unidades (6,2%). Como trabalhos futuros, novos experimentos já estão sendo realizados a fim de mitigar o problema da descontinuidade das vozes baseadas em seleção de unidades, e ao mesmo tempo, o processo de integração do MaryTTS ao framework FIVE está em curso para que as vozes geradas possam estar disponíveis no Avatar Educação. Palavras-chave: Síntese de Fala; MaryTTS; FIVE; Avatar Educação.
Downloads
Não há dados estatísticos.
##plugins.themes.bootstrap3.article.details##
Edição
Seção
Engenharia da Computação e Sistemas
Referências
CHARFUELAN, M.; PAMMI, S.; STEINER, I. MARY TTS unit selection and HMM-based voices for the Blizzard Challenge 2013. In:Blizzard Challenge Workshop, 2013.
LATSCH, V. L. Desenvolvimento de um sistema de conversão texto-fala com modelagem de prosódia. 2011. Tese de Doutorado. Universidade Federal do Rio de Janeiro.
MACIEL, A., CARVALHO, E. FIVE - Framework for an Integrated Voice Environment. International Conference on Systems, Signals and Image Processing, Rio de Janeiro, 2010.
MACIEL, A. Investigação de um Ambiente para o Desenvolvimento Integrado de Interface de Voz, Tese (Doutorado em Ciência da Computação). Universidade Federal de Pernambuco, Recife, 2012.
MACIEL, A. M. A. RODRIGUS, R. L., CARVALHO, E. C. B. Desenvolvimento de um Assistente Virtual Integrado ao Moodle para Suporte a Aprendizagem Online. In Proceedings of Simpósio Brasileiro de Informática na Educação. Dourados, MS, Brazil, November 06-10, 2014.
RODRIGUES, R. L.; MACIEL, A. M. A.; CARVALHO, E. C. Desenvolvimento de uma ferramenta para a produção de mídias utilizando personagem animado com síntese de voz. In: Anais do Simpósio Brasileiro de Informática na Educação. 2012.
LATSCH, V. L. Desenvolvimento de um sistema de conversão texto-fala com modelagem de prosódia. 2011. Tese de Doutorado. Universidade Federal do Rio de Janeiro.
MACIEL, A., CARVALHO, E. FIVE - Framework for an Integrated Voice Environment. International Conference on Systems, Signals and Image Processing, Rio de Janeiro, 2010.
MACIEL, A. Investigação de um Ambiente para o Desenvolvimento Integrado de Interface de Voz, Tese (Doutorado em Ciência da Computação). Universidade Federal de Pernambuco, Recife, 2012.
MACIEL, A. M. A. RODRIGUS, R. L., CARVALHO, E. C. B. Desenvolvimento de um Assistente Virtual Integrado ao Moodle para Suporte a Aprendizagem Online. In Proceedings of Simpósio Brasileiro de Informática na Educação. Dourados, MS, Brazil, November 06-10, 2014.
RODRIGUES, R. L.; MACIEL, A. M. A.; CARVALHO, E. C. Desenvolvimento de uma ferramenta para a produção de mídias utilizando personagem animado com síntese de voz. In: Anais do Simpósio Brasileiro de Informática na Educação. 2012.