Reconhecimento de Emoções em Idosos Através da Análise de Sinais de Áudio

##plugins.themes.bootstrap3.article.main##

Flavio Secco Fonseca
Maira Santana
Juliana Carneiro
Arianne Sarmento
Wellington Pinheiro

Resumo

O envelhecimento populacional é uma tendência global (Oliveira, 2019).  Por consequência, cresce também o número de casos de transtornos cognitivos leve ou maior, sejam eles crônicos ou degenerativos.  Em oposição a esse crescimento, temos o declínio na qualidade de vida desses indivíduos (Dantcheva et al., 2017). Além dos diversos problemas motores e de saúde, intrínsecos ao avanço da idade,  a capacidade de comunicação vocal e principalmente emotiva, por vezes, tornam-se muito mais sutis (Lagacé et al., 2012).  Essa dificuldade fica ainda mais evidente quando falamos dos quadros demenciais. Nesse contexto, cresce a necessidade por terapias que proporcionem suporte à qualidade de vida desses pacientes, reduzindo a pressão sobre profissionais de saúde e familiares envolvidos. Para esse grupo e faixa etária, envelhecer bem é cada vez mais fundamental, entretanto medições de satisfação, muitas vezes entendidas como mera felicidade ou tristeza, são fatores difíceis de quantificar. Ainda mais quando estes sentimentos ocorrem, quase sempre, em raros momentos de distração. Diante dessa realidade, é importante pensar em formas de estimular esse processo de reabilitação, utilizando jogos, terapias alternativas ou mesmo recursos digitais. Tendo em vista a escassez de pesquisas relacionados a essa faixa etária, o presente trabalho visa contribuir com o aprimoramento de técnicas computacionais para o reconhecimento de emoções em idosos, através da análise da fala desses indivíduos. A esses resultados, espera-se que sirvam de suporte a terapeutas e cuidadores, estreitando também as relações interpessoais do paciente. Para realizar o reconhecimento de emoções através da voz, duas metodologias foram aplicadas. Inicialmente, foi utilizado o ambiente de desenvolvimento Google Colab e a linguagem de programação Python, juntamente com bibliotecas como OpenCV e Tensor Flow. Neste primeiro experimento, uma Rede Neural Convolucional de três camadas  extraiu os atributos de espectrogramas Log-Mel de cada arquivo de áudio da base de dados RAVDESS (Livingstone et al., 2012), dividida em 75% para treino e 25% para teste do modelo. . Posteriormente, em um segundo experimento, foi aplicado, sob os sinais da mesma base, a transformada de Wavelet, utilizando o software Octave. Os resultados plotados na forma de imagens através de pseudocores, criaram uma nova base de dados. Por fim, utilizando  aprendizagem por transferência (Yang et al.,2020) e o software Weka (Witten e Frank, 2020), uma rede ResNet (Targ et al., 2016), já treinada para classificação de imagens, foi então aplicada gerando um arquivo ARFF. Este arquivo teve suas 8 classes balanceadas pelo método SMOTE e serviu de entrada para os classificadores Random Tree, Random Forest, Naive Bayes, Bayes Net, J48 e SVM. Cada experimento foi realizado 30 vezes, utilizando o método k-fold de validação cruzada com 10-folds para evitar superespecialização do sistema (overfitting), (Jung and J. Hu, 2015). O experimento 1 obteve  uma acurácia média de 51%, sendo as emoções desgosto (68%), medo (57%) e raiva (56%) os melhores resultados. . A emoção triste (32%) apresentou o pior resultado das 8. No segundo experimento, o desempenho de cada classificador foi visualizado pelas métricas Acurácia, Índice Kappa, Sensibilidade, Especificidade e Área sob a Curva ROC com as respectivas médias e desvio padrões. O modelo SVM Rbf de gama 0,5 foi, dentre todos, o que apresentou melhores valores, no geral, com acurácia de 81% e 2,3% de desvio padrão. Os resultados encontrados, foram promissores, ainda que trate-se de um problema complexo, a análise única de sinais de voz com os classificadores testados sugerem que modelos melhor ajustados poderiam vir a conseguir valores mais aceitáveis e superiores aos 81% atingidos pelo SVM RBF. Sabendo ainda que o ideal seria a coleta de áudio em voluntários idosos, a utilização de bases de dados públicas criaram boas perspectivas à validação do projeto. Por fim, as lacunas presentes nessa e nas demais pesquisas relacionadas, revelam também uma gama de oportunidades, principalmente para a construção de uma base específica com essa faixa etária.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Seção
Engenharia da Computação e Sistemas