当前位置: X-MOL 学术Speech Commun. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Speech emotion recognition approaches: A systematic review
Speech Communication ( IF 3.2 ) Pub Date : 2023-09-07 , DOI: 10.1016/j.specom.2023.102974
Ahlam Hashem , Muhammad Arif , Manal Alghamdi

The speech emotion recognition (SER) field has been active since it became a crucial feature in advanced Human–Computer Interaction (HCI), and wide real-life applications use it. In recent years, numerous SER systems have been covered by researchers, including the availability of appropriate emotional databases, selecting robustness features, and applying suitable classifiers using Machine Learning (ML) and Deep Learning (DL). Deep models proved to perform more accurately for SER than conventional ML techniques. Nevertheless, SER is yet challenging for classification where to separate similar emotional patterns; it needs a highly discriminative feature representation. For this purpose, this survey aims to critically analyze what is being done in this field of research in light of previous studies that aim to recognize emotions using speech audio in different aspects and review the current state of SER using DL. Through a systematic literature review whereby searching selected keywords from 2012–2022, 96 papers were extracted and covered the most current findings and directions. Specifically, we covered the database (acted, evoked, and natural) and features (prosodic, spectral, voice quality, and teager energy operator), the necessary preprocessing steps. Furthermore, different DL models and their performance are examined in depth. Based on our review, we also suggested SER aspects that could be considered in the future.



中文翻译:

语音情感识别方法:系统综述

语音情感识别(SER)领域自从成为高级人机交互(HCI)的关键特征以来一直很活跃,并且广泛的现实生活应用程序使用它。近年来,研究人员已经研究了许多 SER 系统,包括适当的情感数据库的可用性、选择鲁棒性特征以及使用机器学习 (ML) 和深度学习 (DL) 应用合适的分类器。事实证明,深度模型在 SER 方面的表现比传统的 ML 技术更准确。尽管如此,SER 对于如何区分相似的情绪模式进行分类仍然具有挑战性;它需要具有高度辨别力的特征表示。以此目的,本次调查旨在根据之前的研究,批判性地分析该研究领域正在开展的工作,这些研究旨在从不同方面使用语音音频来识别情绪,并回顾使用 DL 的 SER 的现状。通过系统文献综述,检索 2012 年至 2022 年选定的关键词,提取了 96 篇论文,涵盖了最新的发现和方向。具体来说,我们涵盖了数据库(动作、诱发和自然)和特征(韵律、频谱、语音质量和Teager Energy算子)以及必要的预处理步骤。此外,还深入研究了不同的深度学习模型及其性能。根据我们的审查,我们还建议了未来可以考虑的 SER 方面。通过系统文献综述,检索 2012 年至 2022 年选定的关键词,提取了 96 篇论文,涵盖了最新的发现和方向。具体来说,我们涵盖了数据库(动作、诱发和自然)和特征(韵律、频谱、语音质量和Teager Energy算子)以及必要的预处理步骤。此外,还深入研究了不同的深度学习模型及其性能。根据我们的审查,我们还建议了未来可以考虑的 SER 方面。通过系统文献综述,检索 2012 年至 2022 年选定的关键词,提取了 96 篇论文,涵盖了最新的发现和方向。具体来说,我们涵盖了数据库(动作、诱发和自然)和特征(韵律、频谱、语音质量和Teager Energy算子)以及必要的预处理步骤。此外,还深入研究了不同的深度学习模型及其性能。根据我们的审查,我们还建议了未来可以考虑的 SER 方面。深入研究了不同的深度学习模型及其性能。根据我们的审查,我们还建议了未来可以考虑的 SER 方面。深入研究了不同的深度学习模型及其性能。根据我们的审查,我们还建议了未来可以考虑的 SER 方面。

更新日期:2023-09-07
down
wechat
bug