论文题目 |
基于深度学习的语音情感分类器研究 |
答辩人 |
肖宇锋 |
指导教师 |
赵欢 |
答辩委员会 主席 |
彭飞 |
学科专业 |
计算机科学与技术 |
学院 |
信息科学与工程学院 |
答辩地点 |
视频答辩 |
答辩时间 |
2020年9月19日 晚上7:00 |
学位论文简介
语音情感识别通过分析和提取语音信号中的情感信息来识别说话人的情感状态,是语音信息处理和人机交互领域的研究热点之一。随着深度学习在语音识别、图像处理等领域的成功应用,研究者将深度学习引入语音情感识别处理中,相比于传统机器学习模型,基于深度学习的语音情感识别模型的识别性能得到了进一步改善和提升,但依旧面临着多方面的挑战,如域不匹配问题,标签数据稀缺和模型复杂度高等。针对这些问题,本文提出了多种新模型,主要研究内容和贡献包含以下几个方面:
(1)提出了基于类对齐和广义域不变特征学习的语音情感识别模型,解决训练集(源域)与测试集(目标域)数据的分布不一致而导致的域不匹配问题,通过减少分布差异来提高模型的泛化性能;
(2)提出了基于半监督对抗变分自编码的语音情感识别模型,该模型利用半监督变分自编码模型学习数据在特征空间的固有分布特征和其情感类别信息,缓解模型对标签数据的依赖问题,并且融合了生成对抗网络的数据分布拟合能力,解决了半监督变分自编码模型学习到的特征对输入的依赖问题,提高特征的质量,进而改善模型性能;
(3)提出了鲁棒性半监督生成对抗网络模型,该模型利用对抗训练方法对分布在对抗方向上的样本进行平滑,提高模型的鲁棒性;
(4)提出了基于二值化压缩的卷积式循环神经网络,该模型利用二值化函数将模型中浮点型输入数据和权重值压缩成-1/+1表示,减少模型对存储空间和计算量的需求,在保证模型性能的基础上获得较大的模型压缩比,以便于模型移植于资源受限的移动平台。
主要学术成果
[1] Huan Zhao, Yufeng Xiao, Jing Han, Zixing Zhang. Compact Convolutional Recurrent Neural Networks via Binarization for Speech Emotion Recognition. In: Proc. of International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, UK. IEEE, 2019, 6690-6694 (CCF B)
[2] Yufeng Xiao, Huan Zhao, Tingting Li. Learning Class-Aligned and Generalized Domain-Invariant Representations for Speech Emotion Recognition. IEEE Transactions on Emerging Topics in Computational Intelligence, 2020, 4(4):480-489
[3] Huan Zhao, Yufeng Xiao, Zixing Zhang. Robust Semisupervised Generative Adversarial Networks for Speech Emotion Recognition via Distribution Smoothness. IEEE Access, 8(2020): 106889-106900 (SCI 2区)
[4] 肖宇锋, 赵欢. 基于半监督对抗变分自编码的语音情感识别. 通信学报(评审中)