当前位置:主页 > 科技论文 > 信息工程论文 >

基于自编码器的语音特征编码与情感识别

发布时间:2025-06-20 00:26
  近年来语音相关研究中出现一种趋势,过去被认为在序列数据上表现较好的以循环网络(RNN)为基础的各类模型,开始被时序卷积网络(TCN)超越,并已经在语音识别与合成上取得了突出成果,但在情感识别上的应用尚有较大的空白。另一方面,现有的相关研究离实用化仍有距离,需要从系统方面考虑,在存储、性能与速度方面综合考虑,需要一种有效的特征处理方案进行特征处理。特征学习也是该领域从定性分类进入表示学习的必要阶段。综上,本文的主要工作包括以下两个部分。(1)针对时序卷积网络在语音情感识别课题上的应用空白,鉴于该模型在其它语音处理问题上的突出表现且已被证明能够有效捕捉语音序列中的长距离依赖信息,将该模型与长期以来广泛应用与特征抽取、特征降维以及表示学习的自编码器模型相结合,提出TCN自编码器,并将其应用于语音情感识别中的语音情感特征提取部分。通过以新方法提取特征的方式,尝试获取传统手工特征没有捕捉到的语音情感特征,并尝试得到更好的分类结果。(2)针对语音情感识别中的特征处理问题,这里实质上指的是从特征中提取出一个维度更低的新表示,并尽可能保持新表示的可区分度。本文提出使用对抗自编码器结合传统特征与新特征,并...

【文章页数】:63 页

【学位级别】:硕士

【部分图文】:

图2-3频率谱与幅度谱

图2-3频率谱与幅度谱

武汉邮电科学研究院硕士学位论文10是DFT离散傅里叶变换、FFT快速傅里叶变换、STFT短时傅里叶变换等等),得到每一帧的频谱,将这些频谱在时间轴上堆叠起来得到的就是音频的声谱图,也有资料称语音信号的声谱图为语谱图。声谱图将原音频的频率成分、各个频率的强度、频率成分随时间变化的情....


图2-4使用librosa提取的mel声谱图

图2-4使用librosa提取的mel声谱图

武汉邮电科学研究院硕士学位论文11集,在高频区域较为稀疏。为了描述这一现象,研究者提出了梅尔频率,Hz频率与梅尔频率的相互转换关系如下。Hz频率与梅尔频率有如式(2-1)的关系。2595log(1+/700)melf=f(2-1)反之,从梅尔频率转换到普通频率则使用式(2-2)。....


图3-6加噪前的Mel声谱图

图3-6加噪前的Mel声谱图

武汉邮电科学研究院硕士学位论文34图3-6加噪前的Mel声谱图图3-7加噪后的Mel声谱图3.2.4TCN特征提取实验配置优化(1)Mel声谱图的提取与加噪从原始信号中提取Mel声谱图的原理已在第二章中介绍,本实验采取的具体方法是使用python的librosa工具包,编写程序将....


图3-7加噪后的Mel声谱图

图3-7加噪后的Mel声谱图

武汉邮电科学研究院硕士学位论文34图3-6加噪前的Mel声谱图图3-7加噪后的Mel声谱图3.2.4TCN特征提取实验配置优化(1)Mel声谱图的提取与加噪从原始信号中提取Mel声谱图的原理已在第二章中介绍,本实验采取的具体方法是使用python的librosa工具包,编写程序将....



本文编号:4051148

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/4051148.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cdab0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com