基于深度学习的说话人识别技术应用

发布时间：2024-05-08 20:38

　　随着信息化时代的不断推进,人们对系统身份认证可靠性和服务提供个性化的需求不断提升,基于用户语音的说话人识别和说话人属性分类技术迅速成为信号处理领域的研究热点。现有的基于深度学习方法的说话人识别及说话人属性分类任务仍然受限于环境噪声及信道失配问题,本论文旨在基于深度学习研究具有较高鲁棒性的说话人识别和说话人属性分类系统,提升复杂场景下的识别和分类准确率。为了实现上述研究目标,本文对话人识别及说话人属性分类展开以下研究:针对说话人识别,本论文提出基于残差网络及双向长短时记忆网络的ResNet-BLSTM网络结构,使用语谱图作为网络输入,提取出了对于语速鲁棒且表征信息更丰富的深度特征。在训练阶段提出了基于改进三元组损失的T-Triplet Loss,严格控制特征向量的类内聚集及类间分离,使模型在噪声语料集下也能准确地聚类同说话人语音。最后分别在Voxceleb、LibriSpeech和AISHELL-1三个语料集上开展实验,并在三个数据集上都取得了较为接近的识别等错误率,验证了系统在多种语音环境下的鲁棒性,且更是在噪声数据集Voxceleb上相较于基线系统i-vector/PLDA取得了 6...

【文章页数】：94 页

【学位级别】：硕士

【部分图文】：

图２－１?ＭＦＣＣ提取及转置流程图??１．．数模转换（Ａ／Ｄ?ｃｏｎｖｅｒｓｉｏｎ）??

?电子科技大学硕士学位论文???第二章背景知识与相关理论??２．１语音信号的特征提取??２．１．１梅尔倒频系数??ＭＦＣＣ至今仍是最优秀的语音特征集之一，其主要优点是能够在短时功率谱??中对声道进行建模。３９维的ＭＦＣＣ特征是现有语音研究中的常用特征，此维数小??到足够学习到音频....

图２－２实际频率与梅尔频率的映射关系图??

随窗：函数的选择变化，Ｈａｍｍｉｎｇ窗’??取值为０．４６１６４，Ｈａｎｎｉｎｇ窗取值为０．５。??４．离散傅里叶变换??采用ＤＦＴ提取频域中的信息，由公式（２－４）完成时域信号到频域信号的转换。??耶］＝２〇ｎ］ｅ＿／２７ｒｆｃ／Ｗ?（２－４）??５．梅尔滤波器组??设备的测量....

图２－３三角滤波器工作原理示意图??

?电子科技大莩硕土学位论文???接下来使用三角带通滤波器将频率信息转换成为人耳接收的模拟債息》首先??对ＤＦＴ转换的输出求乎方，这反应了每个频率的语音功率，称之为ＤＦＴ功率谱。??之后使用Ｈ角梅尔滤波器组将该能量镨转换为梅尔功率谱，每个梅尔能養谱槽的??输出代表其覆盖的多个频带的....

图２－４?ＧＭＭ－ＵＢＭ模型训练－识别流程图??

ＵｎｉｖｅｒｓａｌＢａｃｋｇｒｏｕｎｄＭｏｄｅｌ，ＵＢＭ）．?［３６，３７］。ＵＢＭ?代表了除了?目标说??话人之外的每个人，从本质上来说是一个大型的ＧＭＭ。ＵＢＭ是通过ＥＭ算法对??大量说话人语音训练出来的独立于说话人的背景模型，该模型表示了特征向量与??说话人无关的分布ｇ当新....

本文编号：3967790

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3967790.html

上一篇：基于K-Means的WSN动态信任度双簇头选取算法
下一篇：大规模MIMO中导频设计方案研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|