当前位置:主页 > 科技论文 > 信息工程论文 >

基于深度学习的说话人识别技术应用

发布时间:2024-05-08 20:38
  随着信息化时代的不断推进,人们对系统身份认证可靠性和服务提供个性化的需求不断提升,基于用户语音的说话人识别和说话人属性分类技术迅速成为信号处理领域的研究热点。现有的基于深度学习方法的说话人识别及说话人属性分类任务仍然受限于环境噪声及信道失配问题,本论文旨在基于深度学习研究具有较高鲁棒性的说话人识别和说话人属性分类系统,提升复杂场景下的识别和分类准确率。为了实现上述研究目标,本文对话人识别及说话人属性分类展开以下研究:针对说话人识别,本论文提出基于残差网络及双向长短时记忆网络的ResNet-BLSTM网络结构,使用语谱图作为网络输入,提取出了对于语速鲁棒且表征信息更丰富的深度特征。在训练阶段提出了基于改进三元组损失的T-Triplet Loss,严格控制特征向量的类内聚集及类间分离,使模型在噪声语料集下也能准确地聚类同说话人语音。最后分别在Voxceleb、LibriSpeech和AISHELL-1三个语料集上开展实验,并在三个数据集上都取得了较为接近的识别等错误率,验证了系统在多种语音环境下的鲁棒性,且更是在噪声数据集Voxceleb上相较于基线系统i-vector/PLDA取得了 6...

【文章页数】:94 页

【学位级别】:硕士

【部分图文】:

图2-1?MFCC提取及转置流程图??1..数模转换(A/D?conversion)??

图2-1?MFCC提取及转置流程图??1..数模转换(A/D?conversion)??

?电子科技大学硕士学位论文???第二章背景知识与相关理论??2.1语音信号的特征提取??2.1.1梅尔倒频系数??MFCC至今仍是最优秀的语音特征集之一,其主要优点是能够在短时功率谱??中对声道进行建模。39维的MFCC特征是现有语音研究中的常用特征,此维数小??到足够学习到音频....


图2-2实际频率与梅尔频率的映射关系图??

图2-2实际频率与梅尔频率的映射关系图??

随窗:函数的选择变化,Hamming窗’??取值为0.46164,Hanning窗取值为0.5。??4.离散傅里叶变换??采用DFT提取频域中的信息,由公式(2-4)完成时域信号到频域信号的转换。??耶]=2〇n]e_/27rfc/W?(2-4)??5.梅尔滤波器组??设备的测量....


图2-3三角滤波器工作原理示意图??

图2-3三角滤波器工作原理示意图??

?电子科技大莩硕土学位论文???接下来使用三角带通滤波器将频率信息转换成为人耳接收的模拟債息》首先??对DFT转换的输出求乎方,这反应了每个频率的语音功率,称之为DFT功率谱。??之后使用H角梅尔滤波器组将该能量镨转换为梅尔功率谱,每个梅尔能養谱槽的??输出代表其覆盖的多个频带的....


图2-4?GMM-UBM模型训练-识别流程图??

图2-4?GMM-UBM模型训练-识别流程图??

UniversalBackgroundModel,UBM).?[36,37]。UBM?代表了除了?目标说??话人之外的每个人,从本质上来说是一个大型的GMM。UBM是通过EM算法对??大量说话人语音训练出来的独立于说话人的背景模型,该模型表示了特征向量与??说话人无关的分布g当新....



本文编号:3967790

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3967790.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户38a22***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]