基于卷积神经网络的说话人识别与聚类研究
发布时间:2025-06-18 23:47
说话人识别问题是通过语音特征来确定说话的人是谁。近年来,大多数学者仍然使用传统的方法来提取语音特征,如梅尔频率倒谱系数,简称MFCC,但是由于真实环境比较复杂并且与实验的环境相差很大,所以得到的结果差强人意。因此,我们应寻求一种新的方法来提取语音特征并且达到较好的实际效果是非常有必要的。随着人工智能技术不断发展,利用深度学习的方法使人工智能技术快速的应用到图像、文本、以及语音识别等众多领域,具体来讲,渐渐形成了一种利用大数据获取抽象特征并且这些抽象的特征都是自动提取的方法。其中,卷积神经网络的发展使深度学习的研究达到一个新高度,通过卷积神经网络的特征提取来解决说话人识别问题,也受到广泛关注。说话人识别方法有GMM-UBM模型,该模型在实际应用中取得了不错的成绩,但是它仍然存在两个主要的缺点:(1)模型采用的是EM算法进行迭代训练,该方法结构复杂,训练时间较长,并且需要大量的内存,泛化能力一般;(2)模型对数据的要求非常严格,因此需要相对应的方法来生成指定的数据格式。本文针对说话人识别的问题,提出了一种基于卷积神经网络的说话人识别与聚类模型,该模型分为两个部分,第一部分是使用声音的频谱图作...
【文章页数】:57 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及意义
1.2 国内外文献综述
1.3 深度学习与说话人识别
1.4 研究内容及贡献
1.5 本文组织结构
第2章 相关研究
2.1 说话人识别原理
2.2 说话人特征提取
2.2.1 语音数据预处理
2.2.2 梅尔频率倒谱系数
2.3 说话人识别模型
2.3.1 GMM-UBM说话人识别模型
2.3.2 HMM模型
2.3.3 高斯混合模型
2.3.4 EM模型
2.4 深度学习概述
2.4.1 卷积神经网络
2.4.2 受限玻耳兹曼机的网络结构
2.4.3 循环神经网络
2.5 本章小结
第3章 说话人识别分析方法研究
3.1 说话人识别方法
3.2 说话人识别实验
3.2.1 实验平台
3.2.2 实验数据集
3.2.3 频谱图的获取
3.2.4 说话人识别
3.3 实验对比
3.3.1 GMM-UBM与CNN实验对比
3.3.2 DNN与CNN实验对比
3.4 本章小结
第4章 说话人聚类分析方法研究
4.1 说话人聚类方法介绍
4.1.1 Affinity Propagation介绍
4.1.2 PCA降维介绍
4.1.3 使用PCA以及Affinity Propagation分析
4.2 说话人聚类实验
4.2.1 使用PCA降维可视化分析
4.2.2 使用AP聚类分析
4.3 本章小结
结论
参考文献
攻读学位期间发表的学术成果
致谢
本文编号:4050524
【文章页数】:57 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及意义
1.2 国内外文献综述
1.3 深度学习与说话人识别
1.4 研究内容及贡献
1.5 本文组织结构
第2章 相关研究
2.1 说话人识别原理
2.2 说话人特征提取
2.2.1 语音数据预处理
2.2.2 梅尔频率倒谱系数
2.3 说话人识别模型
2.3.1 GMM-UBM说话人识别模型
2.3.2 HMM模型
2.3.3 高斯混合模型
2.3.4 EM模型
2.4 深度学习概述
2.4.1 卷积神经网络
2.4.2 受限玻耳兹曼机的网络结构
2.4.3 循环神经网络
2.5 本章小结
第3章 说话人识别分析方法研究
3.1 说话人识别方法
3.2 说话人识别实验
3.2.1 实验平台
3.2.2 实验数据集
3.2.3 频谱图的获取
3.2.4 说话人识别
3.3 实验对比
3.3.1 GMM-UBM与CNN实验对比
3.3.2 DNN与CNN实验对比
3.4 本章小结
第4章 说话人聚类分析方法研究
4.1 说话人聚类方法介绍
4.1.1 Affinity Propagation介绍
4.1.2 PCA降维介绍
4.1.3 使用PCA以及Affinity Propagation分析
4.2 说话人聚类实验
4.2.1 使用PCA降维可视化分析
4.2.2 使用AP聚类分析
4.3 本章小结
结论
参考文献
攻读学位期间发表的学术成果
致谢
本文编号:4050524
本文链接:https://www.wllwen.com/kejilunwen/wltx/4050524.html