基于卷积神经网络的语音合成声码器研究

发布时间：2025-05-07 20:47

　　语音合成声码器从基频、频谱等声学特征中重构语音波形,是统计参数语音合成系统中不可或缺的一部分。近年来,随着深度神经网络模型在声学建模中的成功应用,声学模型精度与合成语音自然度均得到了有效改善。但是以STRAIGHT为代表的传统源-滤波器结构声码器仍然存在频谱细节丢失、相位依赖人工设计以及线性滤波框架等问题,这仍然制约着统计参数方法合成语音质量的进一步提升。2016年,DeepMind研究者提出了直接对语音波形建模与生成的深度卷积神经网络结构,并将其用于从文本特征预测语音波形,取得了优于传统统计参数方法的合成语音自然度。利用卷积神经网络对语音波形直接建模弥补了频谱细节、相位信息丢失的缺陷,深层次的神经网络也具有灵活的非线性处理能力,这为语音合成声码器的实现提供了新的途径。本文围绕基于卷积神经网络的语音合成声码器从三个方面展开研究工作。首先,设计实现了基于卷积神经网络的话者相关语音合成声码器;其次,提出了神经网络声码器的话者无关及自适应训练方法,在目标语音数据有限情形下实现高质量声码器的训练;最后,设计实现了多分辨率层级化网络结构,提升语音合成声码器的生成效率。本文整体安排如下:第一章是绪论...

【文章页数】：64 页

【学位级别】：硕士

【部分图文】：

图１．１语音合成系统示意图

音合成技术绝大部分都在文语转换层次，即将文字按照一定规则映射到语音波??形。??图１．１展示了一个典型的语音合成系统。文语转换是一个层次化的信息处理??过程，而且层次越高信息越丰富，这也是文字转换到语音的难点。首先，根据给??定语言的词典和相应的语法规则在语言层、语法层和语义层分....

图１．２语音生成过程

?＼规则／?＼?ｙ??图１．１语音合成系统示意图。??以划分为三类：（１）文字按规则映射到语音波形，简称文语转换（Ｔｅｘｔ－Ｔｏ－Ｓｐｅｅｃｈ，??ＴＴＳ）；⑵概念按规则映射到语音；（３）意向按规则映射到语音。现阶段研宄的语??音合成技术绝大部分都在文语转换层次，即将文字按照一定....

图１．３统计参数语音合成系统

音段切分和韵律标注）作为输入、声学参数作为输出利用机器学习方法训练对应??的声学模型，最后以声学模型为基础加上后端的合成声码器构成统计参数合成??系统，该系统结构如图１．３所示。??／?输入?７??／…亥本．．．／??Ｔ??前端??文本［处理丨??音段切分、韵??ｖ?律等文本特征....

图１．４基于ＤＮＮ的声学模型结构

合成任务的声学建模模ｔ４］，实验表明其声学模型精度与合成语音自然度相对于??基于ＨＭＭ的统计参数建模方法均得到了有效改善。ＤＮＮ是一种前馈神经网络??（Ｆｅｅｄｆｏｒｗａｒｄ?Ｎｅｕｒａｌ?Ｎｅｔｗｏｒｋ），基于ＤＮＮ的声学模型如图１．４所不，这种层级化??结构和人类的发音过程有....

本文编号：4043775

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/4043775.html

上一篇：基于深度学习的中文唇语识别研究
下一篇：群智能优化算法及在流水车间调度问题中的应用研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|