当前位置:主页 > 科技论文 > 自动化论文 >

基于卷积神经网络的语音合成声码器研究

发布时间:2025-05-07 20:47
  语音合成声码器从基频、频谱等声学特征中重构语音波形,是统计参数语音合成系统中不可或缺的一部分。近年来,随着深度神经网络模型在声学建模中的成功应用,声学模型精度与合成语音自然度均得到了有效改善。但是以STRAIGHT为代表的传统源-滤波器结构声码器仍然存在频谱细节丢失、相位依赖人工设计以及线性滤波框架等问题,这仍然制约着统计参数方法合成语音质量的进一步提升。2016年,DeepMind研究者提出了直接对语音波形建模与生成的深度卷积神经网络结构,并将其用于从文本特征预测语音波形,取得了优于传统统计参数方法的合成语音自然度。利用卷积神经网络对语音波形直接建模弥补了频谱细节、相位信息丢失的缺陷,深层次的神经网络也具有灵活的非线性处理能力,这为语音合成声码器的实现提供了新的途径。本文围绕基于卷积神经网络的语音合成声码器从三个方面展开研究工作。首先,设计实现了基于卷积神经网络的话者相关语音合成声码器;其次,提出了神经网络声码器的话者无关及自适应训练方法,在目标语音数据有限情形下实现高质量声码器的训练;最后,设计实现了多分辨率层级化网络结构,提升语音合成声码器的生成效率。本文整体安排如下:第一章是绪论...

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

图1.1语音合成系统示意图

图1.1语音合成系统示意图

音合成技术绝大部分都在文语转换层次,即将文字按照一定规则映射到语音波??形。??图1.1展示了一个典型的语音合成系统。文语转换是一个层次化的信息处理??过程,而且层次越高信息越丰富,这也是文字转换到语音的难点。首先,根据给??定语言的词典和相应的语法规则在语言层、语法层和语义层分....


图1.2语音生成过程

图1.2语音生成过程

?\规则/?\?y??图1.1语音合成系统示意图。??以划分为三类:(1)文字按规则映射到语音波形,简称文语转换(Text-To-Speech,??TTS);⑵概念按规则映射到语音;(3)意向按规则映射到语音。现阶段研宄的语??音合成技术绝大部分都在文语转换层次,即将文字按照一定....


图1.3统计参数语音合成系统

图1.3统计参数语音合成系统

音段切分和韵律标注)作为输入、声学参数作为输出利用机器学习方法训练对应??的声学模型,最后以声学模型为基础加上后端的合成声码器构成统计参数合成??系统,该系统结构如图1.3所示。??/?输入?7??/…亥本.../??T??前端??文本[处理丨??音段切分、韵??v?律等文本特征....


图1.4基于DNN的声学模型结构

图1.4基于DNN的声学模型结构

合成任务的声学建模模t4],实验表明其声学模型精度与合成语音自然度相对于??基于HMM的统计参数建模方法均得到了有效改善。DNN是一种前馈神经网络??(Feedforward?Neural?Network),基于DNN的声学模型如图1.4所不,这种层级化??结构和人类的发音过程有....



本文编号:4043775

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/4043775.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户82d62***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com