当前位置:主页 > 科技论文 > 自动化论文 >

面向声学信号处理的深度学习模型优化研究

发布时间:2022-05-08 16:23
  声学信号作为人类生产活动过程中的主要信息载体,一直备受关注和研究。进入物联网时代,让机器更好的服务人类社会成了目前热门的话题,通过声学信号进行人机交互也因此成为当下的研究热点。随着计算机以及人工智能的快速发展,基于深度学习的方法成为了当下声学信号处理的主流研究方法。机器接收的声学信号主要来自人类的语音指令和周围的环境声音。目前相关的研究主要集中在自动语音识别、音素识别和声学环境场景分类等任务。本文针对声学环境场景分类和语音音素识别任务进行了研究,探讨声学信号在人机交互过程中面临的一些问题:针对声学环境场景分类问题,本文提出了高度聚合时频域声学特征的混合神经网络模型。我们观察到现有的模型在处理音频时域特性和频域特性的过程中存在以下问题:1)单一的模型结构只学习到了音频的时域特性或频域特性;2)混合的模型结构丢失或破坏了音频原本的时序信息;3)混合的模型结构对音频时域和频域信息利用不到位,无法发挥混合模型的最优性能。根据以上的观察和分析,本文设计了一个LCNN网络结构有效的避免的音频原有的时序信息丢失的问题,以及时序增强的多通道特征融合机制(MCFF)增加了混合模型对时频域特性的有效利用,... 

【文章页数】:84 页

【学位级别】:硕士

【部分图文】:

面向声学信号处理的深度学习模型优化研究


声音信号波形图

声学,场景,环境,音素


国防科技大学研究生院硕士学位论文一直到今天,声学环境场景分类的研究一直处于火热的阶段,相信在未来也同样会受到关注和研究,也期待人们开发出更多的声学应用,并更好的为人类服务[22]。图1.2声学环境场景分类系统1.1.2语音音素识别信息能够被我们接受和学习,是因为信息通过载体媒介进行传播,所有的外在表现形式可以总结为文字、图像和声音[23]。随着计算机信息科学的快速发展,越来越多的声音信号被存储记录和分析,并通过各种声学仪器揭露声音的本质内容。声音作为一种无处不在的自然现象,它带给人类的不仅是有声世界的丰富多彩,更多的通过声音进行交流和学习,通过研究和分析声音信号能让我们更好的理解发声的机制,从而更好的认知世界各种声音并与之进行沟通交流。语音音素作为发音系统的重要组成部分,通过对语音音素识别的研究,能帮助我们更好的理解发音系统以及它与文字系统的相互关系。特别的,人类通过声带振动发出声音的同时,也改变着嘴型以及嘴巴附近的面部肌肉的形状,语音音素识别的研究也能帮助人们学习发音与嘴型变化之间的关系。进一步,不同语言间的发音与嘴型变换是相似的,通过对语音音素识别的研究,对语言的理解和发展有着至关重要的意义。语音领域的研究总是跟随着时代稳步前进,从最早的隐马尔科夫模型(HMM[24,25])研究到基于统计学原理的模式识别研究方法(如SVM[26]、MLP[27]、CRF[28]),再到目前主流的基于深度学习的学习模型(如图1.3)以及混合深度神经网络和隐马尔可夫模型的声学模型[29],语音识别总能在各个阶段都能受到持续的关注和研究。到目前为止,机器识别出人类语音的准确率已经较上个世纪获得了极大的提升,普遍达到了90%以上的识别精度,人机交互变得流畅,鲁棒性也第3页

流程图,语音识别,流程图,音素


国防科技大学研究生院硕士学位论文越高。同时,基于这些研究也产生了许多实际产品,其中智能音箱[30]和对话机器人[31]作为最典型的与声学领域相关的产品极大地丰富和便利了人们的日常生活。图1.3基于深度学习的自动语音识别流程图语音音素作为自动语音识别的重要研究组成部分,发挥着至关重要的作用[32]。早期,语音音素识别的任务并不会被拿出来单独作为一个研究点,而是因为自动语音识别的任务需求才考虑它。一个字的发音由三个左右的音素组成,因此通过语音序列对文字的识别实际上也是对语音音素的识别。自动语音识别的发展到目前为止已经经历了近六十年了,也就是说自计算机应用以来,就一直有着对自动语音识别技术的研究,语音作为信息交流的载体,基于自动语音识别技术产生了很多实际的应用和成果[33]。20世纪50年代,著名的Bell实验室的研究人员根据人类声带振动发音的原理以及不同语种的语言语法规则提出语音音素系统,并基于此系统研发了一个经典的语音识别系统——孤立词语音识别系统[34]。虽然该系统仅针对英语发音的阿拉伯数字,而且是同一个人的语音发音,但是其系统模式和研究方法仍然被后序研究者借鉴和完善。随后,在语音领域兴起了声纹识别的研究热情,基于高斯混合模型及其改进的模型被应用在了声纹识别中[35–37]。因为声纹识别与语音音素识别具有很高的相似性,所以声纹识别的模型和方法也被用在了语音音素识别上,高斯混合模型成了这一阶段音素识别的代表模型。再之后,人们对语音音素的理解不仅仅是语音的组成单位这么简单了,同时,也随着深度学习的到来,基于时序神经网络和卷积神经网络的模型都被用在了语音音素识别上[38–41],也基于此开发了许多实际应用,比较典型的就是通过提高语音音素识别的精度进?


本文编号:3651982

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3651982.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5a052***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com