当前位置:主页 > 科技论文 > 信息工程论文 >

藏语多任务多方言语音识别

发布时间:2025-05-20 04:19
  高斯混合-隐马尔科夫模型(GMM-HMM)和深度神经网络-隐马尔科夫模型(DNN-HMM)在语音识别任务上取得了极大成效,但是在模型训练和系统搭建上比较复杂。由于藏语多方言等低资源语言的语言学研究并不充分,导致上述经典模型的应用受到限制。近年来随着神经网络技术的发展,迁移学习和多任务学习方法广泛应用于模式识别的多个领域,基于端到端的语音识别技术也在包括汉语和英语等主流的语言上取得重要进展,但是在藏语多方言多任务上尚未有深入的研究,因此,本文主要探讨了基于端到端技术的多任务学习和迁移学习在藏语多方言多任务语音识别上的应用。1.基于WaveNet-CTC模型的藏语多方言多任务识别链接时序分类技术丢弃了 GMM-HMM中复杂的预处理和后处理操作,将语音识别任务直接建模成序列概率最大化问题,并通过前后向算法降低模型计算复杂度。WaveNet模型则能够有效增加感受野而不损失信息,因而能够充分利用背景信息。本文基于WaveNet-CTC模型对比了单任务和多任务(两任务和三任务)模型的性能,实验结果表明两任务模型相比单任务在语音识别和方言或者说话人识别上均有明显提升,三任务模型则在语音识别任务上相对退...

【文章页数】:72 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 语音识别
        1.2.1 语音识别的基本概念
        1.2.2 语音识别的发展历程
        1.2.3 基于深度学习的语音识别现状
        1.2.4 语音识别存在的问题
    1.3 藏语多任务识别研究现状
    1.4 本文主要内容和结构
第二章 多任务学习方法与端到端语音识别技术
    2.1 引言
    2.2 多任务学习
        2.2.1 多任务学习的定义
        2.2.2 多任务学习与迁移学习
        2.2.3 多任务学习的分类
    2.3 端到端技术
        2.3.1 链接时序分类技术
        2.3.2 编解码模型
        2.3.3 RNN-Transducer模型
    2.4 本章小结
第三章 基于WaveNet-CTC模型的藏语多任务语音识别
    3.1 引言
    3.2 WaveNet模型
    3.3 WaveNet-CTC模型
    3.4 建模基元的选择
    3.5 一个开放的藏语多方言语音数据资源TIBMD@MUC
    3.6 实验及结果分析
        3.6.1 实验配置
        3.6.2 单任务基线模型
        3.6.3 两任务模型
        3.6.4 三任务模型
    3.7 本章小结
第四章 基于attention机制的WaveNet-CTC藏语多任务语音识别
    4.1 引言
    4.2 Attention机制的原理
    4.3 基于Attention机制的WaveNet-CTC模型
    4.4 实验及结果分析
        4.4.1 两任务实验
        4.4.2 三任务实验
    4.5 本章小结
第五章 基于端到端架构下迁移学习对语音识别性能的研究
    5.1 引言
    5.2 迁移学习简介
        5.2.1 迁移学习的定义
        5.2.2 迁移学习的类型
    5.3 基于端到端架构的拉萨话到安多牧区话的迁移学习
    5.4 实验及结果分析
    5.5 本章小结
第六章 基于Tensorflow搭建藏语多方言多任务识别系统
    6.1 引言
    6.2 Tensorflow系统架构介绍
    6.3 基于Tensorflow的藏语多方言多任务识别系统
    6.4 本章小结
第七章 总结与展望
    7.1 本文总结
    7.2 后续相关工作
参考文献
致谢
攻读学位期间发表的学术论文目录



本文编号:4046837

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/4046837.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c8136***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com