基于深度学习的中文唇语识别研究
发布时间:2025-05-07 20:08
唇语识别作为一种将唇读视频转换为文本的多模态任务,它旨在理解说话者在无声情况下表达的意思。唇语识别在复杂场景下增强语音识别、公共安全监控和辅助听障人士交流等方面具有很高的应用价值。随着深度学习技术被广泛应用在唇语识别研究中,唇语识别算法的性能得到了极大提高,针对中文视频的唇语识别问题也逐渐成为研究热点。尽管唇语识别在近几年已经取得了较大的发展,但目前的研究主要利用卷积神经网络提取唇部视觉特征,捕获到的短距离像素关系仍然难以区分相似发音字符的唇形。另外,在某些应用场景中,只需要关注特定关键词是否出现及其出现位置,而唇语关键词检测可以应用于这些场景中。
本文从中文句子级唇语识别和中文唇语关键词检测两个方向出发,主要做了以下两个方面的研究工作:
(1)为了捕获视频图像中唇部区域像素之间的长距离关系,本文提出了一种基于Vision Transformer(Vi T)的端到端中文句子级唇语识别模型Vi TCLN。该模型通过融合Vi T和门控循环单元(Gated Recurrent Unit,GRU)提高了对嘴唇视频的视觉时空特征提取能力。具体地,首先使用Vi T的自注意力模块提取嘴唇图像的全局空间...
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究背景及意义
1.2 研究现状
1.2.1 基于传统方法的唇语识别算法
1.2.2 基于深度学习的唇语识别算法
1.3 研究内容及组织结构
第二章 深度学习理论基础及唇语识别相关技术
2.1 深度学习理论基础
2.1.1 多层感知机
2.1.2 卷积神经网络
2.1.3 循环神经网络
2.2 唇语识别相关技术
2.2.1 句子级唇语识别相关技术
2.2.2 唇语关键词检测相关技术
2.3 本章小结
第三章 基于 Vision Transformer 的中文唇语识别
3.1 方法描述
3.2 Transformer 简介
3.3 基于 Vision Transformer 的中文唇语识别算法
3.3.1 视频帧嵌入
3.3.2 ViT编码器
3.3.3 时序特征提取
3.3.4 文本解码
3.3.5 目标函数
3.4 实验结果与分析
3.4.1 数据集与评价指标
3.4.2 实验设置
3.4.3 对比实验结果
3.4.4 超参数分析及消融实验
3.4.5 案例分析
3.4.6 可视化分析
3.5 本章小结
第四章 基于跨模态交叉注意力的中文唇语关键词检测
4.1 方法描述
4.2 基于跨模态交叉注意力的中文唇语关键词检测算法
4.2.1 文本和视频表示
4.2.2 跨模态交叉注意力模块
4.2.3 关键词检测和定位
4.2.4 目标函数
4.3 实验结果与分析
4.3.1 数据集与评价指标
4.3.2 实验设置
4.3.3 实验结果
4.3.4 案例分析
4.4 本章小结
第五章 总结与展望
5.1 工作总结
5.2 未来展望
参考文献
本文编号:4043731
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究背景及意义
1.2 研究现状
1.2.1 基于传统方法的唇语识别算法
1.2.2 基于深度学习的唇语识别算法
1.3 研究内容及组织结构
第二章 深度学习理论基础及唇语识别相关技术
2.1 深度学习理论基础
2.1.1 多层感知机
2.1.2 卷积神经网络
2.1.3 循环神经网络
2.2 唇语识别相关技术
2.2.1 句子级唇语识别相关技术
2.2.2 唇语关键词检测相关技术
2.3 本章小结
第三章 基于 Vision Transformer 的中文唇语识别
3.1 方法描述
3.2 Transformer 简介
3.3 基于 Vision Transformer 的中文唇语识别算法
3.3.1 视频帧嵌入
3.3.2 ViT编码器
3.3.3 时序特征提取
3.3.4 文本解码
3.3.5 目标函数
3.4 实验结果与分析
3.4.1 数据集与评价指标
3.4.2 实验设置
3.4.3 对比实验结果
3.4.4 超参数分析及消融实验
3.4.5 案例分析
3.4.6 可视化分析
3.5 本章小结
第四章 基于跨模态交叉注意力的中文唇语关键词检测
4.1 方法描述
4.2 基于跨模态交叉注意力的中文唇语关键词检测算法
4.2.1 文本和视频表示
4.2.2 跨模态交叉注意力模块
4.2.3 关键词检测和定位
4.2.4 目标函数
4.3 实验结果与分析
4.3.1 数据集与评价指标
4.3.2 实验设置
4.3.3 实验结果
4.3.4 案例分析
4.4 本章小结
第五章 总结与展望
5.1 工作总结
5.2 未来展望
参考文献
本文编号:4043731
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/4043731.html