基于深度学习的场景图像文字检测方法研究
发布时间:2021-06-22 15:47
在自然场景图像中,文字是最常见的物体对象,它经常出现在交通指示牌、产品包装等物体上。有效检测场景图像中的文字有助于许多应用程序实现特定的功能,例如基于图像的地理定位系统可以通过检测并识别场景图像文字来实现定位功能。随着深度学习的飞速发展,越来越多的基于深度学习的物体检测算法模型被用来进行场景图像的文字检测。但是,由于场景图像中的文字对象与通用物体对象不同,文字对象不仅具有尺度丰富、方向任意和宽高比极端等特性,而且容易受到类似文字背景地干扰。针对自然场景图像中文字的分布特性,本文对自然场景图像中的文字检测方法进行研究。主要工作如下:(1)设计了一种基于SSD物体检测算法改进的自然场景文字检测模型,该模型在SSD物体检测算法的基础上增加了一个文字区域检测模块。该模块可以根据前面不同尺度的特征提取层检测到的特征图感受野的不同,调整默认预选框的宽高比、卷积滤波器的形状以及默认预测框的空间密度。该模块可以高效地融合各特征图上的文字检测结果,从而增强不同尺度文字检测的鲁棒性。(2)本文设计的场景图像文字检测模型针对SSD物体检测算法只能生成水平矩形的物体区域边界检测框,而导致对多方向的文字检测效果...
【文章来源】:杭州电子科技大学浙江省
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
LSTM网络结构流程图
杭州电子科技大学硕士学位论文19特征提取模块的基础网络,使用VGG-16的目的是为了使用训练好的模型进行迁移学习从而降低网络的训练难度。VGG-16具有非常简单高效的网络结构,首先,该网络的前面几层仅使用一个3×3卷积滤波器来加深网络的深度,还使用了最大池化过程来顺序降低每一层中的神经元数量。其次,该网络的最后三层由两个全连接层以及一个Softmax分类层组成。因此,VGG-16网络在大规模的图像分类任务中具有出色的效果。SSD算法在VGG-16网络的基础上进行了改进,主要是将VGG-16网络后面的全连接层替换成卷积层,并在之后添加多个多尺度的卷积层。VGG-16的基本结构如图2.11所示。图2.11VGG-16基本结构图2.4.2SSD物体检测算法默认预选框生成策略默认预选框(defaultbox)是SSD物体检测算法中的一个重要概念,SSD算法通过生成具有固定数量的多尺度默认预选框来预测输入图像中待检测物体的区域边界框以及物体类别。引入默认预选框的基本思想是网络在使用卷积层预测物体边界框时有一个参考的目标,即卷积层预测时只需要预测物体相对于默认预选框的偏移值就可以了。那么基于这个思路,默认预选框在与目标配对时越接近目标的边框越好,所以这就涉及到在不同尺度的特征图分配不同默认预选框的策略。SSD物体检测算法中的默认预选框的设置,包括尺度和宽高两个方面。对于默认预选框的尺度,其遵守一个线性递增规则:随着特征图大小降低,先验框尺度线性增加。记网络的最小检测尺度为,最大检测尺度为,总共有层特征图用于检测,那么每层特征图的默认预选框的尺度计算公式如2.12所示:ss1(k),k,m(2.12)在SSD物体检测算法中,每个卷积层提取的特征图的数量m默认设置为6,
杭州电子科技大学硕士学位论文26图3.4默认预选框预测预测文字区域边界框实例如图3.4所示为默认预选框预测预测文字区域边界框实例。图中显示了不同设置比例生成的两个默认预选框b0,在图中用黑色虚线和黄色虚线表示。其中黄色虚线的默认预选框与真实文字标注边界框匹配。红色实线为真实文字标注边界框,绿色实线为真实文字标注边界框的最小水平外接矩形。最终需要求解的是匹配的黄色虚线默认预选框0到和的偏移量,如图3.4中红色箭头和绿色箭头所示。在SSD物体检测模型中,自动生成的默认预选框的表示形式为b0=(x0,y0,w0,h0),其中(x0,y0)表示默认预选框的中心点,w0和h0分别表示默认预选框的宽度和高度。在本文提出的场景图像文字检测模型中,为了能够检测任意方向的文字区域,文字区域检测模块生成的默认预选框0可以表示为q0(x01q,y01q,x02q,y02q,x03q,y03q,x04q,y04q)。其中,q0为默认预选框框的顺时针四点坐标表示。对应的关系转换如式公式3.1所示。x01qx02,y01qy02,x02qx02,y02qy02,x03qx02,y03qy02,x04qx02,y03qy02,x01x02,y01y02,x02x02,y02y02,h0h0(3.1)文字区域检测模块通过学习默认预选框到真实标注框的偏移回归值,输出对应在检测置信度下的一个预测四边形框q(x1q,y1q,x2q,y2q,x3q,y3q,x4q,y4q)和一个
【参考文献】:
期刊论文
[1]基于深度学习的场景文字检测综述[J]. 姜维,张重生,殷绪成. 电子学报. 2019(05)
[2]自然场景图像中的文本检测综述[J]. 王润民,桑农,丁丁,陈杰,叶齐祥,高常鑫,刘丽. 自动化学报. 2018(12)
[3]基于深度学习的场景文字检测与识别[J]. 白翔,杨明锟,石葆光,廖明辉. 中国科学:信息科学. 2018(05)
博士论文
[1]自然图像中文字检测与识别研究[D]. 姚聪.华中科技大学 2014
本文编号:3243112
【文章来源】:杭州电子科技大学浙江省
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
LSTM网络结构流程图
杭州电子科技大学硕士学位论文19特征提取模块的基础网络,使用VGG-16的目的是为了使用训练好的模型进行迁移学习从而降低网络的训练难度。VGG-16具有非常简单高效的网络结构,首先,该网络的前面几层仅使用一个3×3卷积滤波器来加深网络的深度,还使用了最大池化过程来顺序降低每一层中的神经元数量。其次,该网络的最后三层由两个全连接层以及一个Softmax分类层组成。因此,VGG-16网络在大规模的图像分类任务中具有出色的效果。SSD算法在VGG-16网络的基础上进行了改进,主要是将VGG-16网络后面的全连接层替换成卷积层,并在之后添加多个多尺度的卷积层。VGG-16的基本结构如图2.11所示。图2.11VGG-16基本结构图2.4.2SSD物体检测算法默认预选框生成策略默认预选框(defaultbox)是SSD物体检测算法中的一个重要概念,SSD算法通过生成具有固定数量的多尺度默认预选框来预测输入图像中待检测物体的区域边界框以及物体类别。引入默认预选框的基本思想是网络在使用卷积层预测物体边界框时有一个参考的目标,即卷积层预测时只需要预测物体相对于默认预选框的偏移值就可以了。那么基于这个思路,默认预选框在与目标配对时越接近目标的边框越好,所以这就涉及到在不同尺度的特征图分配不同默认预选框的策略。SSD物体检测算法中的默认预选框的设置,包括尺度和宽高两个方面。对于默认预选框的尺度,其遵守一个线性递增规则:随着特征图大小降低,先验框尺度线性增加。记网络的最小检测尺度为,最大检测尺度为,总共有层特征图用于检测,那么每层特征图的默认预选框的尺度计算公式如2.12所示:ss1(k),k,m(2.12)在SSD物体检测算法中,每个卷积层提取的特征图的数量m默认设置为6,
杭州电子科技大学硕士学位论文26图3.4默认预选框预测预测文字区域边界框实例如图3.4所示为默认预选框预测预测文字区域边界框实例。图中显示了不同设置比例生成的两个默认预选框b0,在图中用黑色虚线和黄色虚线表示。其中黄色虚线的默认预选框与真实文字标注边界框匹配。红色实线为真实文字标注边界框,绿色实线为真实文字标注边界框的最小水平外接矩形。最终需要求解的是匹配的黄色虚线默认预选框0到和的偏移量,如图3.4中红色箭头和绿色箭头所示。在SSD物体检测模型中,自动生成的默认预选框的表示形式为b0=(x0,y0,w0,h0),其中(x0,y0)表示默认预选框的中心点,w0和h0分别表示默认预选框的宽度和高度。在本文提出的场景图像文字检测模型中,为了能够检测任意方向的文字区域,文字区域检测模块生成的默认预选框0可以表示为q0(x01q,y01q,x02q,y02q,x03q,y03q,x04q,y04q)。其中,q0为默认预选框框的顺时针四点坐标表示。对应的关系转换如式公式3.1所示。x01qx02,y01qy02,x02qx02,y02qy02,x03qx02,y03qy02,x04qx02,y03qy02,x01x02,y01y02,x02x02,y02y02,h0h0(3.1)文字区域检测模块通过学习默认预选框到真实标注框的偏移回归值,输出对应在检测置信度下的一个预测四边形框q(x1q,y1q,x2q,y2q,x3q,y3q,x4q,y4q)和一个
【参考文献】:
期刊论文
[1]基于深度学习的场景文字检测综述[J]. 姜维,张重生,殷绪成. 电子学报. 2019(05)
[2]自然场景图像中的文本检测综述[J]. 王润民,桑农,丁丁,陈杰,叶齐祥,高常鑫,刘丽. 自动化学报. 2018(12)
[3]基于深度学习的场景文字检测与识别[J]. 白翔,杨明锟,石葆光,廖明辉. 中国科学:信息科学. 2018(05)
博士论文
[1]自然图像中文字检测与识别研究[D]. 姚聪.华中科技大学 2014
本文编号:3243112
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3243112.html