基于深度学习的目标检测与跟踪
发布时间:2021-08-02 15:34
目标检测与目标跟踪是属于计算机视觉领域和视频处理的热点问题之一,随着人工智能以及大数据的迅猛发展,在诸多领域如视频安防,自动驾驶,虚拟现实,图像理解,机器人控制,基于视觉的控制都需要它们的研究发展。现实生活中由于多种应用场景下需要保证要求的准确检测跟踪的同时,又需要有实时检测跟踪的要求,这就给这个研究领域带来巨大的挑战。目标跟踪是在视频序列中不断找到需要跟踪的目标,跟踪算法整体上也从传统的基于特征提取和机器学习到基于深度学习的神经网络跟踪起。近年来在目标检测跟踪领域,基于深度学习端到端的卷积神经网络得到迅猛发展,尤其是结合起源于信号处理领域的相关滤波方法的神经网络目标跟踪器。就计算机视觉而言,基于卷积神经网络的目标跟踪不需要自己定义特征,深度学习神经网络对特征有强大的描述能力,可以自己学习到图像特征,跟踪效果比自己定义的特征效果会更好,正因为如此利用端对端的深度学习框架网络跟踪结构应用广泛。本论文基于深度学习同时结合传统的相关滤波方法以及注意力机制,对目标检测跟踪进行了深入的研究。以提高跟踪准确率,增强跟踪的鲁棒性,同时保证跟踪的速度为目标。有效的利用深度卷积神经网络的深层和浅层的特征...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
YOLOv1模型[1]
gionproposal,从卷积神经网络中提取出同样大小的特征图。并且对损失函数进行了改进,采用了多任务损失函数。将目标检测边框的回归,直接加入到了卷积神经网络的训练里面。直接使用softmax替代SVM,实现了整个网络模型端到端的训练。如图1-2所示,将输入的待检测图像与感兴趣区域输入到全卷积网络中。每个RoI区域被池化为一个固定大小的特征图,再经过全连接层映射为特征向量。这个网络模型中的每一个RoI区域有两个输出向量,一个是softmax概率,另一个是每个类边界框回归偏移。并且这个网络架构可以进行端到端训练。图1-2FastR-CNN模型结构[8]
哈尔滨工业大学工程硕士学位论文-14-weights的参数量为:inFFCKbiases的参数量为:K总参数量为:inFFCK+K在卷积神经网络中还有感受野RF(ReceptiveField)的概念,它是CNN中每一层输出的特征图上的像素点在原始输入图片上映射的区域大校简单来说就是,特征图上的一个点对应的输入图上的区域大校在设计卷积神经网络模型的时候,感受野也是很重要的因素,它能够影响模型的准确性和鲁棒性。感受野的计算公式为:()1111*kkkkiillfs==+(2-4)其中k1l是第k1层对应感受野的大小,kf是第k层的卷积层或池化层的核尺寸,iS是对应的stride的大校如图2-1所示,处于上边的高层的橘黄色特征图的感受野等于7,而第二层绿色的感受野等于5。图2-1感受野示意图[22]2.1.2激活函数在多层神经网络中,激活函数就是存在于上层节点的输出和下层节点的输入之间具有一个函数关系。一般激活函数使用非线性函数,这样可以令神经网络模型具有更好的表达能力和学习能力。如果神经网络模型中不用激活函数的话,每一层的输入都是上一层的线性输出,就相当于最原始的感知机了。比较常用的激活函数有sigmoid函数,tanh函数,Relu函数,LeakyRelu函数等等。
【参考文献】:
期刊论文
[1]增强尺度估计的特征压缩跟踪算法[J]. 徐康,龙敏. 红外技术. 2018(12)
[2]基于卷积神经网络的复杂构件内部零件装配正确性识别[J]. 赵耀霞,吴桐,韩焱. 电子学报. 2018(08)
[3]基于点轨迹的核相关滤波器跟踪算法[J]. 吕韵秋,刘凯,程飞. 通信学报. 2018(06)
本文编号:3317822
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
YOLOv1模型[1]
gionproposal,从卷积神经网络中提取出同样大小的特征图。并且对损失函数进行了改进,采用了多任务损失函数。将目标检测边框的回归,直接加入到了卷积神经网络的训练里面。直接使用softmax替代SVM,实现了整个网络模型端到端的训练。如图1-2所示,将输入的待检测图像与感兴趣区域输入到全卷积网络中。每个RoI区域被池化为一个固定大小的特征图,再经过全连接层映射为特征向量。这个网络模型中的每一个RoI区域有两个输出向量,一个是softmax概率,另一个是每个类边界框回归偏移。并且这个网络架构可以进行端到端训练。图1-2FastR-CNN模型结构[8]
哈尔滨工业大学工程硕士学位论文-14-weights的参数量为:inFFCKbiases的参数量为:K总参数量为:inFFCK+K在卷积神经网络中还有感受野RF(ReceptiveField)的概念,它是CNN中每一层输出的特征图上的像素点在原始输入图片上映射的区域大校简单来说就是,特征图上的一个点对应的输入图上的区域大校在设计卷积神经网络模型的时候,感受野也是很重要的因素,它能够影响模型的准确性和鲁棒性。感受野的计算公式为:()1111*kkkkiillfs==+(2-4)其中k1l是第k1层对应感受野的大小,kf是第k层的卷积层或池化层的核尺寸,iS是对应的stride的大校如图2-1所示,处于上边的高层的橘黄色特征图的感受野等于7,而第二层绿色的感受野等于5。图2-1感受野示意图[22]2.1.2激活函数在多层神经网络中,激活函数就是存在于上层节点的输出和下层节点的输入之间具有一个函数关系。一般激活函数使用非线性函数,这样可以令神经网络模型具有更好的表达能力和学习能力。如果神经网络模型中不用激活函数的话,每一层的输入都是上一层的线性输出,就相当于最原始的感知机了。比较常用的激活函数有sigmoid函数,tanh函数,Relu函数,LeakyRelu函数等等。
【参考文献】:
期刊论文
[1]增强尺度估计的特征压缩跟踪算法[J]. 徐康,龙敏. 红外技术. 2018(12)
[2]基于卷积神经网络的复杂构件内部零件装配正确性识别[J]. 赵耀霞,吴桐,韩焱. 电子学报. 2018(08)
[3]基于点轨迹的核相关滤波器跟踪算法[J]. 吕韵秋,刘凯,程飞. 通信学报. 2018(06)
本文编号:3317822
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3317822.html