一种基于GPU的高性能稀疏卷积神经网络优化

发布时间：2024-05-27 05:57

　　卷积神经网络CNN目前作为神经网络的一个重要分支,相比于其他神经网络方法更适合应用于图像特征的学习和表达。随着CNN的不断发展,CNN将面临更多的挑战。CNN参数规模变得越来越大,这使得CNN对计算的需求量变得非常大。因此,目前产生了许多种方式对CNN的规模进行压缩。然而压缩后的CNN模型往往产生了许多稀疏的数据结构,这种稀疏结构会影响CNN在GPU上的性能。为了解决该问题,采用直接稀疏卷积算法,来加速GPU处理稀疏数据。根据其算法特点将卷积运算转换为稀疏向量与稠密向量内积运算,并将其在GPU平台上实现。本文的优化方案充分利用数据稀疏性和网络结构来分配线程进行任务调度,利用数据局部性来管理内存替换,使得在稀疏卷积神经网络SCNN中的GPU仍能够高效地处理卷积层运算。相比cuBLAS的实现,在AlexNet、GoogleNet、ResNet上的性能提升分别达到1.07×～1.23×、1.17×～3.51×、1.32×～5.00×的加速比。相比cuSPARSE的实现,在AlexNet、GoogleNet、ResNet上的性能提升分别达到1.31×～1.42×、1.09×～2.00×、1.0...

【文章页数】：9 页

【部分图文】：

图１降维展开方式实现卷积运算Ｆｉｇｕｒｅ１Ｌｏｗｅｒｉｎｇｍｅｔｈｏｄｐｅｒｆｏｒｍｓｃｏｎｖｏｌｕｔｉｏｎｏｐｅｒａｔｉｏｎ

Ｆｉｇｕｒｅ１Ｌｏｗｅｒｉｎｇｍｅｔｈｏｄｐｅｒｆｏｒｍｓｃｏｎｖｏｌｕｔｉｏｎｏｐｅｒａｔｉｏｎ图１降维展开方式实现卷积运算Ｔａｂｌｅ１Ｄｅｓｃｒｉｐｔｉｏｎｏｆｃｏｎｖｏｌｕｔｉｏｎｐａｒａｍｅｔｅｒｓ表１卷积参数描述参数描述Ｎ三维输入特征矩阵批处理任务的ｂａｔｃｈｓｉｚｅＭ....

图２直接稀疏卷积Ｆｉｇｕｒｅ２Ｄｉｒｅｃｔｓｐａｒｓｅｃｏｎｖｏｌｕｔｉｏｎ

接稀疏卷积去除了输入特征矩阵中的数据重复复制。该算法将卷积核矩阵的规模扩展到输入矩阵的相同大小。对于延展后的卷积核行展开生成向量Ｗｍ，其长度为Ｃ×Ｈ×Ｗ。由于有Ｍ个卷积核，对每一个卷积核进行延展后得到了Ｍ×（Ｃ×Ｈ×Ｗ）的权重矩阵。对于该批次任务下的输入矩阵以行展开的方式形成列向....

图３行压缩存储格式Ｆｉｇｕｒｅ３ＣＳＲｆｏｒｍａｔ

Ｆｉｇｕｒｅ３ＣＳＲｆｏｒｍａｔ图３行压缩存储格式的行列指针。相比降维方式，直接稀疏卷积更适合在ＧＰＵ上实现ＳＣＮＮ。３设计与实现本节介绍本文所提方法的具体实现和优化。由于权重删减后ＳＣＮＮ产生了大量稀疏数据结构，而传统的降维方式并不能保证稀疏矩阵卷积的计算性能，本文采用全新的直....

图４权重延展Ｆｉｇｕｒｅ４Ｗｅｉｇｈｔｓｔｒｅｔｃｈｅｄ

的降维方式并不能保证稀疏矩阵卷积的计算性能，本文采用全新的直接稀疏卷积来替代降维方式，弥补性能损失。除此以外，ＧＰＵ的体系结构特征需要在实现过程中对线程映射、任务分配以及内存管理进行更多的考虑和优化。３．１概述直接稀疏卷积的实现主要由两部分组成：（１）数据预处理，主要完成对卷积核....

本文编号：3982862

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3982862.html

上一篇：基于众包的课程知识图谱纠错补全研究及系统实现
下一篇：基于深度学习的磁片表面缺陷检测研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|