当前位置:主页 > 科技论文 > 自动化论文 >

一种基于GPU的高性能稀疏卷积神经网络优化

发布时间:2024-05-27 05:57
  卷积神经网络CNN目前作为神经网络的一个重要分支,相比于其他神经网络方法更适合应用于图像特征的学习和表达。随着CNN的不断发展,CNN将面临更多的挑战。CNN参数规模变得越来越大,这使得CNN对计算的需求量变得非常大。因此,目前产生了许多种方式对CNN的规模进行压缩。然而压缩后的CNN模型往往产生了许多稀疏的数据结构,这种稀疏结构会影响CNN在GPU上的性能。为了解决该问题,采用直接稀疏卷积算法,来加速GPU处理稀疏数据。根据其算法特点将卷积运算转换为稀疏向量与稠密向量内积运算,并将其在GPU平台上实现。本文的优化方案充分利用数据稀疏性和网络结构来分配线程进行任务调度,利用数据局部性来管理内存替换,使得在稀疏卷积神经网络SCNN中的GPU仍能够高效地处理卷积层运算。相比cuBLAS的实现,在AlexNet、GoogleNet、ResNet上的性能提升分别达到1.07×~1.23×、1.17×~3.51×、1.32×~5.00×的加速比。相比cuSPARSE的实现,在AlexNet、GoogleNet、ResNet上的性能提升分别达到1.31×~1.42×、1.09×~2.00×、1.0...

【文章页数】:9 页

【部分图文】:

图1降维展开方式实现卷积运算Figure1Loweringmethodperformsconvolutionoperation

图1降维展开方式实现卷积运算Figure1Loweringmethodperformsconvolutionoperation

Figure1Loweringmethodperformsconvolutionoperation图1降维展开方式实现卷积运算Table1Descriptionofconvolutionparameters表1卷积参数描述参数描述N三维输入特征矩阵批处理任务的batchsizeM....


图2直接稀疏卷积Figure2Directsparseconvolution

图2直接稀疏卷积Figure2Directsparseconvolution

接稀疏卷积去除了输入特征矩阵中的数据重复复制。该算法将卷积核矩阵的规模扩展到输入矩阵的相同大小。对于延展后的卷积核行展开生成向量Wm,其长度为C×H×W。由于有M个卷积核,对每一个卷积核进行延展后得到了M×(C×H×W)的权重矩阵。对于该批次任务下的输入矩阵以行展开的方式形成列向....


图3行压缩存储格式Figure3CSRformat

图3行压缩存储格式Figure3CSRformat

Figure3CSRformat图3行压缩存储格式的行列指针。相比降维方式,直接稀疏卷积更适合在GPU上实现SCNN。3设计与实现本节介绍本文所提方法的具体实现和优化。由于权重删减后SCNN产生了大量稀疏数据结构,而传统的降维方式并不能保证稀疏矩阵卷积的计算性能,本文采用全新的直....


图4权重延展Figure4Weightstretched

图4权重延展Figure4Weightstretched

的降维方式并不能保证稀疏矩阵卷积的计算性能,本文采用全新的直接稀疏卷积来替代降维方式,弥补性能损失。除此以外,GPU的体系结构特征需要在实现过程中对线程映射、任务分配以及内存管理进行更多的考虑和优化。3.1概述直接稀疏卷积的实现主要由两部分组成:(1)数据预处理,主要完成对卷积核....



本文编号:3982862

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3982862.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bbfd4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com