当前位置:主页 > 科技论文 > 软件论文 >

基于OpenCL的Viola-Jones人脸检测算法性能优化研究

发布时间:2018-09-12 17:05
【摘要】:Viola-Jones人脸检测算法是最为成功的可实用的人脸检测算法之一.然而,随着该算法所在领域数据处理规模的不断扩大,现有算法的性能已经越来越无法满足日益增长的交互性与实时性要求.使用GPU计算平台提升该算法性能,以满足日益增长的实时性要求已经成为研究热点.然而,该算法在对GPU的实现和优化中,存在线程间负载不均衡的非规则特性,如果仅使用传统的优化方法,则难以在GPU计算平台上达到较高性能.针对此种情况,该文构建了针对此类算法的并行优化框架,通过Uberkernel、粗粒度并行、Persistent Thread、线程与数据的动态映射、全局及本地队列等优化方法的应用,突破了负载不均衡非规则特性导致的性能瓶颈,大幅提高了人脸检测算法在GPU计算平台上的性能.同时,该文通过对不同GPU计算平台关键性能参数的定义、抽取和传递,实现了该算法在不同GPU计算平台间的性能移植.实验结果表明,与OpenCV2.4中经过高度优化的CPU版本在Intel Xeon X5550CPU上的性能相比,优化后的算法在AMD HD7970和NVIDIA GTX680两个不同GPU计算平台上分别达到了11.24~20.27和9.24~17.62倍的加速比,不仅实现了高性能,而且实现了在不同GPU计算平台间的性能移植.
[Abstract]:Viola-Jones face detection algorithm is one of the most successful and practical face detection algorithms. However, with the expansion of data processing scale in the field of the algorithm, the performance of existing algorithms has become more and more unable to meet the increasing requirements of interactivity and real-time. Using GPU computing platform to improve the performance of the algorithm to meet the growing real-time requirements has become a research hotspot. However, in the implementation and optimization of GPU, the algorithm has the irregular property of load imbalance between threads. If only traditional optimization methods are used, it is difficult to achieve high performance on GPU computing platform. In this paper, a parallel optimization framework for this kind of algorithm is constructed, and the application of optimization methods such as dynamic mapping of Uberkernel, coarse-grained parallel persistent Thread, threads and data, global and local queues, etc. It breaks through the performance bottleneck caused by the irregular characteristics of load imbalance and greatly improves the performance of face detection algorithm on GPU computing platform. At the same time, by defining, extracting and transferring the key performance parameters of different GPU computing platforms, this paper realizes the performance migration between different GPU computing platforms. The experimental results show that compared with the highly optimized CPU version of OpenCV2.4 on Intel Xeon X5550CPU, the optimized algorithm achieves a speedup ratio of 11.24% 20.27 and 9.24N 17.62 times on two different GPU platforms, AMD HD7970 and NVIDIA GTX680, respectively. The proposed algorithm not only achieves high performance, but also achieves high performance. Moreover, the performance migration between different GPU computing platforms is realized.
【作者单位】: 中国科学院计算技术研究所计算机体系结构国家重点实验室;
【基金】:国家自然科学基金(61133005,61272136,61521092,61402441)资助~~
【分类号】:TP391.41

【相似文献】

相关期刊论文 前10条

1 赵东方;杨明;邓世涛;;几种人脸检测算法的对比研究[J];内江科技;2011年10期

2 王仕民;叶继华;罗文兵;占明艳;;嵌入式人脸检测算法的研究与实现[J];江西通信科技;2011年02期

3 金鑫;李晋惠;;基于神经网络的人脸检测算法研究[J];科技信息;2008年35期

4 翟懿奎;黄聿;谢剑华;吴志龙;郭承刚;;基于肤色的实时人脸检测算法研究[J];电子设计工程;2011年09期

5 王小兰;蔡灿辉;朱建清;;一种改进的快速人脸检测算法[J];微型机与应用;2013年15期

6 张炜;耿新;陈兆乾;陈世福;;一种基于可疑人脸区域发现的人脸检测方法[J];计算机科学;2004年04期

7 罗三定;周磊;沙莎;;一种新的快速多人脸检测算法[J];计算机应用研究;2008年04期

8 乔晓芳;吴小俊;王士同;杨静宇;;一种改进的人脸检测算法[J];计算机应用;2008年04期

9 徐显日;;视频中实时的人脸检测算法[J];福建电脑;2012年08期

10 崔晓琳;蔡灿辉;朱建清;;一种基于肤色后置滤波的快速人脸检测算法[J];通信技术;2013年08期

相关会议论文 前1条

1 付朝霞;韩焱;王黎明;;复杂背景下视频运动目标的人脸检测算法[A];第十三届中国体视学与图像分析学术会议论文集[C];2013年

相关博士学位论文 前2条

1 周薇娜;人脸检测算法及其芯片实现关键技术研究[D];复旦大学;2012年

2 郭耸;人脸检测若干关键技术研究[D];哈尔滨工程大学;2011年

相关硕士学位论文 前10条

1 宁勇敢;不合作条件下人脸检测算法研究[D];辽宁工业大学;2016年

2 刘吉;基于自学习特征融合的人脸检测算法研究[D];中国海洋大学;2015年

3 马慧;人脸检测算法的设计与实现[D];东南大学;2015年

4 朱晓峰;快速人脸检测算法的改进策略及在视频中的应用[D];复旦大学;2009年

5 邵晓刚;基于矩阵灰色B型绝对关联度的人脸检测算法研究[D];东北师范大学;2012年

6 周彩霞;基于准端正人脸检测算法的研究[D];国防科学技术大学;2004年

7 李琦;人脸检测算法研究及其在视频中的应用[D];西安电子科技大学;2005年

8 杨宏梅;人脸检测算法的研究与实现[D];兰州理工大学;2009年

9 王爱国;嵌入式系统中彩色人脸检测算法的研究[D];中国石油大学;2011年

10 胡晓燕;基于肤色的人脸检测算法的研究[D];四川大学;2004年



本文编号:2239656

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2239656.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fafa3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com