Spark下MPI/GPU并行计算处理机制的研究

发布时间：2025-07-14 17:19

　　随着信息科学技术的发展,大规模海量数据应运而生,针对海量数据的传输和计算,单节点的计算能力和存储能力成为了数据处理的瓶颈,越来越多有价值的数据难以被单一的机器使用。鉴于集群具有的超级计算能力和廉价的成本优势,使得大规模机器学习和科学计算等的高性能计算得以向前迈进。与此同时,现代图形处理单元与多核心架构已经成为通用并行计算平台,可以极大地加快科学应用。同时拥有万亿次峰值计算能力的多GPU工作站可加速计算和处理海量数据。如今并行计算如火如荼,有传统的基于网格和硬盘的计算方式,还有现在流行的基于HDFS和内存的计算方式。由于传统的并行编程模型的局限性,也对新的并行编程框架提出了更高的要求。Hadoop Mapreduce是一种目前最为流行的开源分布式计算框架,它支持TB以上级别数据处理,广泛应用于由上千上万个商用机器组成的大型集群上。然而由于Mapreduce多次从文件系统读取同一数据,导致磁盘I/O访问速度缓慢。正是在节省成本和实现系统可扩展性需求的催化下,Spark的概念应运而生,且被认为是解决目前大规模数据存储和处理的较好的方案。美国加州大学伯克利分校AMP实验室研发了Spark框架,针...

【文章页数】：62 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
1 绪论
    1.1 课题研究的背景
    1.2 国内外研究现状
    1.3 本文的主要工作及其贡献
    1.4 本文组织结构
2 Spark、MPI和CUDA关键技术介绍
    2.1 Yarn资源管理系统
    2.2 Spark计算框架
        2.2.1 Spark概述
        2.2.2 Spark核心技术RDD
        2.2.3 Spark分布式部署模式
    2.3 MPI概述
        2.3.1 MPI背景
        2.3.2 MPI存储方式和并行编程模型
    2.4 GPU概述
    2.5 本章小结
3 Spark下MPI/GPU并行计算处理机制的设计
    3.1 Spark任务调度
        3.1.1 Spark任务调度概述
        3.1.2 Spark任务调度算法
    3.2 MPI/GPU并行计算处理机制的设计
        3.2.1 MPI/GPU并行计算简介
        3.2.2 MPI/GPU并行计算架构
    3.3 本章小结
4 Spark下MPI/GPU并行计算处理机制的实现
    4.1 MPI/GPU并行计算的处理流程
    4.2 MPI/GPU并行计算任务调度
        4.2.1 Spark下MPI任务调度模式
        4.2.2 Spark下GPU任务调度模式
    4.3 Spark下MPI/GPU任务调度模式
    4.4 本章小结
5 实验与评价
    5.1 实验环境安装
    5.2 Spark集群管理
    5.3 实验任务
        5.3.1 MPI节点和任务描述
        5.3.2 GPU节点和任务描述
    5.4 实验结果与分析
    5.5 本章小结
6 总结与展望
参考文献
附录
    A：Spark中GPU环境配置方案
    B：Spark集群搭建
    C：MPI集群搭建
致谢
个人简历

本文编号：4057370

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/4057370.html

上一篇：计算机类专业建设与发展对大学生生存型创业转型的影响
下一篇：没有了

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|