当前位置:主页 > 管理论文 > 工程管理论文 >

高性能计算中作业调度技术与集群管理系统的研究

发布时间:2017-06-07 19:12

  本文关键词:高性能计算中作业调度技术与集群管理系统的研究,由笔耕文化传播整理发布。


【摘要】:计算科学从诞生以来,已经在科学研究、工程技术以及军事等方面取得了巨大的成就。在计算科学的发展过程中,高性能计算技术凭借其易用性、灵活性和平台无关性等特点,在国内外广受关注。同时,高性能计算也是许多计算学科的工具基础,正因如此,高性能计算中常用的集群技术正愈发受到各科研部门的重视和关注。集群管理系统主要包括了资源管理、作业管理和用户管理,本文主要从高性能计算的起源、发展趋势以及相比大型机的优势所在等方面阐述高性能计算中资源管理、作业管理和用户管理的研究成果。本文主要的工作如下:1、介绍了集群硬件架构的发展过程,分析了Linux高性能集群系统平台的构成,阐述了集群中各硬件节点以及所用网络的功能,同时对集群中软件架构进行了分析;2、以资源管理器Torque与作业调度器Maui组合为基础,结合监控软件Ganglia,给出利用Python语言在Django框架下开发集群系统管理软件CCLAB的过程。3、分析了CCLAB中“作业调度”、“集群用户”和“集群监控”三个Portlet的设计开发过程,给出了CCLAB中URL的设计过程,并分析了文中采用的GPFS并行文件系统、消息传递接口(MPI)技术以及集群远程电源管理的工作原理;4、分析了作业调度的分类和过程,根据作业调度器Maui调度作业的方式对作业调度进行数学模型抽象,通过有向无环图(DAG图)解释调度过程。在分析了常用的FCFS策略、优先级调度策略、Firstfit策略、Bestfit策、预约策略和回填策略优缺点的基础上,改进并分析了一种基于节点负载情况自定义优先级预约回填的策略(“BLPRB”策略),拓展了单、双策略的研究,并对其实现节点负载评估、作业优先级确定和预约资源以及回填作业的过程进行详细分析,给出“BLPRB”策略确定预约作业最迟执行时间和解决大作业饥饿问题的算法理论分析,最后将该策略集成到Maui调度器中。在搭建的高性能计算平台上进行验证分析,结果表明BLPRB策略相比Firstfit和FCFS,作业最大响应时间最大减幅达到26.17%和25.99%,吞吐率最大提升达到54.55%和30.77%,对比Firstfit策略和FCFS策略,BLPRB策略在平均等待时间上的最大降幅分别为35.22%和60.58%。测试结果表明BLPRB策略一定程度上提高了集群的系统利用率和吞吐率。文中开发的CCLAB大大降低了集群管理员的负担,有一定的实际价值,改进后的新型作业调度策略能在一定程度上提升集群资源的利用率。
【关键词】:作业调度 Torque 自定义优先级 回填策略 BLPRB策略
【学位授予单位】:江苏科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TB497
【目录】:
  • 摘要6-7
  • Abstract7-15
  • 第1章 绪论15-25
  • 1.1 课题研究的背景及意义15-17
  • 1.2 国内外研究现状和发展趋势17-22
  • 1.2.1 集群管理系统的研究现状与发展趋势17-19
  • 1.2.2 作业调度策略的研究现状与发展趋势19-22
  • 1.3 本文的主要研究工作及主要章节安排22-24
  • 1.3.1 本文的主要研究工作22-23
  • 1.3.2 主要章节安排23-24
  • 1.4 本章小结24-25
  • 第2章 高性能计算集群的体系架构25-35
  • 2.1 集群系统概述25-28
  • 2.2 Linux高性能集群系统28
  • 2.2.1 Beowulf集群28
  • 2.2.2 COW集群28
  • 2.3 Linux高性能集群系统平台的构成28-32
  • 2.3.1 Linux高性能集群系统硬件构成29-31
  • 2.3.2 Linux高性能集群系统软件构成31-32
  • 2.4 典型Linux高性能集群拓扑图32-33
  • 2.5 本章小结33-35
  • 第3章 基于Web的高性能计算集群管理系统35-59
  • 3.1 集群管理系统中作业调度系统的选取35-36
  • 3.1.1 CONDOR35-36
  • 3.1.2 Platform LSF (Load Sharing Facility)36
  • 3.1.3 PBS(Portable Batch System)36
  • 3.1.4 Torque(Terascale Open-source Resource and QUEue manager)36
  • 3.2 集群管理系统Web服务网格门户技术36-41
  • 3.2.1 第一代集群管理系统门户37-38
  • 3.2.2 第二代集群管理系统门户38-41
  • 3.3 集群监控工具Ganglia的架构及工作原理41-43
  • 3.3.1 Ganglia基本架构41
  • 3.3.2 gmond的工作原理41-42
  • 3.3.3 gmetad、RRDTool和gweb的工作原理42-43
  • 3.4 集群管理系统所用到的主要技术43-53
  • 3.4.1 Django架构44-48
  • 3.4.2 并行文件系统技术48-50
  • 3.4.3 消息传递接. MPI技术50-51
  • 3.4.4 集群远程电源管理51-53
  • 3.5 CCLAB各模块工作状态显示53-57
  • 3.5.1 登录验证模块53
  • 3.5.2 作业调度模块53-54
  • 3.5.3 集群用户操作模块54-55
  • 3.5.4 CCLAB中集群系统监控模块55-57
  • 3.6 本章小结57-59
  • 第4章 基于节点负载情况自定义优先级预约回填策略的设计59-77
  • 4.1 作业调度分类及过程59-60
  • 4.2 Torque的体系架构60-62
  • 4.2.1 Torque的工作原理61
  • 4.2.2 Torque处理批作业的过程61-62
  • 4.3 Torque默认的调度器62-63
  • 4.4 集成调度器Maui63
  • 4.5 基于节点负载情况自定义优先级预约回填策略63-74
  • 4.5.1 作业调度的数学抽象模型63-65
  • 4.5.2 常用作业选取策略分析65-66
  • 4.5.3 基于节点负载情况自定义优先级预约回填策略的分析66-74
  • 4.6 BLPRB策略的算法理论分析74-75
  • 4.6.1 BLPRB策略能够确定预约作业进入运行阶段的最迟时间75
  • 4.6.2 BLPRB策略可以解决大作业的饥饿问题75
  • 4.7 本章小结75-77
  • 第5章 BLPRB策略模拟实验及性能分析77-87
  • 5.1 搭建集群环境77-79
  • 5.1.1 硬件环境77
  • 5.1.2 软件环境77-78
  • 5.1.3 集群硬件拓扑图78
  • 5.1.4 集群实际上架图78-79
  • 5.2 衡量作业调度性能的指标79-80
  • 5.3 实验结果分析80-85
  • 5.3.1 测试所用作业集的选取80-81
  • 5.3.2 作业的编译与提交81-82
  • 5.3.3 测试结果分析82-85
  • 5.4 本章小结85-87
  • 第6章 总结与展望87-89
  • 6.1 全文小结87-88
  • 6.2 未来展望88-89
  • 参考文献89-93
  • 攻读硕士学位期间发表的学术论文93-95
  • 致谢95

【参考文献】

中国期刊全文数据库 前1条

1 童端,董小社,李纪云,刘广红;基于OpenPBS的机群作业管理系统的设计与实现[J];计算机工程与应用;2004年13期

中国硕士学位论文全文数据库 前1条

1 韩鹏;并行环境下动态负载平衡方法的研究与实现[D];东北大学;2010年


  本文关键词:高性能计算中作业调度技术与集群管理系统的研究,由笔耕文化传播整理发布。



本文编号:430034

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/gongchengguanli/430034.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ce997***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com