当前位置:主页 > 管理论文 > 社区管理论文 >

分布式数据处理若干关键技术研究

发布时间:2021-08-02 09:23
  随着信息技术的飞速发展,各类信息源和数据在当今世界的各个领域被广泛应用,人类社会进入了大数据时代,但大规模数据的持续产生,其格式和类型也呈现多样化趋势。如何快速、高效地实现大数据处理已经成为当前的研究热点及难点。以分布式数据处理为基础,针对大规模数据分析与处理,本文从四个方面探索并形成面向新型体系结构的分布式数据处理与存储技术:(1)基于国产“神威(Sunway)·太湖之光”众核处理器,本文研究与实现了一个分布式数据并行计算框架SunwayMR,可利用分布式服务器资源,加速数据处理与分析;(2)本文提出一种构建分布式数据并行计算框架的软件构建技术,用以加快此类软件开发进程;(3)充分利用RDMA(Remote Direct Memory Access,远程直接内存访问)和HTM(Hardware Transaction Memory,硬件事务内存)技术,本文提出一个可运用于分布式环境的、键值对数据存储系统RHKV,加速数据的“存”和“取”操作,可支撑上层数据密集型应用计算;(4)针对社会关键信息基础设施的智慧信息系统建设,本文提出可提供个性化服务的分布式数据处理与分析解决方案EDAWS... 

【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校

【文章页数】:154 页

【学位级别】:博士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 课题提出的背景及意义
    1.2 研究目标与几个主要研究问题
    1.3 课题的研究内容和创新点
    1.4 论文的结构安排
    1.5 本章小结
第二章 研究现状与相关技术
    2.1 引言
    2.2 分布式数据并行计算框架的研究现状
        2.2.1 高性能计算机的发展
        2.2.2 商业化的计算加速器正在不断扩展它的应用
        2.2.3 "神威·太湖之光"并行计算机
        2.2.4 现今流行的通用分布式数据并行计算框架
    2.3 分布式数据并行计算框架软件构建技术相关研究
        2.3.1 模型驱动工程技术与分布式数据并行计算框架软件构建
        2.3.2 架构模型和自适应变化
    2.4 面向大数据应用的键值对数据存储系统技术
        2.4.1 非关系型NoSQL数据存储
        2.4.2 基于RDMA的键值对数据存储管理
        2.4.3 客户端—服务器端C/S模式
        2.4.4 数据库理论
    2.5 在分布式环境下的大数据服务
        2.5.1 多领域数据分析与知识挖掘
        2.5.2 分布式大数据服务
        2.5.3 社会关键信息基础设施的数据处理
    2.6 本章小结
第三章 SunwayMR:面向神威机器的分布式数据密集型并行计算框架
    3.1 研究背景与研究动机:“神威·太湖之光”并行计算机的诞生
    3.2 SunwayMR框架概述
    3.3 SunwayMR系统架构详细设计
        3.3.1 分布式内存数据管理机制
        3.3.2 Pthread编程
        3.3.3 任务、调度器、执行器和框架上下文
        3.3.4 数据处理机制
        3.3.5 粗细粒度并行
        3.3.6 SunwayMRHelper消息通讯组件
        3.3.7 神威体系结构众核(1 主核+64 从核)并行设计
    3.4 系统优化机制设计
    3.5 易用性
        3.5.1 层级软件架构
        3.5.2 学习案例:Pi值计算和PageRank算法编程示例
    3.6 实验
        3.6.1 实验设置
        3.6.2 性能评估
        3.6.3 系统优化评估
        3.6.4 国家超算无锡中心国产众核平台系统运行测试
        3.6.5 计算加速原因分析
        3.6.6 SunwayMR特性
    3.7 本章小结
第四章 自适应的分布式数据并行计算框架软件构建技术
    4.1 引言
    4.2 研究背景与研究动机
        4.2.1 分布式数据并行计算框架软件构建的挑战
        4.2.2 领域建模的复杂性与难度
    4.3 自适应的软件构建
        4.3.1 总体流程
        4.3.2 步骤一:参考性的架构建模描述
        4.3.3 步骤二:集成动态行为分析到架构模型
        4.3.4 步骤三:架构建模自适应规约
    4.4 学习案例:SunwayMR软件构建实践
        4.4.1 解决的研究问题RQs
        4.4.2 RQ1:软件构建过程
        4.4.3 RQ2:自适应讨论
        4.4.4 RQ3:软件构建优化
        4.4.5 RQ4:软件构建技术对比评估
        4.4.6 RQ5:有效性分析
    4.5 讨论
        4.5.1 维护现今主流的分布式并行计算框架
        4.5.2 评估正确性与有效性风险
    4.6 本章小结
第五章 RHKV:基于RDMA和 HTM的 Key-Value键值对数据存储管理
    5.1 引言
    5.2 背景知识
    5.3 RHKV概述
    5.4 RHKV详细设计
        5.4.1 RHKV架构设计
        5.4.2 哈希表间无限kick-out循环问题分析
        5.4.3 改进型G-Cuckoo哈希数据管理模式
        5.4.4 RHKV的 RDMA网络通信引擎
        5.4.5 与哈希表的信息交互
        5.4.6 HTM感知的强原子性保障
        5.4.7 寻求空闲位置并预测G-Cuckoo中数据条目的无限kick-out循环
        5.4.8 一致性机制优化
        5.4.9 数据访问执行协议
    5.5 关键实现和软件接口
    5.6 分布式C/S模式环境下的RHKV性能分析
        5.6.1 实验设置
        5.6.2 吞吐量提升和访问延迟减少情况
        5.6.3 与其他基于RDMA的键值对数据存储系统的性能对比
        5.6.4 负载偏差的抵抗力
        5.6.5 空间扩大情况
        5.6.6 数据一致性机制评估
    5.7 RHKV数据密集型应用场景举例
    5.8 本章小结
第六章 EDAWS:社会关键信息基础设施分布式环境数据管理及大数据服务解决方案
    6.1 引言
    6.2 研究动机:社会关键信息基础设施建设举例
    6.3 分布式数据集成与融合系统
    6.4 服务器端信息处理管理
        6.4.1 原生信息获取与抽取
        6.4.2 信息处理与索引库构建
        6.4.3 分布式系统并行索引构建
        6.4.4 用户感兴趣的大数据服务挖掘
        6.4.5 在分布式环境下处理并发请求的原理
    6.5 大数据服务信息交互
        6.5.1 信息交互管理
        6.5.2 并发请求处理与资源请求限制的理论分析
    6.6 一些关键实现细节
    6.7 真实场景案例学习:智慧社区信息系统建设
    6.8 实验评估
        6.8.1 原型系统示例
        6.8.2 实验环境与设计
        6.8.3 实验结果与分析
    6.9 本章小结
第七章 结论与展望
    7.1 研究工作总结
    7.2 未来展望
参考文献
简历
致谢
攻读博士学位期间参加的科研项目
攻读博士学位期间学术论文等科研成果目录



本文编号:3317315

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/shequguanli/3317315.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0bfbc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com