基于Hadoop平台的数据迁移系统的设计与实现

发布时间:2024-06-10 22:19
  随着各种新兴互联网技术的发展,数据体量呈现出指数型增长。数据的不断累积,使得企业现有业务平台面临着性能不足、资源花费过多等问题,已无法较好的满足高性能、高并发的需求。而大数据平台存储容量巨大且支持大规模数据的复杂计算,能够对数据进行更深层次的价值分析,因此把一些存在价值的历史数据迁移到大数据平台十分有必要,不仅可以缓解现有业务平台的生产压力,还可以发掘新的业务方向。本文结合某世界前五百强通信企业的实际需求,设计实现了一个将数据从Teradata数据库迁移至Hadoop平台并自动存储归档的数据迁移系统。本系统针对结构化和非结构化数据的特征,设计实施了两种不同的迁移方案,即基于MapReduce的结构化数据迁移和基于FTP方式的非结构化数据迁移。与现有迁移工具相比,本系统能够完成一些特定需求,例如按业务逻辑清洗数据、回传部分数据等,并且只需在迁移任务开始前配置好相关参数,便能够自动实现数据抽取、数据清洗、数据类型转换、数据校验、数据加载、数据回传等一系列流程。最后根据业务逻辑和调度周期的不同,选择不同的数据格式,存储在Hadoop平台不同的层级。经过测试,本系统各个功能满足预期设计目标,具...

【文章页数】:67 页

【学位级别】:硕士

【部分图文】:

图2-1数据迁移系统流程图(Teradata到Hadoop)??

图2-1数据迁移系统流程图(Teradata到Hadoop)??

?山东大学硕士学位论文???主要功能和流程如图2-1。??r ̄^?r ̄^????????????????>????Tijaia?-?数据抽取+数据溝洗—数賺数雛验?数据臓—?Hado叩??数据库?|丨?[__?1丨?平台???数鮰传???图2-1数据迁移系统流程图(Teradat....


图2-2系统业务架构图??本系统研究的重点是把Teradata中的部分数据迁移至Hadoop,需要特别注??意的是系统连接和文件读取

图2-2系统业务架构图??本系统研究的重点是把Teradata中的部分数据迁移至Hadoop,需要特别注??意的是系统连接和文件读取

?山东大学硕士学位论文???2.4系统业务流程分析??结合企业现有系统的实际情况,本系统的处理流程分为三个域:源数据域、??数据处理域、目标数据域,具体架构如图2-2所示。源数据域是指待迁移数据??所在的业务系统,在本文中具体是指Teradata数据库中的接口详单表、中间汇??总....


图3-2?MapReduce数据处理流程图??(1)?Ma阶段运行开始前,计算文件数量并进行分片,每个分片对应于一??

图3-2?MapReduce数据处理流程图??(1)?Ma阶段运行开始前,计算文件数量并进行分片,每个分片对应于一??

源。??3丄2?MapReduce数据处理流程??MapReduce是一种编程范式,使应用程序不需要进行复杂的分布式编程便??可以在分布式系统上执行。可以将MapReduce理解为根据某些特征对无序数据??进行归纳汇总,然后按需求进行处理以获得最终结果。Map阶段的任务主要是??....


图3-3?Hive数据仓库架构图??用户接口:最常见的用户接口是Cli,它通过命令行方式访问Hive,启动时会??在Hive中生成一个副本

图3-3?Hive数据仓库架构图??用户接口:最常见的用户接口是Cli,它通过命令行方式访问Hive,启动时会??在Hive中生成一个副本

?山东大学硕士学位论文???用户接口??(、Shell/CLI?j?I^IDBC客户端?j?l〇DB客户端^?(?WEI接口?^??\?'Zff?乂」??Thrift?服务器?Z??\?(?解析器?)?、/????(?编译器?)?、??(?^元数据库??(执行器)?^??w??J....



本文编号:3991981

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3991981.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户27756***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com