基于Hbase生物数据存储和DNA序列分析
					发布时间:2017-05-19 14:15
				
				
				
				
				本文关键词:基于Hbase生物数据存储和DNA序列分析,,由笔耕文化传播整理发布。
【摘要】:随着生物数据量指数增长,亟待解决的存储和处理生物数据问题比较突出,在建设生物数据库过程中,利用Hadoop平台,搭建Hbase存储模型,实现云存储生物数据,并利用其它学科知识对序列数据进行分析。本文针对在建设生物数据库过程中,生物数据量呈现指数增长,生物大数据处理的问题,利用Hadoop平台下的Hbase数据库存储生物数据。首先,本文选择UML类图表示基因组数据和GenBank文件数据类图模型,设计出基于Hbase数据库模式的基因组数据和GenBank文件数据的存储模式,特别是对序列数据在Hbase上的存储模式进行了讨论。利用存储在Hbase数据库下的DNA序列模式,进行序列比对分析,提出最佳选择比对的短序列,并提出相应函数,给出相应函数的代表意义和利用价值,在一定程度上在本文提出的存储模式上提高序列比对的效率。本文利用非线性学科中的相空间知识,利用相空间构造不同序列的图形,在构造过程中,利用K-words和本文提出的指数,计算出最小K值获得最短序列来区分不同序列,最后利用相空间技术,把序列映射到图形上,从图形上观察序列之间的差异。本文利用非线性学科中的随机漫步知识和分形知识,计算出不同DNA分子序列映射后的数字序列的随机漫步图形,并比较不同DNA数字序列的不同,计算赫斯特指数,在分阶段上求出两个赫斯特指数,把结果映射到二维空间上,并比较不同物种之间的区别。
【关键词】:生物数据库 Hadoop Hbase 相空间 赫斯特指数
【学位授予单位】:广西大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:Q811.4;TP311.13
【目录】:
- 摘要4-5
 - ABSTRACT5-9
 - 第一章 绪论9-13
 - 1.1 研究背景9
 - 1.2 国内外研究现状9-10
 - 1.3 本文的主要工作10-11
 - 1.4 本文的组织结构11-13
 - 第二章 相关知识13-19
 - 2.1 引言13
 - 2.2 相关概念13-17
 - 2.2.1 Hadoop及Hbase平台介绍13-15
 - 2.2.2 生物数据15-16
 - 2.2.3 生物数据库16-17
 - 2.3 存在的不足17
 - 2.4 本章小结17-19
 - 第三章 生物数据库建设及序列存储模式应用19-32
 - 3.1 引言19
 - 3.2 HBASE介绍19-20
 - 3.3 生物数据类图模型及HBASE表结构设计20-26
 - 3.4 生物序列数据比对26-31
 - 3.4.1 Overlapping模式应用27-28
 - 3.4.2 Non-overlapping存储模式应用28-29
 - 3.4.3 窗口大小为1的讨论29-31
 - 3.5 小结31-32
 - 第四章 相空间与DNA序列分析32-39
 - 4.1 引言32
 - 4.2 相空间介绍32
 - 4.3 K-WORDS介绍32-33
 - 4.4 结果和讨论33-38
 - 4.5 小结38-39
 - 第五章 分形与DNA序列分析39-47
 - 5.1 引言39
 - 5.2 数据和映射规则39-40
 - 5.3 计算方法40-41
 - 5.4 结果与讨论41-46
 - 5.5 小结46-47
 - 第六章 总结和展望47-49
 - 6.1 总结47-48
 - 6.2 展望48-49
 - 参考文献49-56
 - 致谢56-57
 - 攻读硕士学位期刊参与科研项目57-58
 - 攻读硕士学位期间发表的学术论文58
 
【参考文献】
中国硕士学位论文全文数据库 前1条
1 刘燕兵;串匹配算法优化技术研究[D];中国科学院研究生院(计算技术研究所);2006年
本文关键词:基于Hbase生物数据存储和DNA序列分析,由笔耕文化传播整理发布。
本文编号:378916
本文链接:https://www.wllwen.com/yixuelunwen/swyx/378916.html

