基于Hbase生物数据存储和DNA序列分析

发布时间：2017-05-19 14:15

本文关键词：基于Hbase生物数据存储和DNA序列分析，，由笔耕文化传播整理发布。

【摘要】：随着生物数据量指数增长,亟待解决的存储和处理生物数据问题比较突出,在建设生物数据库过程中,利用Hadoop平台,搭建Hbase存储模型,实现云存储生物数据,并利用其它学科知识对序列数据进行分析。本文针对在建设生物数据库过程中,生物数据量呈现指数增长,生物大数据处理的问题,利用Hadoop平台下的Hbase数据库存储生物数据。首先,本文选择UML类图表示基因组数据和GenBank文件数据类图模型,设计出基于Hbase数据库模式的基因组数据和GenBank文件数据的存储模式,特别是对序列数据在Hbase上的存储模式进行了讨论。利用存储在Hbase数据库下的DNA序列模式,进行序列比对分析,提出最佳选择比对的短序列,并提出相应函数,给出相应函数的代表意义和利用价值,在一定程度上在本文提出的存储模式上提高序列比对的效率。本文利用非线性学科中的相空间知识,利用相空间构造不同序列的图形,在构造过程中,利用K-words和本文提出的指数,计算出最小K值获得最短序列来区分不同序列,最后利用相空间技术,把序列映射到图形上,从图形上观察序列之间的差异。本文利用非线性学科中的随机漫步知识和分形知识,计算出不同DNA分子序列映射后的数字序列的随机漫步图形,并比较不同DNA数字序列的不同,计算赫斯特指数,在分阶段上求出两个赫斯特指数,把结果映射到二维空间上,并比较不同物种之间的区别。
【关键词】：生物数据库 Hadoop Hbase 相空间 赫斯特指数
【学位授予单位】：广西大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：Q811.4;TP311.13
【目录】：

摘要4-5
ABSTRACT5-9
第一章绪论9-13
1.1 研究背景9
1.2 国内外研究现状9-10
1.3 本文的主要工作10-11
1.4 本文的组织结构11-13
第二章相关知识13-19
2.1 引言13
2.2 相关概念13-17
2.2.1 Hadoop及Hbase平台介绍13-15
2.2.2 生物数据15-16
2.2.3 生物数据库16-17
2.3 存在的不足17
2.4 本章小结17-19
第三章生物数据库建设及序列存储模式应用19-32
3.1 引言19
3.2 HBASE介绍19-20
3.3 生物数据类图模型及HBASE表结构设计20-26
3.4 生物序列数据比对26-31
3.4.1 Overlapping模式应用27-28
3.4.2 Non-overlapping存储模式应用28-29
3.4.3 窗口大小为1的讨论29-31
3.5 小结31-32
第四章相空间与DNA序列分析32-39
4.1 引言32
4.2 相空间介绍32
4.3 K-WORDS介绍32-33
4.4 结果和讨论33-38
4.5 小结38-39
第五章分形与DNA序列分析39-47
5.1 引言39
5.2 数据和映射规则39-40
5.3 计算方法40-41
5.4 结果与讨论41-46
5.5 小结46-47
第六章总结和展望47-49
6.1 总结47-48
6.2 展望48-49
参考文献49-56
致谢56-57
攻读硕士学位期刊参与科研项目57-58
攻读硕士学位期间发表的学术论文58

【参考文献】

中国硕士学位论文全文数据库前1条

1 刘燕兵;串匹配算法优化技术研究[D];中国科学院研究生院（计算技术研究所）;2006年

本文关键词：基于Hbase生物数据存储和DNA序列分析，由笔耕文化传播整理发布。

本文编号：378916

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/yixuelunwen/swyx/378916.html

上一篇：无机材料的仿生合成
下一篇：基于全局LBF水平集模型的脑血管层次粗分割

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|