基于最大均值统计量的表达基因筛选
发布时间:2017-07-29 15:36
本文关键词:基于最大均值统计量的表达基因筛选
更多相关文章: 无信息变量删除 SOM 基因组 最大均值统计量
【摘要】:基因表达数据变量筛选是现代生物信息学研究的重点内容之一。由于基因表达数据变量具有高维数、小样本、高冗余等特性,目前没有一套比较系统的方法来筛选包含有显著性表达生物信息的基因。本文将聚类分析方法与构造检验统计量方法结合起来,筛选出控制样本类型的基因。文章中首先反复运用基于偏最小二乘法和蒙特卡罗法的无信息变量剔除法尽可能多地剔除冗余变量,选择两种方法筛选保留的基因的交集作为研究变量,然后对筛选出来的具有相关关系的基因变量进行白组织特征映射(SOM)聚类分析,并构造出相应的基因组;最后基于所构造的基因组,通过模拟数据试验选择了基因显著性分析方法(GSA),建立最大均值统计量进行统计分析,从而筛选出差异表达显著的基因组,并应用主成分投影方法(PCA)验证所筛选出的基因组对两类样本的分类效果。 本文研究中应用到的数据由来自某医院测试的4个正常样本和4个癌变样本中共45037个基因表达数据组成。从这45037个基因中筛选出1681个基因变量,然后采用SOM方法对这1681个基因聚类,构造出五十个基因组,并对这五十个基因组构造最大均值统计量,通过比较分析选出四组显著性表达的基因。这四组基因包括两组下调基因:Set17和Set5,与两组上调基因:Set3和Set13。最后用每一组基因对研究数据中的两类样本进行划分,结果表明筛选出的四组基因可以很好的识别出两类样本。本文图18幅,表8个,参考文献61篇。
【关键词】:无信息变量删除 SOM 基因组 最大均值统计量
【学位授予单位】:中南大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:C829.2
【目录】:
- 摘要4-5
- Abstract5-7
- 目录7-9
- 1 绪论9-18
- 1.1 研究背景9-10
- 1.2 基因表达数据概述10-12
- 1.2.1 DNA微阵列10-11
- 1.2.2 基因表达数据11-12
- 1.3 基因表达数据研究现状12-17
- 1.3.1 单个基因研究12-15
- 1.3.2 基因组研究15-17
- 1.4 本文研究内容及意义17-18
- 1.4.1 本文研究内容17
- 1.4.2 研究意义17-18
- 2 基因表达数据聚类分析18-32
- 2.1 基因表达数据预处理18
- 2.2 冗余变量剔除18-21
- 2.2.1 偏最小二乘法冗余变量剔除19-20
- 2.2.2 蒙特卡罗冗余变量剔除20-21
- 2.3 基因表达数据变量聚类21-30
- 2.3.1 聚类分析概述21-23
- 2.3.2 层次聚类分析23-24
- 2.3.3 K-均值聚类分析24-25
- 2.3.4 自组织映射聚类分析25-26
- 2.3.5 模糊聚类分析26-27
- 2.3.6 双向聚类分析27-28
- 2.3.7 聚类分析效果评价28-30
- 2.4 基因组的构造30-32
- 3 基于最大平均统计量方法的变量筛选32-36
- 3.1 基因富集性分析32-33
- 3.2 基因集显著性判断33-35
- 3.2.1 最大均值统计量的构造33-34
- 3.2.2 随机化模型和数据排列模型34
- 3.2.3 重标准化模型34-35
- 3.3 本文方法35-36
- 4 基因组变量筛选实证分析36-45
- 4.1 模拟数据变量筛选分析36-37
- 4.2 实验数据变量筛选分析37-44
- 4.2.1 冗余变量删除37-38
- 4.2.2 实验数据聚类分析38-39
- 4.2.3 差异表达基因的筛选39-44
- 4.3 本章结论44-45
- 5 结论与展望45-46
- 参考文献46-50
- 致谢50
【参考文献】
中国期刊全文数据库 前10条
1 黄啸;;生物信息学在蛋白质组学上的应用[J];安徽农业科学;2006年23期
2 蔡磊;赵青川;;差异表达基因的几种筛选方法[J];第四军医大学学报;2007年03期
3 涂晓芝;颜学峰;钱锋;;基于SOM网络的基因表达数据聚类分析[J];华东理工大学学报(自然科学版);2006年08期
4 殷爱茹,李栋,黄亚楼;基因表达数据聚类有效性分析的EFOM法[J];计算机工程与应用;2005年17期
5 陈佳妮;段文英;丁徽;;模糊C-均值聚类分析在基因表达数据分析中的应用[J];森林工程;2010年02期
6 林雁;后基因组学[J];生物学教学;2001年07期
7 荆志伟;王忠;王永炎;高思华;;基因芯片数据分析方法研究进展[J];生物技术通讯;2007年01期
8 曹文君;李运明;陈长生;;基因表达谱富集分析方法研究进展[J];生物技术通讯;2008年06期
9 邵昌f;楼巍;严利民;;高维数据中的相似性度量算法的改进[J];计算机技术与发展;2011年02期
10 孙继勇;基因表达谱的数据分析[J];国际病理科学与临床杂志;2005年05期
,本文编号:589904
本文链接:https://www.wllwen.com/shekelunwen/shgj/589904.html

