当前位置:主页 > 社科论文 > 社会学论文 >

面向高维数据的统计分类分析

发布时间:2017-10-28 13:09

  本文关键词:面向高维数据的统计分类分析


  更多相关文章: 高维数据 分类算法 特征选择 EP模式 PREP算法


【摘要】:当代科技的迅猛发展,给各行业带来了很多的高维数据,其中蕴藏着很大的信息知识。目前来说,高维数据经常出现的领域主要有文本分析、生物基因数据、web和媒体数据等,而经济与科学水平的提高,也使得这些高维数据的维度仍在不断的增加,已经大大超过了往日的规模。复杂性越强的高维数据中蕴含着丰富的信息资源,要想较大程度上得到数据本身隐藏的信息,必须从这些高维数据中去除噪声、约简冗余数据,尽可能的减小对分类任务的影响,所以对高维数据的分类挖掘就显得愈发重要。如何高效的从高维数据集中获取特征子集将直接影响到分类器模型的效率和人们对数据的理解。本文主要的研究方向是针对生活中仍在不断增长的高维数据集进行统计分类,具体包括:(1)对传统的分类算法进行分析研究,包括基于距离、决策树、贝叶斯公式等分类算法,主要论述这些方法的优点以及它们面对高维数据时的局限性。(2)介绍EP模式这一新兴的分类模式,其中包含它的相关定义、性能、分类过程和它在面对高维数据时的不足之处。(3)针对EP模式分类器在对高维数据进行分类时,由无关或者拟合性强的属性导致的分类器性能降低的问题,有目的的把合适的特征选择方法与EP模式分类算法结合使用。通过特征选择排除高维数据集中有干扰无关的属性特征,从而在保证生成有效EP模式的同时,去除了大量无关的EP模式。由此而提出一种PREP分类算法,即基于PCA-Relief F的EP模式分类算法。在实验中使用该方法对高维数据的验证时,体现了它的优越性。
【关键词】:高维数据 分类算法 特征选择 EP模式 PREP算法
【学位授予单位】:安庆师范学院
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:C81
【目录】:
  • 中文摘要6-7
  • Abstract7-10
  • 第一章 绪论10-14
  • 1.1 研究背景10-12
  • 1.1.1 研究意义及目的10-11
  • 1.1.2 研究现状11-12
  • 1.2 本文工作12-14
  • 第二章 数据分类及特征选择14-33
  • 2.1 分类的基本概念14-15
  • 2.2 分类的传统方法15-25
  • 2.2.1 K近邻算法15-18
  • 2.2.2 决策树算法18-21
  • 2.2.3 贝叶斯算法21-23
  • 2.2.4 关联规则算法23-25
  • 2.3 特征选择(Feature Subset Selection )的概念25
  • 2.4 特征选择的方法25-32
  • 2.4.1 主成分分析25-29
  • 2.4.2 ReliefF算法29-32
  • 2.5 小结32-33
  • 第三章 EP模式分类算法33-38
  • 3.1 EP模式的相关概念33-34
  • 3.2 EP模式的特点和几种改进34-36
  • 3.2.1 EP模式的特点34-35
  • 3.2.2 几种改进后的EP模式35-36
  • 3.3 小结36-38
  • 第四章 面向高维数据PCA-ReliefF的EP模式分类算法38-47
  • 4.1 引言38-39
  • 4.2 EP模式分类39-41
  • 4.2.1 EP模式基本概念39-40
  • 4.2.2 EP模式分类器构造过程40-41
  • 4.3 结合PCA和ReliefF的PREP分类算法41-43
  • 4.4 实验结果及分析43-46
  • 4.4.1 实验结果43-45
  • 4.4.2 实验结果分析45-46
  • 4.5 小结46-47
  • 第五章 结论和展望47-48
  • 致谢48-49
  • 参考文献49-53
  • 作者读研期间所取得的科研成果53

【参考文献】

中国期刊全文数据库 前10条

1 张友志;钱萌;程玉胜;;基于关联规则web日志挖掘方法的研究[J];安庆师范学院学报(自然科学版);2006年01期

2 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期

3 豆增发;王英强;王保保;;一种基于信息增益的K-NN改进算法[J];电子科技;2006年12期

4 乔玉龙,潘正祥,孙圣和;一种改进的快速k-近邻分类算法[J];电子学报;2005年06期

5 唐懿芳,钟达夫;主成分分析方法对数据进行预处理[J];广西师范大学学报(哲学社会科学版);2002年S1期

6 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期

7 俞蓓,王军,叶施仁;基于近邻方法的高维数据可视化聚类发现[J];计算机研究与发展;2000年06期

8 陈德军,盛翊智,陈绵云;基于数据仓库的OLAP在DSS中的应用研究[J];计算机工程与应用;2003年01期

9 蒋欣;李伟华;史豪斌;潘炜;;基于距离的关联规则相关性分析优化方法[J];计算机工程与应用;2009年07期

10 蒋玉娇;王晓丹;王文军;毕凯;;一种基于PCA和ReliefF的特征选择方法[J];计算机工程与应用;2010年26期

中国博士学位论文全文数据库 前2条

1 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年

2 王玮;基于概念格的关联规则挖掘及变化模式研究[D];山东大学;2012年

中国硕士学位论文全文数据库 前6条

1 张素芳;基于集合划分的非线性积分及其在决策树算法中的应用[D];河北大学;2006年

2 刘美玲;基于数据挖掘的决策树算法研究及应用探讨[D];东北林业大学;2006年

3 许红涛;一种基于eEPs的中文文本自动分类算法[D];郑州大学;2006年

4 彭程;数据挖掘中分类算法的研究[D];长沙理工大学;2006年

5 陆景辉;基于信息理论的特征选择算法研究[D];北京交通大学;2007年

6 郑全朝;基于关联规则挖掘算法的改进及其应用研究[D];暨南大学;2010年



本文编号:1108347

资料下载
论文发表

本文链接:https://www.wllwen.com/shekelunwen/shgj/1108347.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e8a7e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com