不平衡标记密度学习的特征选择研究

发布时间:2024-11-26 21:47
  多标记学习已逐渐成为机器学习、大数据和数据挖掘等智能领域的研究热点之一。在多标记学习中,通常样本的特征数量越多,样本实例也就被描述的越准确。随着特征数量的不断增加,它的相关冗余特征也将不断增多。由于这些特征数量的存在会严重影响到分类器的精度,甚至会造成误分,因此需要对特征数量进行降维。特征选择是一种有效的降维方法,它可以先从中选择出相关性高且冗余性小的特征作为特征子集,再对其进行分类训练与预测。在一个样本实例中,是否有标记与样本实例的特征属性有着密切的联系。同时由于标记的不平衡性在智能领域中广泛存在,它会让不同标记对样本实例的描述程度存在一定的差异性。目前,有关不平衡数据的研究较为匮乏。传统的处理方法一般是先通过抽样或者重采样的方式将不平衡数据处理成为平衡数据,再对其进行研究。但是这种处理方法常会改变原有数据集的属性和丢失部分信息,致使分类器的精度有所下降。现有的研究多数是针对单标记下的不平衡性,而对多标记下的不平衡性却鲜有研究。基于多标记下的不平衡性存在的问题,本文提出了两种改进算法,主要研究工作如下:(1)目前多数特征选择算法并未考虑不同标记对样本的描述程度可能存在一定的差异性。针对...

【文章页数】:50 页

【学位级别】:硕士

【部分图文】:

图2.1 信息熵与互信息的关系图

图2.1 信息熵与互信息的关系图

由此可知,若I(X;Y)越大,则X与Y之间关联越紧密,若X与Y无关,则I(X;Y)=0。通过文氏图(Venndiagram)可以更直观的展示信息熵与互信息的关联性(见图2.1)。2.2.3特征与标记集合互信息


图2.2 特征选择流程图

图2.2 特征选择流程图

特征选择是指从全部特征中选取一个使构造出来的模型效果更好且推广能力更强的特征子集,即通过筛选出全局或局部最优特征子集用以降低特征空间维数的过程。而为了得到一个新的较优特征子集,对冗余不相关、欠刻画能力的特征进行了剔除,达到减少特征个数、减少训练或者运行时间、提高模型精确度的作用,....


图2.3 特征选择方法分类

图2.3 特征选择方法分类

在机器学习、大数据和数据挖掘等高新技术领域,特征选择拥有着举足轻重的影响。在特征选择过程中,评价函数作为一个评价准则,可以判断一个特征子集是否较优,而依据评价准则的不同,有关特征选择方面的算法可以分为:过滤式模型(Filter)、封装式模型(Wrapper)以及嵌入式模型(Emb....


图3.1 Computer数据集标记分布图

图3.1 Computer数据集标记分布图

研究发现在多标记学习中,由于标记对样本的描述存在着差异性,即在每个标记下正类与负类出现的频率并不一样,而这种标记频率分布可以为多标记学习的研究提供一定的辅助信息从而提高分类的精度。基于此,本章提出一种MSIO算法:首先计算标记空间中每个标记下正标记(正类)样本和负标记(负类)样本....



本文编号:4012635

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/4012635.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ccbd7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com