当前位置:主页 > 科技论文 > 自动化论文 >

基于图的偏标记学习算法研究

发布时间:2020-03-22 07:00
【摘要】:弱监督数据相比于精确标注的强监督数据更易获取,成本更低。如何利用弱监督数据来训练分类器近年来得到了机器学习领域研究者的广泛关注。偏标记数据是一类重要的弱监督数据,在偏标记数据中,每个样本在特征空间中由单个示例来表示,在标记空间中由一组标记组成的候选标记集表示,其中有且只有一个是样本的真实标记。由于偏标记数据的标记不具有单一性和明确性,传统的监督学习算法无法对其进行利用。因此,研究者们提出偏标记学习框架来利用偏标记数据训练分类器,并设计了众多标记学习算法。在众多偏标记学习算法中,基于图模型的偏标记学习算法以其无需复杂参数模型,算法效率高的特点,受到研究者的广泛关注。基于图模型的偏标记学习算法包含三个关键步骤:(1)数据预处理;(2)根据近邻原则构建图模型;(3)根据图模型对偏标记数据进行消歧并训练分类器。现有的基于图模型的偏标记学习算法仍然存在以下问题:(1)算法基于流形假设,即在特征空间中相邻的样本具有相同标记,导致算法表现容易受到共现易错样本的影响;(2)现有方法在构建图模型的过程中,只关注样本在特征空间上的关系,缺乏对候选标记信息的利用,导致信息利用不充分;(3)现有方法在初始状态赋予每个候选标记相同的置信度值,在标记消歧的过程中不断调用初始置信度矩阵,但缺乏对初始置信度矩阵的修正,导致算法容易受到伪标记的影响。针对以上三个问题,本文主要进行了以下工作:(1)针对共现易错样本的的问题,提出一种面向偏标记数据的度量学习算法:在数据处理过程中将数据映射到一个新的特征空间,增大共现易错样本之间的距离。该方法采用统计推断的思想训练度量矩阵,对度量矩阵进行分解得到映射矩阵以将样本映射到新的特征空间。具体地,首先根据标记集信息将样本与其近邻样本组成的样本对划分为由易错样本组成的负样本对和其他样本组成的正样本对两类,对各个样本对赋予不同的权重;然后通过统计推断,利用最大似然估计来计算度量矩阵;最后,通过对度量矩阵进行楚列斯基分解得到映射矩阵,将数据映射到一个新的特征空间,增大共现易错样本之间的距离,从而减轻在流形假设下易错样本的影响。在多个公开数据集上的实验结果表明,利用该方法将数据映射到新的特征空间,可以有效提升现有基于图的偏标记学习算法的消歧和分类表现。(2)针对现有方法在构建图模型的过程中,只关注样本在特征空间上的关系,导致信息利用不充分的问题,提出一种候选标记信息感知的偏标记数据相似度图构建方法:该方法在构建相似度图的过程中综合利用了特征空间和标记空间中的信息。具体来讲,该方法采用杰卡德距离和线性重构两种方式计算各个候选标记集之间的相似度,结合示例在特征空间上的近邻关系构建相似度图,排除图中不合理的连边,以便现有的基于图的偏标记学习算法进行学习和预测。在多个人工合成数据集和真实数据集上的实验结果表明,在构建相似度图的过程中,采用候选标记信息可以有效地提升现有基于图的偏标记学习算法的消歧和分类表现。(3)针对现有方法没有对初始置信度进行修正,导致算法易受伪标记影响的问题,提出一种基于置信度修正的偏标记学习算法:该方法基于标签传播算法并采用双向标记传播,通过正向标记传更新邻居节点当前的置信度矩阵,并将各个邻居节点的消歧结果通过反向标记传播的方式传回原节点,以更新初始置信度矩阵,从而降低伪标记置信度的影响。在公开数据集上的实验结果表明该算法相比于基线算法,具有较好的消歧和分类表现。
【图文】:

数据集,数据,中国产


(a)ImageNet 数据集(26 秒) (b)COCO-stuff 数据集(19 分钟)图 1. 1 各个数据集数据平均标注耗时在大数据时代,每时每刻都有新的数据产生,根据英特尔公司 2019 年的预测,总量在 2020 年将达到 44ZB(1ZB=10 亿 TB),其中中国产生的数据量将达到 8ZB

示意图,数据样本,示意图,训练数据


图 1. 2 获取弱监督数据样本示意图弱监督学习就是一类利用上述弱监督数据训练分类器的机器学习框架[14]。不同于监督学习,弱监督学习不需要训练数据具有精确的标注,获得训练数据的成本较为低廉,所以更适合处理当今的大规模弱标注的数据。由于弱监督数据的来源较为庞杂且具有较广的涵盖范围,,弱监督数据很难在一个框架下进行统一处理。因此研究者根据弱监督数据的具体
【学位授予单位】:战略支援部队信息工程大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP181;O157.5

【相似文献】

相关期刊论文 前10条

1 程宽桐;算法分类及各种基本算法的比较与优选(上)[J];齐鲁珠坛;1996年04期

2 刘培;池忠军;;算法歧视的伦理反思[J];自然辩证法通讯;2019年10期

3 孙建丽;;算法自动化决策风险的法律规制研究[J];法治研究;2019年04期

4 吴珍珍;;基于分类规则算法对存款意愿倾向的研究[J];石河子科技;2018年02期

5 唐璐杨;唐小妹;李柏渝;刘小汇;;多源融合导航系统的融合算法综述[J];全球定位系统;2018年03期

6 周祉含;;西方新闻传播学的算法研究综述[J];新闻爱好者;2019年04期

7 赵春杰;;算法共谋的规制思路[J];市场周刊;2019年07期

8 金爽;;基于标签传播的社区发现算法研究与应用[J];电脑迷;2018年01期

9 孙建丽;;试论算法的法律保护模式[J];电子知识产权;2019年06期

10 程宽桐;算法分类及各种基本算法的比较与优选(下)[J];齐鲁珠坛;1996年05期

相关会议论文 前1条

1 李铁山;张锦;王东;陈波;;传感器网络中容错路由算法分类研究[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年

相关博士学位论文 前7条

1 高阳;基于局部扩展的重叠社区发现算法研究[D];哈尔滨工业大学;2019年

2 贾洁茹;跨摄像机行人再识别中度量学习算法研究[D];北京交通大学;2019年

3 翟婷婷;面向流数据分类的在线学习算法研究[D];南京大学;2018年

4 段沛博;分布式约束优化算法的研究与应用[D];东北大学;2017年

5 罗春备;面向多尺度复杂场景的高效电磁仿真算法研究[D];浙江大学;2019年

6 邵彦超;油气井安全生产监控数据预测预警系统及算法研究[D];北京邮电大学;2016年

7 刘琼;乡村道路环境下农业机器人导航避障算法研究[D];西北农林科技大学;2017年

相关硕士学位论文 前10条

1 王强强;基于特征筛选脑电睡眠分期算法研究[D];重庆邮电大学;2019年

2 王們;有序学习算法及其在成绩预测中的应用[D];南京师范大学;2019年

3 朱小祥;基于社会网络的社区发现算法研究[D];南京航空航天大学;2019年

4 王乐;基于DT-SVM的校园霸凌检测算法[D];哈尔滨工业大学;2019年

5 项耀军;基于深度学习的商标检测算法研究[D];哈尔滨工业大学;2018年

6 杨子奇;面向大规模数据分类问题的监督学习算法研究与并行应用[D];哈尔滨工业大学;2018年

7 谢天;基于图的偏标记学习算法研究[D];战略支援部队信息工程大学;2019年

8 肖萍;大规模MIMO系统的低复杂度检测算法研究[D];西安电子科技大学;2019年

9 安晓丹;二分网络的社区发现算法和评价指标研究[D];山西大学;2019年

10 董耀聪;基于机会思想的无线传感器网络节点路由算法研究[D];北京交通大学;2019年



本文编号:2594690

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2594690.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户417ea***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com