并行化最小最大模块化支持向量机及其在专利分类中的应用
发布时间:2021-07-03 07:31
超大规模机器学习问题往往是许多机器学习算法在实际应用中的一大限制。这种大规模问题经常会遇到,比如专利分类。即便是像支持向量机这样高效率的学习算法,面对超大规模的数据,照样会难以克服。在这种情况下,突破单机限制,利用丰富的并行计算资源,解决这些大规模学习问题往往是比较可行的办法。最小最大模块化支持向量机(M3-SVM)是基于“分而治之”的思想解决大规模问题的有效学习算法。它通过分解大规模问题,变成大量小规模问题进行学习,并通过有效的分类器组合算法将他们重新组合,成为大规模问题的原始解,该算法具有天生的并行特性。本研究主要探讨在并行计算环境下,并行M3-SVM的实现和特点,分析其并行训练和测试时间复杂度。在原有的最小最大模块化并行测试算法基础上,提出了基于流水化作业的对称分类器选择(SCS)算法、非对称分类器选择(ACS)算法和决策树分类器选择(TCS)算法。实验证明利用流水化作业的分类器选择算法大大提高了分类器测试的效率。在问题划分环节上,我们提出了质心连线划分方法,在不使用先验知识的情况下,该划分方法有效提高了分类效果。在应用方面,本研究利用并行最小最大模块化支持向量机解决超大规模的专...
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:76 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT(英文摘要)
目录
主要符号对照表
第一章 绪论
1.1 模式分类概述
1.2 并行机器学习
1.2.1 研究背景
1.2.2 研究现状
1.3 论文安排
第二章 文本分类
2.1 引言
2.2 文本分类
2.2.1 问题定义
2.2.2 文本分类系统
2.3 预处理
2.3.1 文本清理
2.3.2 索引
2.3.3 降维
2.4 分类器学习
2.4.1 朴素贝叶斯
2.4.2 K近邻
2.4.3 Boosting
2.5 分类器评测
2.6 本章小结
第三章 最小最大模块化支持向量机
3.1 引言
3.2 支持向量机
3.2.1 最优超平面
3.2.2 二次规划问题
3.2.3 非线性SVM与核函数
3.2.4 多类SVM
3.3 最小最大模块化支持向量机
3.3.1 任务分解
3.3.2 分类器集成
3.3.3 数据划分策略
3.4 本章小结
第四章 并行最小最大模块化支持向量机
4.1 引言
4.2 并行M~3-SVM
4.2.1 并行M~3-SVM架构
4.2.2 复杂度分析
4.3 分类器选择算法
4.3.1 非对称分类器选择
4.3.2 对称分类器选择
4.3.3 分类器选择算法的评价
4.4 流水化分类器选择算法
4.4.1 流水
4.4.2 分类器选择算法的流水化
4.4.3 复杂度分析
4.5 决策树分类器选择算法
4.5.1 元学习
4.6 本章小结
第五章 并行M~3-SVM在大规模专利分类上的应用
5.1 专利分类
5.1.1 研究背景
5.1.2 研究现状
5.2 专利分类实验
5.2.1 实验设置
5.2.2 M~3-SVM不同划分策略的比较
5.2.3 SVM~(light)与M~3-SVMs对比实验
5.3 本章小结
第六章 并行M~3-SVM在不平衡分类问题上的应用
6.1 引言
6.2 不平衡分类问题研究现状
6.2.1 重采样
6.2.2 数据划分与分类器集成
6.2.3 代价敏感学习
6.3 不平衡分类问题实验
6.3.1 实验数据
6.3.2 分类器
6.3.3 分类器评测指标
6.3.4 实验结果与分析
6.4 本章小结
第七章 总结与展望
7.1 本文的主要贡献
7.2 进一步的研究工作
参考文献
致谢
个人简历、在学期间的研究成果及发表的论文
上海交通大学硕士学位论文答辩决议书
本文编号:3262159
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:76 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT(英文摘要)
目录
主要符号对照表
第一章 绪论
1.1 模式分类概述
1.2 并行机器学习
1.2.1 研究背景
1.2.2 研究现状
1.3 论文安排
第二章 文本分类
2.1 引言
2.2 文本分类
2.2.1 问题定义
2.2.2 文本分类系统
2.3 预处理
2.3.1 文本清理
2.3.2 索引
2.3.3 降维
2.4 分类器学习
2.4.1 朴素贝叶斯
2.4.2 K近邻
2.4.3 Boosting
2.5 分类器评测
2.6 本章小结
第三章 最小最大模块化支持向量机
3.1 引言
3.2 支持向量机
3.2.1 最优超平面
3.2.2 二次规划问题
3.2.3 非线性SVM与核函数
3.2.4 多类SVM
3.3 最小最大模块化支持向量机
3.3.1 任务分解
3.3.2 分类器集成
3.3.3 数据划分策略
3.4 本章小结
第四章 并行最小最大模块化支持向量机
4.1 引言
4.2 并行M~3-SVM
4.2.1 并行M~3-SVM架构
4.2.2 复杂度分析
4.3 分类器选择算法
4.3.1 非对称分类器选择
4.3.2 对称分类器选择
4.3.3 分类器选择算法的评价
4.4 流水化分类器选择算法
4.4.1 流水
4.4.2 分类器选择算法的流水化
4.4.3 复杂度分析
4.5 决策树分类器选择算法
4.5.1 元学习
4.6 本章小结
第五章 并行M~3-SVM在大规模专利分类上的应用
5.1 专利分类
5.1.1 研究背景
5.1.2 研究现状
5.2 专利分类实验
5.2.1 实验设置
5.2.2 M~3-SVM不同划分策略的比较
5.2.3 SVM~(light)与M~3-SVMs对比实验
5.3 本章小结
第六章 并行M~3-SVM在不平衡分类问题上的应用
6.1 引言
6.2 不平衡分类问题研究现状
6.2.1 重采样
6.2.2 数据划分与分类器集成
6.2.3 代价敏感学习
6.3 不平衡分类问题实验
6.3.1 实验数据
6.3.2 分类器
6.3.3 分类器评测指标
6.3.4 实验结果与分析
6.4 本章小结
第七章 总结与展望
7.1 本文的主要贡献
7.2 进一步的研究工作
参考文献
致谢
个人简历、在学期间的研究成果及发表的论文
上海交通大学硕士学位论文答辩决议书
本文编号:3262159
本文链接:https://www.wllwen.com/guanlilunwen/keyanlw/3262159.html