面向工业大数据的不平衡数据处理方法研究
发布时间:2022-12-05 00:50
随着互联网技术及智能计算技术的发展,海量的工业数据被采集、存储及分析并用于决策支持,基于工业大数据的智能数据分析日益受到工业界及学术界的关注和重视。基于机器学习的设备故障检测是工业大数据的一类重要应用,通过及时发现设备故障有利于降低故障损失、提高工业产品质量。工业设备故障诊断通常要求错误率很低,一次失误可能造成严重后果。然而,实践及研究表明工业大数据设备故障检测中存在不可避免的不平衡数据挑战,导致机器学习算法召回率较低。本文针对工业大数据的特点,对不平衡数据机器学习算法及工业大数据实时处理技术进行了研究,并取得了如下研究成果:针对现有数据采样及集成学习等不平衡数据学习方法中存在的问题,本文根据SMOTE、Bagging、Boosting算法的基本思想,提出了基于数据采样与模型融合的不平衡数据学习算法Rotation SMOTE。该方法在模型Boosting训练过程中,根据基分类器预测结果对少数类样本进行有针对性的数据合成采样,以提高少数类样本的召回率,并通过利用PCA对原始样本进行旋转变换的方式来融合多个模型,增加样本多样性。经实验表明,与SMOTEBoost、EasyEnsemble...
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景
1.1.1 工业大数据概述
1.1.2 工业大数据应用之设备故障检测
1.1.3 工业大数据设备诊断中存在的问题
1.1.4 工业大数据的实时数据处理
1.2 研究现状与挑战
1.2.1 不平衡数据处理方法
1.2.2 不平衡数据处理挑战性问题
1.3 本文工作
1.3.1 基于数据采样与模型融合的不平衡数据学习方法
1.3.2 基于Boosting的不平衡数据学习方法
1.3.3 工业大数据实时处理框架的设计与实现
1.4 论文结构
第二章 相关技术
2.1 大数据处理技术
2.1.1 分布式消息中间件Kafka
2.1.2 分布式实时计算引擎Spark Streaming
2.1.3 分布式时间序列数据库OpenTSDB
2.2 故障检测方法
2.2.1 传统依赖专家的故障检测方法
2.2.2 基于机器学习的故障检测方法
2.3 不平衡数据的学习
2.3.1 数据合成采样方法
2.3.2 集成学习方法
2.3.3 Focal Loss损失函数
2.4 本章小结
第三章 基于数据采样与模型融合的不平衡数据学习方法
3.1 引言
3.2 问题描述
3.3 Rotation SMOTE算法
3.4 boostSMOTE算法
3.5 实验与分析
3.5.1 实验数据集
3.5.2 性能评估方法
3.5.3 实验设计
3.5.4 实验结果分析
3.6 本章小结
第四章 基于Boosting的不平衡数据学习方法
4.1 引言
4.2 问题描述
4.2.1 基于代价敏感的boosting算法的局限性
4.2.2 如何区分样本分类的难易程度
4.3 FocalBoost算法
4.4 FocalBoost与 Rotation SMOTE
4.5 实验与分析
4.5.1 实验设计
4.5.2 实验结果分析
4.6 本章小结
第五章 工业大数据实时处理框架的设计与实现
5.1 引言
5.2 实时处理系统架构
5.3 性能瓶颈及优化措施
5.4 实验与分析
5.4.1 实验设计
5.4.2 实验结果分析
5.5 本章小结
第六章 总结与展望
6.1 本文总结与主要创新点
6.2 未来工作展望
致谢
参考文献
作者在学期间取得的学术成果
作者在学期间参与的主要科研工作
【参考文献】:
期刊论文
[1]工业4.0:智能工业[J]. 王喜文. 物联网技术. 2013(12)
本文编号:3709332
【文章页数】:65 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景
1.1.1 工业大数据概述
1.1.2 工业大数据应用之设备故障检测
1.1.3 工业大数据设备诊断中存在的问题
1.1.4 工业大数据的实时数据处理
1.2 研究现状与挑战
1.2.1 不平衡数据处理方法
1.2.2 不平衡数据处理挑战性问题
1.3 本文工作
1.3.1 基于数据采样与模型融合的不平衡数据学习方法
1.3.2 基于Boosting的不平衡数据学习方法
1.3.3 工业大数据实时处理框架的设计与实现
1.4 论文结构
第二章 相关技术
2.1 大数据处理技术
2.1.1 分布式消息中间件Kafka
2.1.2 分布式实时计算引擎Spark Streaming
2.1.3 分布式时间序列数据库OpenTSDB
2.2 故障检测方法
2.2.1 传统依赖专家的故障检测方法
2.2.2 基于机器学习的故障检测方法
2.3 不平衡数据的学习
2.3.1 数据合成采样方法
2.3.2 集成学习方法
2.3.3 Focal Loss损失函数
2.4 本章小结
第三章 基于数据采样与模型融合的不平衡数据学习方法
3.1 引言
3.2 问题描述
3.3 Rotation SMOTE算法
3.4 boostSMOTE算法
3.5 实验与分析
3.5.1 实验数据集
3.5.2 性能评估方法
3.5.3 实验设计
3.5.4 实验结果分析
3.6 本章小结
第四章 基于Boosting的不平衡数据学习方法
4.1 引言
4.2 问题描述
4.2.1 基于代价敏感的boosting算法的局限性
4.2.2 如何区分样本分类的难易程度
4.3 FocalBoost算法
4.4 FocalBoost与 Rotation SMOTE
4.5 实验与分析
4.5.1 实验设计
4.5.2 实验结果分析
4.6 本章小结
第五章 工业大数据实时处理框架的设计与实现
5.1 引言
5.2 实时处理系统架构
5.3 性能瓶颈及优化措施
5.4 实验与分析
5.4.1 实验设计
5.4.2 实验结果分析
5.5 本章小结
第六章 总结与展望
6.1 本文总结与主要创新点
6.2 未来工作展望
致谢
参考文献
作者在学期间取得的学术成果
作者在学期间参与的主要科研工作
【参考文献】:
期刊论文
[1]工业4.0:智能工业[J]. 王喜文. 物联网技术. 2013(12)
本文编号:3709332
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3709332.html