当前位置:主页 > 科技论文 > 建筑工程论文 >

不平衡数据聚类在建筑能耗异常检测中的应用

发布时间:2020-12-10 03:11
  不平衡数据,指数据集不同类别所含样本在数量上存在很大差异或不同类别样本数量相同但分布不均匀。在建筑能耗异常检测中,正常能耗数据和异常能耗数据在数量和分布上都存在很大差异,从本质看能耗异常检测属于数据不平衡问题。针对不平衡数据,传统聚类方法往往会均衡化各类别的样本数量,导致较高的误分率,为避免这种“均匀效应”,本文对不平衡数据聚类问题展开研究,并将创新成果应用于建筑能耗异常检测中。具体研究内容如下:(1)针对数据集中存在的数据重叠问题,提出一种D-S证据理论框架下的广义模糊c均值(Generalized fuzzy c-means,GFCM)聚类算法,通过设置复合类阈值,将传统FCM算法中的隶属度矩阵U进行扩展,并根据得到的广义隶属度矩阵将难以划分到某个特定类别的样本划分给复合类,算法对重叠(不确定)样本进行了合理表征,降低了样本误划分的风险。(2)针对传统聚类算法对不平衡数据聚类所产生的样本“均匀效应”问题,提出一种基于D-S证据理论的不平衡数据多划分(Multi-partition,MP)聚类算法,通过数据集多划分、真实类别寻找、子数据集合并和剩余样本划分四个子步骤对不平衡数据进行聚... 

【文章来源】:西安建筑科技大学陕西省

【文章页数】:82 页

【学位级别】:硕士

【部分图文】:

不平衡数据聚类在建筑能耗异常检测中的应用


文章组织架构图

数据分布,原始人,聚类,算法


西安建筑科技大学硕士学位论文253.3.1人工合成数据集考虑一个3类呈圆形分布的数据集123=,,,每个类别包含484个数据样本,数据分布的圆心坐标分别为1c:(3,11)、2c:(6.5,7.5)和3c:(10,4),半径为r3,其原始数据分布如图3.2所示。本实验将GFCM算法与K-means、FCM和CCM三种聚类算法进行比较来展示GFCM算法的聚类效果。图3.3(a)-(h)分别展示了四种算法的聚类效果,在每幅子图标题处给出了每种算法对应的聚类结果(错误率eR和不精确率iR)。图3.2原始人工合成数据集(3类)(a).K-means算法聚类结果(5.85eR)(b).FCM算法聚类结果(5.79eR)

效果图,聚类,数据集,算法


西安建筑科技大学硕士学位论文40(g).=0.2时ICCM算法的运行结果(h).KMS算法的运行结果(K=560)(i).DMR合并结果(j).=0.2时MP算法的聚类结果(eR0.08,20.21iR)图4.2四种算法对第一组2类不平衡数据集的聚类效果比较

【参考文献】:
期刊论文
[1]新的基于代价敏感集成学习的非平衡数据集分类方法NIBoost[J]. 王莉,陈红梅,王生武.  计算机应用. 2019(03)
[2]不平衡数据挖掘方法综述[J]. 向鸿鑫,杨云.  计算机工程与应用. 2019(04)
[3]大型商场类建筑用电能耗分析与节能研究[J]. 万少博.  建筑节能. 2016(12)
[4]iLOF*:一种改进的局部异常检测算法[J]. 王飞.  计算机系统应用. 2015(12)
[5]一种基于密度差异的离群点检测算法[J]. 辛丽玲,何威,于剑,贾彩燕.  山东大学学报(工学版). 2015(03)
[6]NLOF:一种新的基于密度的局部离群点检测算法[J]. 王敬华,赵新想,张国燕,刘建银.  计算机科学. 2013(08)
[7]一种面向不平衡数据的结构化SVM集成分类器[J]. 袁兴梅,杨明,杨杨.  模式识别与人工智能. 2013(03)
[8]空间聚类方法的分类[J]. 曾绍琴,李光强,廖志强.  测绘科学. 2012(05)
[9]能耗实时监测的数据挖掘方法[J]. 卿晓霞,肖丹,王波.  重庆大学学报. 2012(07)
[10]数据挖掘中聚类算法研究进展[J]. 周涛,陆惠玲.  计算机工程与应用. 2012(12)

博士论文
[1]复杂数据类型的离群检测方法研究[D]. 刘靖.华南理工大学 2014

硕士论文
[1]基于聚类融合的不平衡数据分类研究及其应用[D]. 丁锋.浙江工业大学 2018
[2]基于数据挖掘的公共建筑能耗预测与能效管理[D]. 崔冲.山东建筑大学 2017



本文编号:2907983

资料下载
论文发表

本文链接:https://www.wllwen.com/jianzhugongchenglunwen/2907983.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9d4f5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com