当前位置:主页 > 经济论文 > 农业经济论文 >

云环境下精准扶贫数据的异常检测研究

发布时间:2020-08-07 18:57
【摘要】:精准扶贫数据是一种典型的统计数据,分析和发现其中蕴含的价值和规律,具有重要的意义。然而,数据失真往往是不可避免的,异常数据检测有助于提高数据质量、改善挖掘结果。因此,本论文着眼于精准扶贫数据的异常检测,以某省精准扶贫数据为例开展了相关研究。针对精准扶贫数据的复杂、高维、量大等特点,具体研究内容包括以下三个方面:(1)由于混合属性是精准扶贫数据复杂特点的主要表现,提出了一种基于信息熵的连续属性离散化方法。经UCI测试数据集检验,并与多种代表性离散化方法相比,所提方法具有信息丢失少的优势。同时,该方法被应用于随机选取的10万条精准扶贫数据样本集的连续属性离散化,证明了其有效性。(2)针对精准扶贫数据的高维特点,借鉴信号处理的思想,提出了一种基于马斯洛需求层次理论的数据信号表达方法,将精准扶贫数据的各属性进行了排序,并将排序后的各属性视为信号采样点。在此基础上,提出了基于傅里叶变换的异常数据检测方法。经UCI测试数据集检验,文中所提方法在召回率和误测率方面取得非常理想的效果,并应用于被离散化后的精准扶贫数据样本集的异常检测。(3)由于精准扶贫数据包含大量贫困人口的详细信息,常规的处理环境耗时较长、效率较低,文中借助Hadoop云环境,采用数据分布并行的思想,对所提出的连续属性离散化方法和异常数据检测方法进行了实现,可支撑精准扶贫数据的异常检测。根据实验结果,精准扶贫数据的异常率介于[0.005%,0.013%]之间,表明精准扶贫数据具有很高的可信度。同时,文中提出的连续属性离散化方法和异常数据检测方法,能对现实中类似数据的异常检测工作具有一定的参考价值。
【学位授予单位】:西北师范大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F323.8;TP311.13
【图文】:

走势图,文献,异常检测


线性映射[39]等检测方法,以及为适应大数据的异常检测采用分布式环境[40]、云环境[41]等作为计算环境。综上,一方面,部分异常检测工作主要针对低维、小量的数据集,这些典型的算法已不再适用量大、复杂、高维数据的异常检测工作,对精准扶贫数据需要提出合适的异常检测方法。另一方面,部分工作在单机中完成,导致耗时长,代价较大,甚至单机不能完成,对精准扶贫数据的异常检测工作采用并行计算环境或云计算环境可缩短执行时间、提高处理效率。1.2.3 精准扶贫研究精准扶贫是新时期下治理贫困的战略重点,受到社会各界的广泛关注,是当前研究的一个热点。自 2013 年提出“精准扶贫”理念以来,以“精准扶贫”为关键字的文献量迅速增长,足以表现研究者对精准扶贫工作的高度关注;据预测2018 年关于“精准扶贫”的文献量将达到又一个新的高潮,文献量趋势如图 1-1所示[42]。

过程图,连续属性,研究思路,离散化


图 1-2 研究思路处理,重点关注连续属性数据的离散化过程的统计填报数据,可以说其涉及贫困户的全家庭人口、各类收入、土地、房屋、医疗、型的角度看,精准扶贫数据中包含标称属性二元属性数据,如男女性别、是否通电、是包含数值属性,如家庭收入、人口数量、土

示意图,架构,示意图,大规模数据


图 2-1 HDFS 架构示意图apReduce 执行过程如图 2-2 所示。图 2-2 MapReduce 过程示意图据对 HDFS 和 MapReduce 两主要核心构件的分析,将 Hadoop 处理以概括为两步:第一步,借助 HDFS 分布存储技术将大规模数据按地分割成若干个数据块 Blocks,以 Block 为基本单位分散地存储

【参考文献】

相关期刊论文 前10条

1 胡家祥;;马斯洛需要层次论的多维解读[J];哲学研究;2015年08期

2 郑瑞强;曹国庆;;基于大数据思维的精准扶贫机制研究[J];贵州社会科学;2015年08期

3 杨青峰;;云计算时代关键技术预测与战略选择[J];中国科学院院刊;2015年02期

4 郭婉;张晓;;一种基于SLA与ROI结合的IaaS动态计费模型[J];计算机研究与发展;2014年S1期

5 朴昌浩;黄质;苏岭;禄盛;;基于角度分布的高维数据流异常点检测算法[J];上海交通大学学报;2014年05期

6 陈丹伟;邵菊;樊晓唯;陈林铃;何利文;;基于MAH-ABE的云计算隐私保护访问控制[J];电子学报;2014年04期

7 邬贺铨;;大数据思维[J];科学与社会;2014年01期

8 孟小峰;慈祥;;大数据管理:概念、技术与挑战[J];计算机研究与发展;2013年01期

9 黎春兰;邓仲华;;论云计算的服务质量[J];图书与情报;2012年04期

10 王芳;;基于马斯洛需要层次理论的应用研究[J];科技创新与应用;2012年17期

相关博士学位论文 前1条

1 孙璐;扶贫项目绩效评估研究[D];中国农业大学;2015年

相关硕士学位论文 前1条

1 汪克高;贵州省精准扶贫中贫困户的识别研究[D];贵州财经大学;2016年



本文编号:2784391

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/nongyejingjilunwen/2784391.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5f038***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com