当前位置:主页 > 科技论文 > 软件论文 >

多数据流频繁项集挖掘算法研究

发布时间:2018-05-15 23:35

  本文选题:数据挖掘 + 多数据流 ; 参考:《山东师范大学》2017年硕士论文


【摘要】:随着互联网技术在众多领域飞速地发展,网络数据的存在形式也呈现出多样化的趋势。其中,数据流作为一种新型的数据形式已在众多应用领域广泛地出现。例如,传感器网络环境中的数据、金融应用中的财务数据和GPS定位系统所获取的地理位置等数据。面对无限、连续和高速的海量数据,传统的数据挖掘技术难以直接应用于发现海量数据流中的有效信息。因此,数据流挖掘问题具有重要的研究意义。本文将多数据流频繁项集挖掘算法作为研究对象。首先,阐述了课题的研究背景以及研究意义,同时概括总结了国内外关于该课题的研究现状。其次,阐述了在数据处理过程中所应用的相关技术。最后,提出了两种基于多数据流环境的频繁项集挖掘算法。本文的主要工作可分为以下三个方面:(1)研究了多数据流频繁项集挖掘算法的数据存储结构,设计了一种基于FP-Tree的压缩频繁模式树。本文对数据流的特点和表现形式进行了深入地分析研究,设计了一种基于字典序列的前缀树存储结构,并在该结构中引入了对数倾斜时间窗口模型。该窗口模型能够增量地更新、保留频繁项集的计数值,在一定程度上提高了内存空间的利用率以及算法的空间复杂度。(2)研究了多数据流协同频繁项集挖掘问题,改进了一种基于滑动窗口模型的多数据流协同频繁项集挖掘算法。本文引入了多数据流协同频繁项集挖掘问题,多数据流协同频繁项集是指一组对象在很短的时间内以伴随的状态频繁地出现在一条数据流或多条数据流中。首先,通过基于字节序列的滑动窗口挖掘算法发现数据流中的潜在频繁项集和频繁项集;其次,构建频繁模式树用以存储多数据流中的潜在频繁项集和频繁项集,并增量地更新树结构中对数倾斜时间表内对应项集出现的频数;最后,通过汇总分析得出多数据流中的协同频繁项集。(3)研究了分布式环境中的多数据流协同频繁项集挖掘算法,将多数据流协同频繁项集挖掘算法并行化计算。在当前的大数据背景下,数据流的规模呈现急剧增长的趋势,其到达速度非常快且对处理结果的实时性要求非常高。单个计算节点的计算能力难以承受规模如此巨大的数据。因此,传统的集中式频繁项集挖掘算法无法应对规模日益剧增的数据流。为了解决这一问题,本文采用了并行计算模型这一有效的途径,还设计了能够分布到不同计算节点上的分布式索引结构,能够高效地发现存在于分布式环境中多数据流的协同频繁项集。
[Abstract]:With the rapid development of Internet technology in many fields, the existing form of network data also presents a trend of diversification. As a new form of data, data flow has been widely used in many applications. For example, data in sensor network environment, financial data in financial applications and GPS positioning system In the face of infinite, continuous and high-speed mass data, the traditional data mining technology is difficult to directly apply to the discovery of effective information in the mass data stream. Therefore, the data stream mining problem has an important research significance. In this paper, the frequent item set mining algorithm of multi data flow is used as the research object. First, the topic is expounded. The research background and significance of the research are summarized, and the research status about this topic at home and abroad is summarized. Secondly, the related technologies used in the process of data processing are expounded. Finally, two kinds of frequent itemset mining algorithms based on multi data stream environment are proposed. The main work of this paper can be divided into three aspects: (1) many studies are made. The data stream frequent itemset mining algorithm is a data storage structure, and a FP-Tree based compression frequent pattern tree is designed. In this paper, the characteristics and forms of the data flow are deeply analyzed and studied. A prefix tree storage structure based on the dictionary sequence is designed, and the log skew time window model is introduced in this structure. The window model can be updated incrementally, retain the number of frequent itemsets, improve the utilization of memory space and the spatial complexity of the algorithm to a certain extent. (2) the problem of multi data stream co frequent itemset mining is studied, and a multi data stream cooperative frequent itemset mining algorithm based on sliding window model is improved. Multi data stream co frequent itemsets mining, multi data stream synergetic frequent itemsets are the frequent occurrence of a group of objects in a very short time in a data stream or multiple data streams. First, the potential frequent itemsets and frequent itemsets in the data stream are found through the sliding window mining algorithm based on the byte sequence. Secondly, the frequent pattern tree is constructed to store the potential frequent itemsets and frequent itemsets in the multi data stream, and incrementally update the frequency of the corresponding item set in the log sloping timetable in the tree structure. Finally, the synergetic frequent itemsets in the multi data stream are obtained by the summary analysis. (3) the multi data flow Association in the distributed environment is studied. With the frequent itemset mining algorithm, the multi data stream co frequent itemset mining algorithm is parallelized. In the current large data background, the scale of the data flow presents a rapid growth trend, its arrival speed is very fast and the real-time performance of the processing results is very high. The computing ability of single computing nodes is difficult to bear the size of such a huge amount. Therefore, the traditional centralized frequent itemset mining algorithm can not cope with the increasing scale of data flow. In order to solve this problem, this paper uses the parallel computing model as an effective way, and designs a distributed index structure that can be distributed to different computing nodes, and can efficiently find the distributed loop. Synergetic frequent itemsets of multiple data streams in the border.

【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13

【参考文献】

相关期刊论文 前10条

1 王鑫;刘方爱;;改进的多数据流协同频繁项集挖掘算法[J];计算机应用;2016年07期

2 米允龙;米春桥;刘文奇;;海量数据挖掘过程相关技术研究进展[J];计算机科学与探索;2015年06期

3 江雨燕;李平;;基于PFP-Growth算法的海量频繁项集挖掘[J];计算机技术 与发展;2013年09期

4 毛伊敏;陈志刚;;在线挖掘数据流闭频繁项集的高效算法[J];计算机科学;2013年02期

5 李海峰;章宁;朱建明;曹怀虎;;时间敏感数据流上的频繁项集挖掘算法[J];计算机学报;2012年11期

6 王爽;王国仁;;基于滑动窗口的Top-K概率频繁项查询算法研究[J];计算机研究与发展;2012年10期

7 李建江;崔健;王聃;严林;黄义双;;MapReduce并行编程模型研究综述[J];电子学报;2011年11期

8 彭高辉;王志良;;数据挖掘中的数据预处理方法[J];华北水利水电学院学报;2008年06期

9 李国徽;陈辉;;挖掘数据流任意滑动时间窗口内频繁模式[J];软件学报;2008年10期

10 孙玉芬;卢炎生;;流数据挖掘综述[J];计算机科学;2007年01期

相关博士学位论文 前5条

1 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年

2 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年

3 王乐;数据流模式挖掘算法及应用研究[D];大连理工大学;2013年

4 倪萍;流数据挖掘关键技术研究[D];北京邮电大学;2010年

5 屠莉;流数据的频繁项挖掘及聚类的关键技术研究[D];南京航空航天大学;2009年

相关硕士学位论文 前8条

1 刘士佳;基于MapReduce框架的频繁项集挖掘算法研究[D];哈尔滨理工大学;2015年

2 白川平;数据流频繁项集挖掘算法的研究[D];兰州理工大学;2014年

3 刘宇;基于云计算的聚类挖掘算法及其应用研究[D];南京邮电大学;2014年

4 吕春阳;面向数据流的Top-k频繁闭项集挖掘算法研究[D];哈尔滨工程大学;2012年

5 李彦伟;基于关联规则的数据挖掘方法研究[D];江南大学;2011年

6 白云龙;基于Hadoop的数据挖掘算法研究与实现[D];北京邮电大学;2011年

7 姜文;基于Hadoop平台的数据分析和应用[D];北京邮电大学;2011年

8 姜军晓;一种流数据频繁模式挖掘算法的研究与实现[D];大连理工大学;2007年



本文编号:1894465

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1894465.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d182d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com