半结构化数据的聚类研究及在产品设计中的应用
发布时间:2017-10-29 11:22
本文关键词:半结构化数据的聚类研究及在产品设计中的应用
更多相关文章: 半结构化数据 XML文档 标签 语义相似度 聚类
【摘要】:随着计算机网络以及数据库技术的快速发展,各领域积累的半结构化数据和信息急剧增加,迫切需要面向知识发现的方法,而数据挖掘的出现与应用,为这一目的提供了强大的工具。通过利用半结构化数据的内容和结构信息,配合数据挖掘算法,可以从大量半结构化数据中提取用于描述结构特征以及内容的信息,并进行综合以对半结构化数据进行深层次的潜在知识发现,而发现的知识能为决策者提供良好的数据支持。半结构化数据有很多类型,而其中XML文档是半结构化数据的典型代表,所以本文以XML文档作为半结构化数据研究对象,并讨论基于XML产品设计文档的聚类方法。XML文档是结构信息和内容信息的综合体,因此对XML文档的聚类处理需要考虑XML文档的结构信息和内容信息。XML文档聚类的过程主要为:文档表示、相似度计算以及聚类处理。本文也从这三个过程对XML文档聚类进行分析研究。第一、对XML文档一般的表示方法树形结构和树路径集合的优缺点进行分析总结。分析XML文档特征,在前人提出的基于层次的表示方法的基础上,对该方法作了改进,定义了信息表达式,加入了文本内容,父节点以及层次信息,使信息表示更完整和精确。第二、在XML文档相似度计算阶段,为了充分考虑XML文档标签的信息,加入标签的语义信息,并基于语义词典计算它们的语义相似度。对于基于XML的产品设计文档,一般语义词典缺乏相关领域专业术语,对此,本文通过加入领域专业术语词典对标签语义的相似度计算进行扩展。同时,不同XML文档中拥有相同子节点的父节点表示的信息有可能不一致,以致影响相似度的计算结果。根据分析基于XML的产品设计文档的特点,可以将父节点的信息进一步抽象化,用更抽象化的节点信息来取代。因此,为了解决这一问题,在构建信息表达式阶段,加入专业术语词典对非专业术语的节点进行约简。第三、介绍分析了凝聚层次聚类以及建立了基于XML的产品描述文档的聚类模型,并对其进行了设计与实现,并将这个聚类模型应用于机械传动设计中,得到了理想的结果,同时与基于树路径集合表示方法的聚类结果相对比,也得到了较好的结果,验证了本文所建立模型的有效性。
【关键词】:半结构化数据 XML文档 标签 语义相似度 聚类
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13;TB472
【目录】:
- 摘要5-6
- ABSTRACT6-10
- 符号对照表10-11
- 缩略语对照表11-15
- 第一章 绪论15-21
- 1.1 研究背景与意义15
- 1.2 半结构化数据概述15-18
- 1.2.1 半结构化数据简介15-17
- 1.2.2 半结构化数据的描述方法17-18
- 1.3 半结构化数据聚类研究的现状18-19
- 1.4 论文的主要工作内容19-21
- 第二章 半结构化数据聚类的相关知识21-31
- 2.1 XML概述21-22
- 2.2 XML文档22-24
- 2.2.1 XML文档简介22-23
- 2.2.2 XML文档特征分析23
- 2.2.3 XML文档解析23-24
- 2.3 产品设计文档24-25
- 2.3.1 一般产品设计文档24
- 2.3.2 基于XML的产品设计文档24-25
- 2.4 聚类概述25-29
- 2.4.1 聚类的概念25-26
- 2.4.2 常用的聚类算法26-27
- 2.4.3 聚类质量评价27-28
- 2.4.4 聚类应用的介绍28-29
- 2.5 XML文档聚类的特点29-30
- 2.6 本章小结30-31
- 第三章 半结构化数据的聚类分析31-49
- 3.1 半结构化文档聚类过程31-32
- 3.2 XML文档表示方法分析32-34
- 3.3 信息表达式表示方法34-36
- 3.4 相似度计算方法36-45
- 3.4.1 信息表达式的相似度计算36-37
- 3.4.2 标签语义相似度计算37-40
- 3.4.3 标签语义相似度计算扩展40-42
- 3.4.4 约简路径42-45
- 3.5 XML文档聚类方法分析45-47
- 3.6 聚类模型47
- 3.7 本章小结47-49
- 第四章 半结构化数据聚类方案的设计49-61
- 4.1 半结构化数据聚类整体过程49-50
- 4.2 XML文档的数据结构50
- 4.3 构建信息表达式50-52
- 4.3.1 约简路径流程50-51
- 4.3.2 构建信息表达式流程51-52
- 4.4 节点间语义相似度计算52-54
- 4.4.1 节点间语义相似度计算流程52-53
- 4.4.2 分词计算相似度流程53-54
- 4.5 XML文档之间相似度的计算54-58
- 4.5.1 节点集合之间语义相似度计算流程55
- 4.5.2 信息表达式之间相似度计算流程55-57
- 4.5.3 XML文档间相似度计算流程57-58
- 4.6 XML文档聚类流程58-59
- 4.7 本章小结59-61
- 第五章 半结构化数据聚类在机械产品设计中的应用61-71
- 5.1 机械产品设计中的半结构化数据聚类61
- 5.2 机械传动设计61-62
- 5.3 基于XML产品设计文档的聚类实例62-67
- 5.4 与基于树路径集合表示方法的聚类相比67-68
- 5.5 本章小结68-71
- 第六章 总结与展望71-73
- 6.1 研究结论71
- 6.2 研究展望71-73
- 参考文献73-75
- 致谢75-77
- 作者简介77-78
【参考文献】
中国期刊全文数据库 前10条
1 孔令信;;面向半结构化数据的数据模型和数据挖掘方法研究[J];煤炭技术;2012年12期
2 钟敏娟;;基于内容与结构语义相融合的XML检索结果聚类[J];情报学报;2012年05期
3 潘有能;滕海明;;基于语义标记树的XML文档聚类研究[J];情报学报;2012年05期
4 李巍;孙涛;陈建孝;罗梓恒;李雄飞;;基于加权余弦相似度的XML文档聚类研究[J];吉林大学学报(信息科学版);2010年01期
5 江敏;肖诗斌;王弘蔚;施水才;;一种改进的基于《知网》的词语语义相似度计算[J];中文信息学报;2008年05期
6 杨厚群;何中市;雷景生;;基于划分的XML文档聚类研究[J];计算机科学;2008年03期
7 王玲;薄列峰;焦李成;;密度敏感的半监督谱聚类[J];软件学报;2007年10期
8 余洋;;聚类在信息检索领域中的应用研究[J];情报理论与实践;2007年03期
9 贺玲;吴玲达;蔡益朝;;数据挖掘中的聚类算法综述[J];计算机应用研究;2007年01期
10 郝晓丽,冯志勇;XML结构聚类[J];计算机应用;2005年06期
,本文编号:1112782
本文链接:https://www.wllwen.com/guanlilunwen/gongchengguanli/1112782.html