当前位置:主页 > 管理论文 > 科研管理论文 >

中文专利自动分类特征选择与特征加权方法研究

发布时间:2017-07-15 13:30

  本文关键词:中文专利自动分类特征选择与特征加权方法研究


  更多相关文章: 专利自动分类 特征选择 特征加权 加权因子


【摘要】:面对海量专利数据的分类,传统的手工分类方式已经无法满足人们的需求,因此如何实现专利快速有效的自动分类,成为专利分析处理工作的关键问题。在现有的专利自动分类技术的基础上,本文就中文专利自动分类中特征选择算法以及特征加权算法两个方面的问题开展研究。 在对中文专利文本进行特征选择时,本文提出在信息增益算法的基础上,引入词频加权因子以突出词频因素对于特征选择的作用;引入类间分散度加权因子以强调类间分布因素对于特征选择的影响,引入调节因子以降低处理不均衡专利数据集时不出现的特征词的负面影响。在计算特征权重时,本文结合专利文本的结构特点,提出引入类间分散度加权因子与位置加权因子,引入类间分散度加权因子可以突出分布类别少、出现频率高的特征词的权重;引入位置加权因子,可以突出专利的法律特性和技术特性以及组成专利各元素内容的差异性。最后通过对比试验证明,本文提出的改进方法是有效的。
【关键词】:专利自动分类 特征选择 特征加权 加权因子
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1;G306
【目录】:
  • 摘要3-4
  • Abstract4-7
  • 第一章 绪论7-11
  • 1.1 研究背景及意义7-8
  • 1.2 国内外研究现状8-9
  • 1.3 论文研究内容9-10
  • 1.4 论文结构10-11
  • 第二章 专利的相关理论与文本分类技术11-21
  • 2.1 专利的相关理论11
  • 2.1.1 专利的基本概念11
  • 2.1.2 专利的组成结构11
  • 2.2 文本分类体系结构11-12
  • 2.3 中文文本分类的关键技术12-20
  • 2.3.1 文本预处理12-15
  • 2.3.2 文本表示15-17
  • 2.3.3 文本分类算法17-20
  • 2.4 本章小结20-21
  • 第三章 特征选择算法与特征加权算法的改进研究21-33
  • 3.1 常用特征选择算法21-23
  • 3.1.1 文档频率21
  • 3.1.2 互信息21-22
  • 3.1.3 CHI 统计22-23
  • 3.1.4 信息增益23
  • 3.2 中文专利自动分类中信息增益特征选择算法的局限性23-25
  • 3.3 改进的适用于中文专利自动分类的特征选择算法25-26
  • 3.4 特征权重评估26-28
  • 3.4.1 布尔权重27
  • 3.4.2 词频权重27
  • 3.4.3 TF-IDF 权重27-28
  • 3.5 中文专利自动分类中 TF-IDF 特征加权算法的局限性28-29
  • 3.6 改进的适用于中文专利自动分类的特征加权算法29-30
  • 3.7 改进的中文专利自动分类方法30-32
  • 3.8 本章小结32-33
  • 第四章 中文专利自动分类实验与结果分析33-53
  • 4.1 原型系统33-39
  • 4.1.1 系统环境与开发工具33
  • 4.1.2 分类系统设计33-34
  • 4.1.3 原型系统概览34-39
  • 4.2 实验介绍39-43
  • 4.2.1 分类评价指标39-41
  • 4.2.2 实验设计41
  • 4.2.3 实验数据41-42
  • 4.2.4 实验步骤42-43
  • 4.3 实验结果43-50
  • 4.3.1 混淆矩阵43-44
  • 4.3.2 各个类的精确率、召回率、F_1值44-48
  • 4.3.3 总体精确率、召回率、F_1值48-50
  • 4.4 实验分析50-51
  • 4.5 本章小结51-53
  • 第五章 总结与展望53-55
  • 5.1 论文总结53-54
  • 5.2 研究展望54-55
  • 致谢55-57
  • 参考文献57-61
  • 附录 A61-66
  • 硕士期间研究成果66-67

【参考文献】

中国期刊全文数据库 前10条

1 邓擘;樊孝忠;杨立公;;基于统计分布与集合论的文本分类方法[J];北京理工大学学报;2006年07期

2 段灵修;林俊;黄达臻;黄志华;;中文专利文本特征提取方法研究[J];福建电脑;2011年12期

3 丁月华,文贵华,郭炜强;基于核向量空间模型的专利分类[J];华南理工大学学报(自然科学版);2005年08期

4 李程雄;丁月华;文贵华;;SVM-KNN组合改进算法在专利文本分类中的应用[J];计算机工程与应用;2006年20期

5 台德艺;王俊;;文本分类特征权重改进算法[J];计算机工程;2010年09期

6 马玉春,宋瀚涛;Web中文文本分词技术研究[J];计算机应用;2004年04期

7 蒋健安;陆介平;倪巍伟;孙志挥;;一种面向专利文献数据的文本自动分类方法[J];计算机应用;2008年01期

8 施聪莺;徐朝军;杨晓江;;TFIDF算法研究综述[J];计算机应用;2009年S1期

9 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期

10 周茜,赵明生,扈e,

本文编号:544132


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/keyanlw/544132.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户eecda***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com