当前位置:主页 > 社科论文 > 图书档案论文 >

基于复杂网络的关键词提取研究

发布时间:2025-06-04 02:21
  在信息爆炸时代,信息量呈几何级数增长。面对海量文本,如何快速掌握某篇文章的主题、把握作者思想,成为节约读者时间、提高阅读速度的关键问题。关键词作为文章主题和作者思想的体现能够有效解决该问题。然而,网络上的绝大部分文章并未提供关键词,如果对这些文本采取人工标引的方法进行关键词标注,不仅费时费力、效率低下,而且主观随意性比较大。因此,关键词自动提取的研究具有重要的现实意义。 传统的关键词提取算法只注重文档的表层统计特性(如词频、词语位置、词语长度等),忽略文档的语义信息和结构信息,导致关键词语义和结构信息的缺失。而现有基于词语网络的关键词提取算法,虽然在一定程度上利用了文档的结构信息,但语义信息的利用依然不足,并且网络的构造过程过分依赖于分词的粒度。 针对上述问题,本文对基于复杂网络的关键词提取进行了研究。首先针对传统词语网络构造过程中过分依赖分词粒度的不足,提出一种邻近名词合并的算法,在ICTCLAS初步分词的基础上利用提出的邻近词合并算法识别出名词短语,并将短语添加到分词词典中,然后对待处理文档重新进行分词;其次针对传统词语网络语义缺失的问题,在文本复杂网络的构建过程中利用知...

【文章页数】:66 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 研究背景和意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 国内外研究现状
    1.3 论文主要研究内容
    1.4 论文结构
第二章 关键词提取的相关技术
    2.1 引言
    2.2 中文分词技术
    2.3 复杂网络概念及相关理论
    2.4 关键词提取相关算法
    2.5 本章小结
第三章 基于复杂网络的关键词提取算法
    3.1 引言
    3.2 文本复杂网络的构造
        3.2.1 预处理过程
        3.2.2 基于知网的相似度计算
        3.2.3 构造网络
    3.3 节点重要度计算方法
        3.3.1 加权点度中心度
        3.3.2 节点介数
        3.3.3 综合计算公式
    3.4 关键词提取流程
    3.5 本章小结
第四章 关键词提取实验与结果分析
    4.1 引言
    4.2 原型系统介绍
        4.2.1 系统环境
        4.2.2 实验数据
        4.2.3 原型系统概览
    4.3 实验与结果分析
        4.3.1 邻近词合并实验
        4.3.2 相似节点合并实验
        4.3.3 节点重要度计算实验
        4.3.4 关键词提取实验
    4.5 本章小结
第五章 总结与展望
    5.1 本文总结
    5.2 进一步的工作
致谢
参考文献
读研期间研究成果
附录一:“讲话”分词结果
附录二:“讲话”再分词结果



本文编号:4049172

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/4049172.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4b454***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com