当前位置:主页 > 社科论文 > 图书档案论文 >

基于主题模型的模块化网络和社区挖掘研究

发布时间:2025-07-09 06:14
  随着计算机技术和网络技术的发展,大量的数字图书馆被建设,给我们提供了丰富的数字化信息资源和大量的文献数据信息。文献数据包括了大量的信息,如文本信息、链接信息、社会信息,通过对其进行分析和挖掘,可以发现大量有用或潜在的知识,能够有效地提高研究者对科技文献的整理和总结,对研究领域的理解和把握,进而帮助和指导研究者开展更加有效的科学研究工作。 本文主要针对文献数据,进行了一些挖掘研究和分析,主要的工作内容,创新贡献如下: 1)引入文献数据中的会议信息到主题模型中,提出了Conference-Author-Topic的主题抽取模型,不仅可以获得文献数据整体的主题信息,同时也挖掘了作者和会议的主题分布。改进后的CAT主题模型使得抽取的主题更加准确和合理,也方便了对作者、会议在主题信息上的进一步分析和研究工作; 2)在主题抽取的基础上,提出了主题相互影响的模块化网络的构造方法。首先从主题模型的结果中获得主题强度的时间序列数据,对其采用分段线性化来消除局部波动,最后构造主题相互影响的模块化网络。模块化网络的构造使研究者能够准确地理解研究领域的演化规律,掌握发展趋势,指导科研工作的开展...

【文章页数】:73 页

【学位级别】:硕士

【部分图文】:

图1.1数据挖掘的全过程示意描述数据挖掘的兴起只有十几年的时间,它仍然处在早期阶段,还有很多的研究

图1.1数据挖掘的全过程示意描述数据挖掘的兴起只有十几年的时间,它仍然处在早期阶段,还有很多的研究

预测趋势和决策行为也许是非常有价值的。KDD过程主要包括几个阶段:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示等,如图1.1所示。其每步的具体的工作如下:.数据准备:了解KDD应用领域的有关情况。包括熟悉相关的背景知识,搞清用户需求。.数据选取:数据选取的....


图1.3研究者合作网络实例如果简单的把传统的挖掘方法应用到这类的数据上面,我们得到的结果将会不准确

图1.3研究者合作网络实例如果简单的把传统的挖掘方法应用到这类的数据上面,我们得到的结果将会不准确

(fiequentPattem),而忽略了实体之间的关系(link),或者是仅认为实体间只有一种关系。但现实数据往往是复杂的,结构化的,异类的,这种类型的数据一般是用网络(network)或图形(graPh)来表示,如图1.3表示了一个研究者相互合作的关系网络。它们的节点(即实体....


图1.5DBLp(浅色)和Citesee:(深色)每年的文章数比较

图1.5DBLp(浅色)和Citesee:(深色)每年的文章数比较

1.5DBLp(浅色)和Citesee:(深色)每年的文章数比较DigitalLibra叮(http://portal.aem.org/Portal.cfm书馆收集了美国计算机协会(AssociationforCompM)在1985年之后出版的期刊论文与会议论文的条目、文资料,会....


图2.2LDA主题模型

图2.2LDA主题模型

图2.2LDA主题模型型产生文本的过程如下:于每个主题Z,从具有参数刀的Dirichlet分布选取一个多项式于每篇文章d,从参数为a的Dirichlet分布选取一个多项式分于文章中的每个词w,从多项式分布ea中选取一个主题z任{1多项式九来选择词w。得,生成一个文档的概率过程为:....



本文编号:4057288

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/4057288.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c721d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com