基于Doc2Vec和改进的TextRank的中文单文档摘要研究
发布时间:2025-06-25 22:56
20世纪以来,计算机的普及与应用极大地改变了人们的日常生活,并且给人类带来了诸多的好处,人们可以通过互联网上大量的信息汲取到自己所需的知识。自动文本摘要技术通过使用计算机对文本进行处理,分析文本并生成摘要输出,使人们快速获取文本的关键信息。自动文本摘要技术从上世纪50年代被提出以来,经历了较大的发展。目前,在文本摘要方面,国外已经出现了较多应用,并且能够取得不错的效果。汉语自动摘要的提取出现较晚,且由于汉语语言本身存在一定的特殊性,故不能直接利用国外的方法进行摘要提取,需研究适合中文文本的摘要方法。国内目前已经存在的相关系统的应用效果还有待提高,同时针对中文文本摘要技术的改进具有重要意义。本文提出了 DK-TextRank算法,较好地利用了 Doc2Vec、K-means聚类和TextRank算法各自的特点。先利用Doc2Vec工具将文本中句子向量化;后利用二分的K-means聚类算法进行聚类操作;最后使用改进的TextRank算法在每个类簇内部进行排序,最终筛选出每个类簇中最具代表的句子,生成最终的摘要。最后,为了说明本文提出的DK-TextRank算法的有效性,我们搭建了相关实验环境...
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景
1.2 研究历史及现状
1.2.1 国外研究历史及现状
1.2.2 国内研究历史及现状
1.3 研究内容及意义
1.4 本文的组织结构
第二章 文本摘要相关研究与技术
2.1 文本表示模型
2.1.1 向量空间模型
2.1.2 基于图的文本表示模型
2.1.3 LDA模型
2.2 Doc2Vec工具简介
2.2.1 Doc2Vec算法
2.2.2 Doc2Vec模型
2.2.3 Doc2Vec模型优缺点
2.2.4 基于Doc2Vec模型的文本特征提取方法
2.3 TextRank算法
2.3.1 PageRank算法
2.3.2 Text Rank简介
2.4 本章小结
第三章 改进的文本摘要算法
3.1 DK-TextRank算法流程
3.2 使用Doc2Vec方法将句子向量化
3.3 改进的K-means聚类
3.3.1 K-means聚类算法的简介
3.3.2 K-means聚类算法的改进
3.3.3 用K-means聚类算法对文本向量聚类
3.3.4 K-means小结
3.4 改进的TextRank算法
3.4.1 TextRank算法对文本向量的处理
3.4.2 文本特征的影响
3.4.3 改进的TextRank算法小结
3.5 本章小结
第四章 文本摘要流程的实现
4.1 摘要流程描述
4.2 文本预处理
4.3 句子的向量化表示
4.4 筛选过滤句子
4.5 改进的K-means聚类
4.6 改进的TextRank权值计算
4.7 摘要输出
4.8 本章小结
第五章 实验与分析
5.1 实验语料库
5.2 实验环境
5.3 评价标准
5.4 中文单文档自动摘要系统的实现
5.4.1 系统概要设计
5.4.2 系统功能设计
5.4.3 系统实现
5.5 实验与结果分析
5.5.1 实验文档聚类中心实验
5.5.2 算法效果对比实验
5.6 本章小结
第六章 总结与展望
6.1 工作总结
6.2 展望
参考文献
致谢
在学期间发表的学术论文及取得的研究成果
本文编号:4052747
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景
1.2 研究历史及现状
1.2.1 国外研究历史及现状
1.2.2 国内研究历史及现状
1.3 研究内容及意义
1.4 本文的组织结构
第二章 文本摘要相关研究与技术
2.1 文本表示模型
2.1.1 向量空间模型
2.1.2 基于图的文本表示模型
2.1.3 LDA模型
2.2 Doc2Vec工具简介
2.2.1 Doc2Vec算法
2.2.2 Doc2Vec模型
2.2.3 Doc2Vec模型优缺点
2.2.4 基于Doc2Vec模型的文本特征提取方法
2.3 TextRank算法
2.3.1 PageRank算法
2.3.2 Text Rank简介
2.4 本章小结
第三章 改进的文本摘要算法
3.1 DK-TextRank算法流程
3.2 使用Doc2Vec方法将句子向量化
3.3 改进的K-means聚类
3.3.1 K-means聚类算法的简介
3.3.2 K-means聚类算法的改进
3.3.3 用K-means聚类算法对文本向量聚类
3.3.4 K-means小结
3.4 改进的TextRank算法
3.4.1 TextRank算法对文本向量的处理
3.4.2 文本特征的影响
3.4.3 改进的TextRank算法小结
3.5 本章小结
第四章 文本摘要流程的实现
4.1 摘要流程描述
4.2 文本预处理
4.3 句子的向量化表示
4.4 筛选过滤句子
4.5 改进的K-means聚类
4.6 改进的TextRank权值计算
4.7 摘要输出
4.8 本章小结
第五章 实验与分析
5.1 实验语料库
5.2 实验环境
5.3 评价标准
5.4 中文单文档自动摘要系统的实现
5.4.1 系统概要设计
5.4.2 系统功能设计
5.4.3 系统实现
5.5 实验与结果分析
5.5.1 实验文档聚类中心实验
5.5.2 算法效果对比实验
5.6 本章小结
第六章 总结与展望
6.1 工作总结
6.2 展望
参考文献
致谢
在学期间发表的学术论文及取得的研究成果
本文编号:4052747
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/4052747.html
最近更新
教材专著