网络新闻多文档摘要系统的研究与实现
发布时间:2025-07-09 04:01
在网络中信息爆炸的大背景下,每一相同新闻主题中的信息存在着大量的冗余。不同编辑报道不同的新闻,会从成百上千种角度对新闻进行描述。这其中虽存在着不一样的重点信息,但同时也存在着大量的重复冗余。用户想要利用碎片时间在短时间内获取到新闻内容的精简信息已是难上加难。为了满足用户获取目标信息的需求,多文档自动摘要技术被越来越多的研究者们作为科研目标。所谓多文档摘要,即为在同一新闻主题下的多篇新闻文档中提取出该主题包含的关键信息,并去除大量冗余信息而组合成的内容摘要文档。通过阅读系统生成的新闻内容摘要文档可以让用户快捷而全面的了解到新闻关键信息,从而避免因冗余信息过多而浪费时间。同时若用户对某新闻或某主题产生兴趣,也可以对原版新闻内容进行详细阅读。本系统实现的主要需求模块包括新闻获取及预处理、新闻检索、摘要文档生成和数据分析报表。新闻获取及预处理模块主要是利用爬虫获取新闻数据并把数据处理为系统所需的格式。新闻检索模块可满足按照新闻内容、发布时间、渠道来源进行单项检索或复合检索的需求。摘要文档生成主要使用中科院NLPIR进行分词,而后基于语义词典进行语义去歧确定词语唯一词义,并根据网络新闻的特点对新词...
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景与意义
1.2 国内外相关工作
1.3 主要研究内容
1.4 本文主要工作及组织结构
第2章 相关工作
2.1 多新闻文档自动摘要
2.2 中文语料分词
2.3 语义去歧
2.4 新缩写词挖掘
2.5 新缩写词相似度计算
2.6 相似度计算
2.7 聚类算法
2.8 摘要句抽取
2.9 小结
第3章 系统总体设计
3.1 系统功能需求分析
3.1.1 系统总体需求分析
3.1.2 新闻获取及预处理需求分析
3.1.3 新闻检索需求分析
3.1.4 摘要文档生成需求分析
3.1.5 数据分析报表需求分析
3.2 系统总体设计
3.2.1 系统总体结构设计
3.2.2 系统各模块设计
3.3 数据存储设计
3.3.1 系统E-R图
3.3.2 数据库表
3.4 本章小结
第4章 系统关键技术
4.1 语义去歧
4.2 新缩写词挖掘
4.2.1 基于互信息的新缩写词挖掘
4.2.2 基于邻接熵的新缩写词挖掘范围判定
4.3 基于语义词典的相似度计算
4.3.1 常规词相似度计算
4.3.2 新缩写词相似度计算
4.4 基于密度的词语句子聚类分析
4.4.1 词语聚类
4.4.2 句子聚类
4.5 内容判定的评分方式
4.5.1 子主题内容判定
4.5.2 句子内容判定
4.6 句法识别的评分方式
4.7 本章小结
第5章 系统实现与测试
5.1 系统主要功能模块实现
5.1.1 新闻获取及预处理功能实现
5.1.2 新闻检索功能实现
5.1.3 摘要文档生成功能实现
5.1.4 数据分析报表功能实现
5.2 多新闻文档摘要评分方法分析
5.3 实验结果与分析
5.4 系统功能测试
5.4.1 新闻获取及预处理测试用例
5.4.2 新闻检索测试用例
5.4.3 摘要文档生成测试用例
5.4.4 数据分析报表测试用例
5.5 系统性能测试
5.6 本章小结
第6章 总结与展望
6.1 研究结论
6.2 论文展望
致谢
参考文献
攻读学位期间发表的学术论文以及参加科研情况
本文编号:4057119
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 研究背景与意义
1.2 国内外相关工作
1.3 主要研究内容
1.4 本文主要工作及组织结构
第2章 相关工作
2.1 多新闻文档自动摘要
2.2 中文语料分词
2.3 语义去歧
2.4 新缩写词挖掘
2.5 新缩写词相似度计算
2.6 相似度计算
2.7 聚类算法
2.8 摘要句抽取
2.9 小结
第3章 系统总体设计
3.1 系统功能需求分析
3.1.1 系统总体需求分析
3.1.2 新闻获取及预处理需求分析
3.1.3 新闻检索需求分析
3.1.4 摘要文档生成需求分析
3.1.5 数据分析报表需求分析
3.2 系统总体设计
3.2.1 系统总体结构设计
3.2.2 系统各模块设计
3.3 数据存储设计
3.3.1 系统E-R图
3.3.2 数据库表
3.4 本章小结
第4章 系统关键技术
4.1 语义去歧
4.2 新缩写词挖掘
4.2.1 基于互信息的新缩写词挖掘
4.2.2 基于邻接熵的新缩写词挖掘范围判定
4.3 基于语义词典的相似度计算
4.3.1 常规词相似度计算
4.3.2 新缩写词相似度计算
4.4 基于密度的词语句子聚类分析
4.4.1 词语聚类
4.4.2 句子聚类
4.5 内容判定的评分方式
4.5.1 子主题内容判定
4.5.2 句子内容判定
4.6 句法识别的评分方式
4.7 本章小结
第5章 系统实现与测试
5.1 系统主要功能模块实现
5.1.1 新闻获取及预处理功能实现
5.1.2 新闻检索功能实现
5.1.3 摘要文档生成功能实现
5.1.4 数据分析报表功能实现
5.2 多新闻文档摘要评分方法分析
5.3 实验结果与分析
5.4 系统功能测试
5.4.1 新闻获取及预处理测试用例
5.4.2 新闻检索测试用例
5.4.3 摘要文档生成测试用例
5.4.4 数据分析报表测试用例
5.5 系统性能测试
5.6 本章小结
第6章 总结与展望
6.1 研究结论
6.2 论文展望
致谢
参考文献
攻读学位期间发表的学术论文以及参加科研情况
本文编号:4057119
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/4057119.html
上一篇:区块链技术在会计行业的应用模式研究
下一篇:没有了
下一篇:没有了
最近更新
教材专著