当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于小型搜索引擎的中文问答系统的设计与实现

发布时间:2020-07-07 12:55
【摘要】:如今在互联网上获得各种信息已经是一件与生活息息相关的事情,然而用户经常会用到的传统搜索引擎有很多缺点,例如搜索引擎的基于关键字查询,并不能够很好地表明用户的查询意图,而且返回的查询结果是一大堆相关网页,包含很多无用的信息,用户很难快速、准确地找到自己所需要的信息。问答系统正是为了克服搜索引擎这些缺点而产生,它允许用户使用自然语言的形式进行提问,返回给用户的结果是简短、精确的答案,而不是大量相关的网页,所以问答系统的研究具有很大的实际意义。但是由于中文文字的特殊性和复杂性,中文信息处理技术有较大的难度,所以中文问答系统较国外来说还不够成熟,因此有必要对其进行深入的研究。 本文主要致力于一个简单问答系统的完整功能的设计与实现。问答系统包括三个部分:问题分析、信息检索和答案抽取。虽然搜索引擎有其不足之处,但是搜索引擎的搜集文档功能是问答系统的关键技术。目前,有很多成熟大型的搜索引擎,例如谷歌、百度和有道等等,但是本文对搜索引擎的结构体系和实现方法进行了研究,在自己的实验环境下搭建了一个小型搜索引擎,“小型”不是指功能上的省略,而主要是指网页收集规模和存储空间的使用两个方面。搜索引擎的设计包括了三个子系统的详细设计:搜集子系统、索引建立子系统和检索子系统。其中包含的关键技术和算法:并行抓取技术、启发式搜集策略、镜像消除技术、高效率索引技术、相关度评价策略等等。 在着力于信息检索模块的搜索引擎设计之外,本文对如何从信息检索得到的相关网页和文档中抽取出答案做了研究,即答案抽取模块。它是问答系统最为核心的模块之一,它的抽取方法好坏直接影响着问答系统性能的优劣。这里采取了一种基于语义依存树的相似度计算方法,结合句子的语义和句法结构来计算问句和候选答案句之间的相似度,通过比较相似度的高低来筛选出答案返回给用户。本文的实验采用TREC评测标准,实验中事实型问题的答案抽取平均MRR值为0.6915,定义型问题答案抽取MRR平均值为0.6524。实验表明,该基于小型搜索引擎的问答系统可以正常工作,并且该答案抽取方法有较高的MRR值,具有较高的答案抽取的准确度。
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【图文】:

问题分析,模块结构图


⑷范ㄎ侍獾睦啾鸬取N侍夥治瞿?榈慕峁雇既缦拢和?2.2 问题分析模块结构图2.2.1 词法分析在英语中,每个单词就一个词语,单词之间有着明显的分界符-空格,但是中文汉字之间没有分隔符,所以,中文信息处理的首要步骤就是分词,中文的自动分词是各种信息处理包括语音处理、词频统计、主题词索引、文摘生成、情报检索、中文句法分析等工作的基础工程,也是制约中文信息处理飞跃的“瓶颈”之一[9]。对于英文问答系统来说,就不需要分词等,但是英语单词会有词性等变化,在去除停用词之后需要抽取词根。词法分析的主要工作有两块:中文分词和词形标注。

结构图,经典,结构图,倒排索引


最后将检索的结果返回给下一模块。它可以帮助答案抽取模块缩小抽工作量。众所周知,Google 是全球最大的商业搜索引擎,它主要由三个子系统构成:搜引和检索子系统。Google 的网页收集工作是由多个分布式的 Crawler 共同完成的。个 URL Server 将所要抓取的 URL 列表发送给每一个 Crawler,Crawler 将实际抓取页发送给 Store Server 并保存在 Repository 当中。索引子系统的工作主要由 Indexer 和 Sorter 完成,Indexer 从 Repository 读取内容并进行解析,将解析的结果写入 Barrels 当中,建立起一组正向索引(也称前引)。Sorter 在根据 Barrels 中的正向索引信息,建立倒排索引结构,用于提供查务。Searcher 提供了检索服务的用户接口,它先将用户需要查询的关键字信息进行,从倒排索引中找出符合的结果。再根据 Google 特有的 PageRank 技术,将结果进关度排序,返回给用户。如下为经典搜索引擎的结构图:

流程图,流程图,答案,答案抽取


下图为检索模块流程图:图 2.4 检索模块流程图2.4 答案抽取答案抽取是问答系统最后一个关键步骤,对于一般的搜索引擎,其返回的结果是一大堆网页,而问答系统返回的却是简介明了的答案,这是问答系统区别于搜索引擎的重要原因。问答系统前面的处理都是为答案抽取准备的,答案抽取的对象是信息检索返回的相关文档和网页,处理后所形成的候选答案集。答案抽取中答案的形式有多种:以词或短语作为答案,对于那些询问时间、地点的问题,用一个比较简短的词和短语就可以回答的问题,就采用以词或短语的形式返回答案。如问:“吉林大学成立于哪一年?”答案是:“1946 年”;以句子作为答案:对于询问原因、方法的问题就无法用一个词和短语来回答,就得用一个句子来回答。如问:“什么是飞机?”。答案是:“指具有机翼和一具或多具发动机,靠自身动力能在太空或者大气中飞行的密度大于空气的航空器。”;以文摘作为答案:对于有些短语或者一句话很难说清楚的问题,比如对于问题“美国 911 时间是怎么回事?”。像这种问题,在互联网上有许多相关的报道,如果把这些相关报道都交给用户的话,那么用户将要花很多时间来阅读。如果能把这些相关报道做成一个简短的文摘,让用户只要看文摘就能知道整个事件的前因后果。这就需要用到多文档自动文摘技术。多文档自动文摘模块把信息检索模块检索出来的相关文档做成文摘,再把这个文摘作为答案返?

【参考文献】

相关期刊论文 前9条

1 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期

2 王树西;问答系统:核心技术、发展趋势[J];计算机工程与应用;2005年18期

3 张晓艳;王挺;陈火旺;;基于混合统计模型的汉语命名实体识别方法[J];计算机工程与科学;2006年06期

4 胡宝顺;王大玲;于戈;马婷;;基于句法结构特征分析及分类技术的答案提取算法[J];计算机学报;2008年04期

5 马玉春,宋瀚涛;Web中文文本分词技术研究[J];计算机应用;2004年04期

6 李彬,刘挺,秦兵,李生;基于语义依存的汉语句子相似度计算[J];计算机应用研究;2003年12期

7 刘宝艳;林鸿飞;赵晶;;基于改进编辑距离和依存文法的汉语句子相似度计算[J];计算机应用与软件;2008年07期

8 郑实福,刘挺,秦兵,李生;自动问答综述[J];中文信息学报;2002年06期

9 张宇,刘挺,文勖;基于改进贝叶斯模型的问题分类[J];中文信息学报;2005年02期



本文编号:2745143

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2745143.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b361a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com