当前位置:主页 > 科技论文 > 搜索引擎论文 >

信息检索系统性能评价与预测分析

发布时间:2020-08-02 19:46
【摘要】:自20世纪90年代以来,Web搜索引擎技术蓬勃发展。它已成为全球数十亿人获取信息的重要途径。在信息检索技术中,检索结果评价是一个重要环节,因为检索结果的有效性在很大程度上决定了检索系统的可用性。围绕这个问题,本文开展了一系列相关的工作。分述如下:(1)传统的搜索引擎只考虑相关性,但近年来研究人员发现多样性也是衡量查询结果好坏的一个重要因素,特别是对于一些语义宽泛、模糊的查询尤其如此。学术界提出了不少支持检索结果多样化的算法。因此,我们提出了解国际上主要的商业搜索引擎应用最新技术的情况。我们选择了三个有代表性的搜索引擎Google,Bing和Ask,评估它们支持结果多样化的有效性。并将这些商用网络搜索引擎与学术界表现最好的信息检索系统进行比较,发现三个参与的商用网络搜索引擎性能优秀,与学术界表现最好的信息检索系统性能相似。(2)由于准确的判断检索结果的有效性需要较多的人力、时间等多种资源,因此一些快速、轻型的方式就很有用处。如果在未返回结果给用户之前,搜索引擎能够自动判断有关结果的性能,那么对于提高搜索引擎的可用性有很大帮助。我们通过分析的手段,发现现有性能预测算法的一些不足之处,提出了两种支持结果多样化的查询性能预测方法,分别为基于子意图感知预测(Intent-Aware Prediction,IAP)和基于子意图覆盖预测(Intent-Covered Prediction,ICP)。实验结果表明所提的两种方法预测效果较佳,并且比传统查询性能预测方法更适用于多样化结果。(3)数据融合是构建有效的信息检索系统的一种可行的方法。针对信息检索中的融合结果,本文提出了一种基于随机森林的性能预测方法。实验表明,与典型的性能预测算法——回归分析法相比,应用随机森林算法可有效地提高预测准确度。
【学位授予单位】:江苏大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.3
【图文】:

模糊查询,会议,多样性


3.2.1 查询集实验选取 TREC Web 多样性任务 2009-2012 年间采用的 200 个查询。TREC的全称是文本检索会议(Text REtrieval Conference),它是信息检索领域的顶级会议之一。自 1992 年举办以来,该会议发布了许多不同的任务,每年都有众多研究组织提交检索结果。Web 多样性任务是近年来兴起的主要任务之一,与相关性(Ad Hoc)任务相比,它新增了对结果多样化的要求。该任务中,所有查询被分为两种类型:“模糊查询”和“多面查询”。根据 TREC 的定义[65],模糊查询通常具有多种完全不同的解释,假设用户只对其中的一种释义感兴趣。多面查询通常比较宽泛,具有许多相关的方面,对一个方面感兴趣的用户仍可能对其他方面感兴趣。TREC 称不同的解释或方面为查询的子主题(subtopic)。图 3.1 和图3.2 分别是模糊查询的示例和多面查询的示例(2009 年第 25 号查询和 2010 年第75 号查询)。

主题,信息类,解释方式,导向作用


图 3.2 TREC 中的一个多面查询(第 75 号查询)图 3.1 中的查询包含四个子主题,其中两个是信息类(inf)子主题,另外两个是导航类(nav)子主题。图 3.2 中的查询也包含四个子主题,其中三个是信息类子主题,一个是导航类子主题。信息类子主题通常用于获取某种信息,它的特点是帮助用户获取新的知识。而导航类子主题一般用于搜索具有导向作用的URL 等,为用户免去直接输入 URL 的繁琐步骤。事实上,每个模糊或多面查询都可能有很多的解释方式,即包含多个不同的子主题,即便是 TREC 提供的子主题列表也未必完整。因此,本章将搜索引擎的评价工作分为两个部分讨论:第一部分中,仅考虑 TREC 中列出的子主题

主题,信息类,详情


它们都有四个子主题。但当检索到更多的文档时,可延伸出更多。实验中,我们为 25 号查询添加了另外五个子主题,包括两个信息类三个导航类子主题,为 75 号查询添加了两个信息类子主题。图 3.3 和别显示了对相应子主题集合的扩展详情。

【相似文献】

相关期刊论文 前10条

1 袁静;;企业用户信息检索模式研究[J];中国管理信息化;2019年18期

2 陈界;;关于“信息检索学”是否存在问题的探讨[J];中国索引;2012年03期

3 韦薇颖;易明;;任务情境下的儿童信息检索行为研究[J];图书馆理论与实践;2019年05期

4 顾燕玲;古田;曲金丽;张豫;范丽娜;;“信息检索与利用”混合式教学中实践教学作业设置探讨[J];江苏科技信息;2018年13期

5 赵捧未;;并行信息检索综述[J];情报学报;1993年05期

6 王瑛;;基于蓝墨云班课的翻转课堂教学实践——以高职“信息检索”课程为例[J];中国信息技术教育;2017年01期

7 李玉梅;信息检索教育的普及与延伸[J];教书育人;2002年08期

8 孟洋;;信息检索在公安管理中的应用探讨[J];山西青年;2017年02期

9 黄如花;;检索是一种素养[J];大学生;2017年07期

10 杜晓婷;;自学检索[J];大学生;2017年10期

相关会议论文 前10条

1 ;前言[A];第五届全国信息检索学术会议论文集[C];2009年

2 樊怡菁;;《信息检索与利用》精品课程建设与探索[A];图书馆联盟建设与发展[C];2012年

3 沙迎杰;柳炜;;浅议信息检索教学的课程设计[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集[C];2006年

4 ;前言[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 杨俊峰;宋剑;李丹宁;李丹;李静;;企业信息检索的可信性评估研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年

6 ;前言[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

7 ;前言[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年

8 孙金立;梁蜀忠;李希明;董明强;李路路;;生物信息检索在医学中的应用[A];中国营养学会老年营养分会第七次全国营养学术交流会“营养与成功老龄化”暨国家级继续教育项目“神经系统疾病医学营养治疗”资料汇编[C];2010年

9 ;第一届全国信息检索与内容安全学术会议组织情况[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

10 ;哈尔滨工业大学信息检索研究室简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年

相关重要报纸文章 前10条

1 杭州电子科技大学中国评价科学研究院 汤建民;大学校名取名需方便信息检索[N];中国社会科学报;2017年

2 记者 王慧 实习生 阿柔娜;首府专利信息检索对外开放日活动首次开启[N];呼和浩特日报(汉);2010年

3 梅竹;清华摘取国际信息检索比赛两项桂冠[N];计算机世界;2002年

4 记者 徐可;因特网大规模信息检索取得国际公认成绩[N];光明日报;2003年

5 朱华顺 东莞理工学院图书馆馆员;高校“信息检索”课:培养读者以最少时间和精力获取信息[N];中国图书商报;2013年

6 夏飞平 蒋光君;深圳局:信息检索实现“一点通”[N];中国国门时报;2009年

7 潘亚南;中国科学院全文档案信息检索应用取得好效果[N];中国档案报;2004年

8 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;“海”中捞“珍”[N];计算机世界;2003年

9 刘畅;让网络政工“言归正传”[N];战士报;2006年

10 王楠 程心星 郭凯;如何在专业网站进行有效的专利信息检索[N];中国知识产权报;2015年

相关博士学位论文 前10条

1 陈琴;基于上下文的信息检索若干关键技术研究[D];华东师范大学;2018年

2 王修力;基于描述复杂性的信息检索理论与若干模型研究[D];北京语言大学;2006年

3 韩忠明;基于XML的数据查询和信息检索集成化系统研究[D];东华大学;2006年

4 王树梅;信息检索相关技术研究[D];南京理工大学;2007年

5 王鑫印;无结构和半结构信息检索相关技术研究[D];复旦大学;2007年

6 胡熠;面向信息检索的文本内容分析[D];上海交通大学;2007年

7 田萱;基于上下文的信息检索关键技术研究[D];中国人民大学;2007年

8 杨瑜;基于专长视角的学术信息检索认知能力研究[D];福建师范大学;2016年

9 茹昭;企业信息检索中的对象检索方法研究[D];北京邮电大学;2008年

10 黎志升;地理信息检索若干技术研究[D];中国科学技术大学;2009年

相关硕士学位论文 前10条

1 张忠敏;信息检索系统性能评价与预测分析[D];江苏大学;2019年

2 王雅蓉;信息检索中长查询处理方法的研究[D];江苏大学;2019年

3 丁佳晨;基于区块链的私有信息检索相关研究[D];中国科学技术大学;2019年

4 郑志学;大学生学术信息检索行为实验研究[D];郑州大学;2018年

5 杨宇;面向网页文本的地理信息检索关键技术研究[D];中国矿业大学;2018年

6 彭钰莹;基于排序学习的生物医学领域信息检索[D];大连理工大学;2018年

7 雷武;信息检索系统中排序学习算法的研究[D];武汉邮电科学研究院;2017年

8 聂佳;一种融合代码依赖关系的基于信息检索的需求更新方法[D];南京大学;2016年

9 马天牧;面向科学研究领域的信息制图法研究与实现[D];北京邮电大学;2018年

10 易磊;私有信息检索及其应用的研究[D];安徽大学;2011年



本文编号:2778977

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2778977.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3e98d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com