当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Lucene面向手机用户的主题搜索引擎研究与实现

发布时间:2025-05-01 09:57
  随着时代的发展和科技的进步,互联网已经渗入到社会的各行各业,与此同时,互联网上的信息正以指数的形式迅猛增长,“信息迷航”和“信息过载”已经成为人们从海量信息中获取自己所需要信息的巨大障碍。Internet上的各类搜索引擎服务应运而生并得到了迅速发展。一般来说,利用Google、百度等检索系统能够满足用户搜索信息的基本需求,但当用户对某个具体行业或领域有更加专业、精确的查询需求时,这类搜索引擎就无优势可言。主题搜索引擎的出现,正好弥补了这个缺陷。 主题搜索引擎注重对某个专业领域信息的准确和深度查询,已经成为人们对于专业查询的重要工具。本文基于全文检索引擎工具包Lucene设计了对特定需求的主题搜索引擎系统。主题网络爬虫是搜索引擎的数据来源,提出了基于页面内容评估链接的最优最先爬取策略,使用加权的URL队列实现主题爬虫程序,实验证明,该算法能够有效的收集与主题相关度尽量大的网页。对Lucene的索引建立机制和检索机制进行了详细的分析,由于Lucene对中文分词的缺陷,本文分析并使用IKAnalyzer实现对中文语句良好的分词。研究Android系统手机开发应用程序的机制,对手机客户端与服...

【文章页数】:77 页

【学位级别】:硕士

【部分图文】:

图3-1主题爬行流程图

图3-1主题爬行流程图

10图3-1主题爬行流程图Fig.3-1Themecrawlingflowchart图,可以看出主题爬行程序的几个核心的初始化。初始网页队列的选取直接影果初始URL队列与主题相关度不高的话高的页面。所以,初始队列的选取尤为的相关度。网页的内容与某个主题的


图5-3爬虫程序主界面

图5-3爬虫程序主界面

图5-3爬虫程序主界面Fig.5-3Maininterfaceofcrawling爬虫程序的用户自定义设置界面如图5-4所示:


图5-4爬虫程序设置界面

图5-4爬虫程序设置界面

图5-4爬虫程序设置界面Fig.5-4Settinginterfaceofcrawling在设置页面,需要用户输入自己的需求信息,来描述自己的主题,“主题项”是对主题的客观性展示,在程序设计中没有实际用处。“初始网页项”至关重要,它决定了你的意愿与你指定主题的相近程度....


图5-7索引的目录结构

图5-7索引的目录结构

图5-7索引的目录结构Fig.5-7Indexdirectorystructure闭索引。ptimize();lose();明索引存放的目录,然后根据用户输入的关”进行检索,将结果进行显示,下面详细阐器IndexSearcher的实例[50]。录ir=”D:\\Lu....



本文编号:4042082

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/4042082.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户46c44***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com