基于Lucene面向手机用户的主题搜索引擎研究与实现
发布时间:2025-05-01 09:57
随着时代的发展和科技的进步,互联网已经渗入到社会的各行各业,与此同时,互联网上的信息正以指数的形式迅猛增长,“信息迷航”和“信息过载”已经成为人们从海量信息中获取自己所需要信息的巨大障碍。Internet上的各类搜索引擎服务应运而生并得到了迅速发展。一般来说,利用Google、百度等检索系统能够满足用户搜索信息的基本需求,但当用户对某个具体行业或领域有更加专业、精确的查询需求时,这类搜索引擎就无优势可言。主题搜索引擎的出现,正好弥补了这个缺陷。 主题搜索引擎注重对某个专业领域信息的准确和深度查询,已经成为人们对于专业查询的重要工具。本文基于全文检索引擎工具包Lucene设计了对特定需求的主题搜索引擎系统。主题网络爬虫是搜索引擎的数据来源,提出了基于页面内容评估链接的最优最先爬取策略,使用加权的URL队列实现主题爬虫程序,实验证明,该算法能够有效的收集与主题相关度尽量大的网页。对Lucene的索引建立机制和检索机制进行了详细的分析,由于Lucene对中文分词的缺陷,本文分析并使用IKAnalyzer实现对中文语句良好的分词。研究Android系统手机开发应用程序的机制,对手机客户端与服...
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
本文编号:4042082
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
图3-1主题爬行流程图
10图3-1主题爬行流程图Fig.3-1Themecrawlingflowchart图,可以看出主题爬行程序的几个核心的初始化。初始网页队列的选取直接影果初始URL队列与主题相关度不高的话高的页面。所以,初始队列的选取尤为的相关度。网页的内容与某个主题的
图5-3爬虫程序主界面
图5-3爬虫程序主界面Fig.5-3Maininterfaceofcrawling爬虫程序的用户自定义设置界面如图5-4所示:
图5-4爬虫程序设置界面
图5-4爬虫程序设置界面Fig.5-4Settinginterfaceofcrawling在设置页面,需要用户输入自己的需求信息,来描述自己的主题,“主题项”是对主题的客观性展示,在程序设计中没有实际用处。“初始网页项”至关重要,它决定了你的意愿与你指定主题的相近程度....
图5-7索引的目录结构
图5-7索引的目录结构Fig.5-7Indexdirectorystructure闭索引。ptimize();lose();明索引存放的目录,然后根据用户输入的关”进行检索,将结果进行显示,下面详细阐器IndexSearcher的实例[50]。录ir=”D:\\Lu....
本文编号:4042082
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/4042082.html