基于Solr的电信搜索引擎的设计与实现
发布时间:2020-08-02 19:23
【摘要】:随着通讯技术的发展和大数据的广泛应用,电信企业的数据量迅猛增长。使用以往的搜索技术查询信息速度慢、效率低,想要获得有效信息犹如大海捞针。同时,由于业务扩张,需根据企业特点定制搜索引擎来满足不同用户角色的搜索需求。因此,如何快速、精准地查找信息,个性化搜索成为电信企业迫在眉睫的问题。本文针对电信企业提出企业搜索引擎的设计方案,根据电信数据异构的特点进行有效抽取和检索,同时实现个性化定制应用和搜索的可配置化。论文以电信业务具体需求为出发点,具有很好的应用价值。论文的主要研究工作包括:(1)研究电信企业搜索现状,针对电信数据异构、需求个性化等特点,给出设计目标、设计要求和系统需要实现的功能需求和非功能性需求。(2)研究分析企业搜索引擎的组成架构、检索原理和相关技术,进行总体分析,给出系统的总体架构、系统框架和数据库逻辑结构。将系统分为数据抽取、引擎服务、应用接口和可视化系统配置四个模块。(3)设计并实现电信搜索引擎。数据抽取,针对多种数据源、数据类型设计并实现抽取程序,支持数据源增量和全量抽取、热词统计、词库同步等功能;引擎服务,修改开源的中文分词器IKAnalyzer以兼容系统使用的Solr高版本,重写Solr方法,可根据响应参数返回分词结果或者进行词库导入;应用接口,设计实现六个业务接口,分离业务逻辑和Solr的引擎服务,提供用户使用;可视化系统配置,提供可视化界面使用以便进行系统的维护、参数配置等日常工作。(4)实验结果表明,该电信搜索引擎系统在功能上和性能上均满足了电信企业的搜索需求,能够为电信企业提供更有效的搜索服务。
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3
【图文】:
搜索引擎索引擎是一种特殊的垂直搜索引擎[5]。比较常见的搜索引擎有两种,一种是ogle、百度,主要通过定期使用“网络爬虫”抓取新的网站地址和信息,加入为搜索数据源,当用户输入关键字查找时,通用搜索引擎根据该关键字在索合的网站信息,则会将搜索结果按照匹配算法进行高低排序返回给用户[6]。擎,主要针对特定行业互联网网页中特定信息内容进行精准搜索,将网页库整合,定向、分字段抽取需要的数据,处理后再以某种形式返回结果给用户搜索引擎类似,企业搜索引擎根据特定内容搜索、特定资源进行收集整合,但相对于垂直搜索引擎,企业搜索引擎更适用于企业。首先,在注重于查询业搜索引擎还具有鲜明的业务特性[8],比如在企业搜索引擎在配置数据源时和标识号,使得在处理数据过程中能够对特殊业务的关键信息进行特殊处理务数据的准确性。其次,企业搜索引擎可以根据企业的具体需求而进行定制控制、接口功能开发等,使得企业的搜索效果实现最优化。
第二章 相关技术索引创建是提取现实世界中所有非结构化数据,创建索引的过程。相对于顺序扫描,全文检创建索引的过程仅需开始的第一次,每次搜索时不用重新创建索引,仅搜索创建好的索引即可,顺序扫描每次都要重头开始,因此全文搜索相对于顺序扫描有着一次索引,多次使用的优势。一索引创建过程有以下几步:首先,准备待索引的原文档(Document),分词组件(Tokenizer)[8将传来的原文档去掉标符号和一些无意义的词如中文“的”、“了”、“在”、英文“and”、“this”等,将文档分成个个单独的词汇,这个过程被称为分词化(Tokenize),经过分词化后得到的结果称为词元(Token其次,将得到的词元传给语言处理组件(Linguistic Processor)来对词元进行语言相关的处理,如文分词处理切分,英文分词处理大小写、单词转变成词根等。经过语言处理后的结果称为词(Term再次,将得到的词传给索引组件(Indexer)。索引组件会将词以倒排索引结构存入索引库中,倒索引结构如图 2-2 所示。
图 2-3 搜索语法树图 2-4 语言处理后的语法树三,搜索索引,得到符合语法树的文档。如上述例子,先找到在倒排索引表中包含“”、“hadoop”的文档链表,然后对包含“solr”和“learn”的链表进行合并操作,得lr”又包含“learn”的文档链表,最后将该链表与“hadoop”指向的文档链表进行差操“hadoop”的文档,最终,得到既包含“solr”又包含“learn”而且不包含“hadoop”
本文编号:2778954
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3
【图文】:
搜索引擎索引擎是一种特殊的垂直搜索引擎[5]。比较常见的搜索引擎有两种,一种是ogle、百度,主要通过定期使用“网络爬虫”抓取新的网站地址和信息,加入为搜索数据源,当用户输入关键字查找时,通用搜索引擎根据该关键字在索合的网站信息,则会将搜索结果按照匹配算法进行高低排序返回给用户[6]。擎,主要针对特定行业互联网网页中特定信息内容进行精准搜索,将网页库整合,定向、分字段抽取需要的数据,处理后再以某种形式返回结果给用户搜索引擎类似,企业搜索引擎根据特定内容搜索、特定资源进行收集整合,但相对于垂直搜索引擎,企业搜索引擎更适用于企业。首先,在注重于查询业搜索引擎还具有鲜明的业务特性[8],比如在企业搜索引擎在配置数据源时和标识号,使得在处理数据过程中能够对特殊业务的关键信息进行特殊处理务数据的准确性。其次,企业搜索引擎可以根据企业的具体需求而进行定制控制、接口功能开发等,使得企业的搜索效果实现最优化。
第二章 相关技术索引创建是提取现实世界中所有非结构化数据,创建索引的过程。相对于顺序扫描,全文检创建索引的过程仅需开始的第一次,每次搜索时不用重新创建索引,仅搜索创建好的索引即可,顺序扫描每次都要重头开始,因此全文搜索相对于顺序扫描有着一次索引,多次使用的优势。一索引创建过程有以下几步:首先,准备待索引的原文档(Document),分词组件(Tokenizer)[8将传来的原文档去掉标符号和一些无意义的词如中文“的”、“了”、“在”、英文“and”、“this”等,将文档分成个个单独的词汇,这个过程被称为分词化(Tokenize),经过分词化后得到的结果称为词元(Token其次,将得到的词元传给语言处理组件(Linguistic Processor)来对词元进行语言相关的处理,如文分词处理切分,英文分词处理大小写、单词转变成词根等。经过语言处理后的结果称为词(Term再次,将得到的词传给索引组件(Indexer)。索引组件会将词以倒排索引结构存入索引库中,倒索引结构如图 2-2 所示。
图 2-3 搜索语法树图 2-4 语言处理后的语法树三,搜索索引,得到符合语法树的文档。如上述例子,先找到在倒排索引表中包含“”、“hadoop”的文档链表,然后对包含“solr”和“learn”的链表进行合并操作,得lr”又包含“learn”的文档链表,最后将该链表与“hadoop”指向的文档链表进行差操“hadoop”的文档,最终,得到既包含“solr”又包含“learn”而且不包含“hadoop”
【参考文献】
相关期刊论文 前10条
1 时亚南;张太红;陈燕红;郭斌;;大规模非结构化数据的索引技术研究[J];计算机技术与发展;2014年12期
2 莫建文;郑阳;首照宇;张顺岚;;改进的基于词典的中文分词方法[J];计算机工程与设计;2013年05期
3 刘晓婉;胡燕祝;艾新波;;开源中文分词器在web搜索引擎中的应用[J];软件;2013年03期
4 孟小峰;慈祥;;大数据管理:概念、技术与挑战[J];计算机研究与发展;2013年01期
5 林翔;聂莉;;基于市场分析的电信搜索业务发展策略研究[J];广东通信技术;2012年06期
6 黄翼彪;;实现Lucene接口的中文分词器的比较研究[J];科技信息;2012年12期
7 刘俊熙;盛宇;;垂直和通用搜索引擎的差异和案例分析[J];现代情报;2009年03期
8 邓攀;刘功申;;一种高效的倒排索引存储结构[J];计算机工程与应用;2008年31期
9 马颖仪;李利强;;中小型企业搜索引擎应用研究[J];科技信息;2008年30期
10 翟凤文;赫枫龄;左万利;;字典与统计相结合的中文分词方法[J];小型微型计算机系统;2006年09期
本文编号:2778954
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2778954.html