基于主题的数据源发现与分类技术研究
发布时间:2025-05-29 02:27
数据源中存储了建立数据连接的所有信息,数据请求者通过提供正确的数据源名称来查找相应的数据库连接,以此获取数据库中的数据信息。在网络中,数据源内容主要存储在可受限搜索的在线数据库中,这些数据库根据定向请求动态生成返回结果。因此,人们在网络中获取数据时,基本都是通过向搜索接口发送请求,服务器和在线数据库响应请求来返回相关结果的。通过接口请求而获取到数据信息的工具称之为搜索器,传统的搜索器在对网络进行数据搜索时只能搜索到静态页面的内容,而隐藏在网络接口背后的数据源却很难被搜索到,这就使得那些主题专一、结构良好的数据不能很好地被利用。本文对现有的数据源集成相关方法进行分析,提出了主题相关的数据源发现与分类的方法,主要研究内容包括:(1)提出了一种适用于数据源发现的HEF模型。该模型通过元素标签之间的映射关系来构造表单表示,结合外部知识实现数据源发现。针对元素标签特征提取过程中存在的特征差异性问题,提出了一种基于外部知识的短语主题模型,该模型通过利用预先定义的相关知识来扩展特征。(2)提出了一种适用于数据源分类的Skip-PTM模型。该模型通过挖掘数据源信息的隐含语义来提高数据源分类的准确性。为了...
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
本文编号:4048579
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
图1.1搜索引擎用户使用体验(左)和搜索引擎用户满意度(右)[1-2]
基于主题的数据源发现与分类技术研究2时,会返回大量网页或结果,但大多数情况下都在不感兴趣的领域之内,在这样庞大的信息库中,如何准确、有效的对数据源的主题进行分类是值得研究的问题。图1.1搜索引擎用户使用体验(左)和搜索引擎用户满意度(右)[1-2]基于以上分析可以得知,用户在使用....
图1.2基于主题的数据源相关研究方法
江苏大学工程硕士学位论文5适用于数据源主题分类的Skip-PTM模型;最后,基于本文提出的算法与模型实现了基于主题的数据源智能集成系统,该系统可以实现数据源的自动集成过程,包括数据源的自动发现与分类,并将结果可视化系统。本节研究内容具体开展了以下几个方面的研究:(1)为解决接口特....
图2.1Bi-gram和Tri-gram结构示意图
江苏大学工程硕士学位论文7图2.1Bi-gram和Tri-gram结构示意图随着N-gram的N越大,词的依赖就越多,所以获得的信息量也会随之增加,模型效果也就越好。但是随着N的变大,稀疏性也就随之增大,例如,在Bi-gram模型中,若词库中有20词汇,那么两两组合(202)就有....
图2.2LDA模型示意图
题的特征词,对于任意主题,使用Dirichlet分布作为特征词分布的先验分布,即式(2.9)所示:=()(2.9)其中,为Dirichlet分布的超参数,是一个V维向量,表示所有隐含主题自身的概率分布,V是文本集中的所有特征词的个数;也是一个V维向量,表示主题个特征词的概率分布。....
本文编号:4048579
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/4048579.html
最近更新
教材专著