当前位置:主页 > 科技论文 > 软件论文 >

面向中文科研机构的实体解析研究与实现

发布时间:2025-06-25 23:37
  实体解析是指匹配并合并数据中指向现实世界同一实体的数据记录,它是数据清洗数据集成中关键的一步。传统的实体解析研究工作主要是针对一个或多个数据库中的数据记录进行解析。网页数据具有非结构化,非格式化的特性,且真实数据中数据问题是多种多样的,因此传统匹配特征单一的算法很难获得令人满意的召回效果。本文通过对万方网上的论文数据进行爬取与解析,构建科研信息知识库,与传统实体解析工作具有不同的应用背景。本文首先分析了现有实体解析算法的特点,提出了基于文本匹配的实体解析算法模型。将长文本语义属性的相似度计算看作文本匹配问题,根据实体解析应用场景对文本匹配模型进行调整,结合字符级相似度度量方式,捕捉数据对中字符相似度特征和语义相似度特征,对数据进行实体解析。实验证明该方法比传统仅考虑字符相似度特征的算法在数据噪音较大的任务中能获得更好的结果。随后分析了实际网站中爬取的科研数据特点,提出了结合属性相似度、关系相似度、语义信息相似度的多特征融合实体解析算法。爬取科研论文数据,标注数据构建数据集。对机构名称相似度、关系网络相似度、研究领域相似度三种特征进行研究与实验,设计了科研机构名称特征词算法,构建科研机构关...

【文章页数】:68 页

【学位级别】:硕士

【部分图文】:

图2-1卷积神经网络中pooling层示意图??

图2-1卷积神经网络中pooling层示意图??

它是对循环神经网络RNN的一种改进,RNN只能较好地利用较近的??信息,对于较远的信息会逐渐削弱,针对RNN无法解决的长期依赖问题,LSTM??在循环神经单元中增加了三个交互层,如图2-2所示。LSTM神经单元有一条水??平线贯穿整个模型结构,它表征着细胞状态,与每个神经单元的输....


图2-2?LSTM神经单元结构示意图??LSTM的第一步是决定从细胞状态中丢弃多少信息,即ft函数,也称为“忘??

图2-2?LSTM神经单元结构示意图??LSTM的第一步是决定从细胞状态中丢弃多少信息,即ft函数,也称为“忘??

BDBD?BB???>??图2-1卷积神经网络中pooling层示意图??Relu是一个非线性的激活函数,它的表达式是max(0,x)。如果在网络结构中??不使用激活函数,那么每一层的输出都将会是输入的线性组合,就会失去隐藏层??的效果,无法逼近任意函数。所以需要引入非线性的激活....


图3-2基于匹配矩阵的文本匹配模型机构??通过卷积核,第一个卷积层可以捕捉词与词之间的匹配特征,第二层卷积层??捕捉到n元组匹配信息,如“乔丹和詹姆斯”与“詹姆斯与乔丹”,“很受欢迎”??与“非常出名”

图3-2基于匹配矩阵的文本匹配模型机构??通过卷积核,第一个卷积层可以捕捉词与词之间的匹配特征,第二层卷积层??捕捉到n元组匹配信息,如“乔丹和詹姆斯”与“詹姆斯与乔丹”,“很受欢迎”??与“非常出名”

??Q⑩??#?????受麵??图3-1文本匹配矩阵??在图像识别领域,卷积神经网络(CNN)被广泛的应用,它能成功地从像素??中一层一层的抽取出图像的各种级别的相似度特征。受此启发,PangLiang等人??[21】提出把文本匹配问题看作图像识别问题,并用CNN网络来捕捉两个文....


图3-3基于文本匹配的实体解析算法模型??

图3-3基于文本匹配的实体解析算法模型??

??图3-3基于文本匹配的实体解析算法模型??正如图3-3所示,n和rj表示两个数据记录组成的数据记录对,Ai,A2,A3...An??分别为数据的各个属性,红色表示的属性代表长文本属性,蓝色表示的属性代表??数值、名词性属性。红色和蓝色的方框分别代表语义相似度模块和字符相似度模....



本文编号:4052797

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/4052797.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bee65***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com