基于上下文关系的命名实体识别方法研究与应用
发布时间:2025-06-27 06:28
随着互联网在工作生活用中的普及与发展,各行的工作流程逐渐从数字时代进入了信息共享时代,也因此得到了越来越多的效率提升。目前,信息共享已经成为了提高工作效率的重要渠道,也是智能化生活中不可缺少的环节之一。在医疗卫生领域中,由于缺乏一些与专业学科相关的预备工作,导致了其中如电子病例等非结构化文本档案中蕴含的信息难以得到充分利用,影响了相关工作的效率。为了在专有领域文档中识别有效内容,以及检索关键信息以提高文档信息的可用性,本文从减少识别方法的预备工作与提高已有工作的利用率两个角度出发,提出了一种基于中文文本的专有领域命名实体识别方法。1)为了减少识别方法在领域应用前的预备工作,本文提出了基于简单标注集合的中文文本分词模型,该模型的核心内容是应用在条件随机场模型上的复杂特征函数。复杂函数在基本标记序列上可以进行更深层的特征提取,利用中文文本在行文与表达过程中特定的方式与规律,从训练样本中获取与语法规则更相关的信息,从而提高了样本集信息的利用率,也间接减少了训练样本的标注工作量。2)从提高已有工作利用率的角度出发,本文提出了基于依存关系的语义识别模型,该模型的原理是利用了词汇之间的依存关系,对句...
【文章页数】:106 页
【学位级别】:硕士
【文章目录】:
学位论文数据集
摘要
abstract
第一章 绪论
1.1 课题背景及研究意义
1.1.1 课题背景
1.1.2 课题研究意义
1.2 国内外研究现状
1.2.1 传统机器学习的历史与现状
1.2.2 深度学习的历史与现状
1.2.3 命名实体识别的历史与现状
1.3 主要研究内容及创新点
1.3.1 本文的主要研究内容
1.3.2 本文的主要创新点
1.4 本文的结构安排
第二章 基础理论及相关技术介绍
2.1 基础理论介绍
2.1.1 条件随机场模型
2.1.2 N-Gram模型
2.1.3 依存语法模型
2.2 相关技术介绍
2.2.1 汉语中的分词技术
2.2.2 汉语分词中的歧义消除技术
2.2.2.1 基于规则词典的歧义消除技术
2.2.2.2 基于统计模型的歧义消除技术
2.2.3 基于依存语法的汉语句法分析技术
2.2.4 汉语中的句法错误纠正技术
2.2.5 汉语命名实体识别技术
2.2.5.1 基于深度学习的汉语命名实体识别技术
2.2.5.2 基于统计模型的汉语命名实体识别技术
2.3 实验结果评估标准
2.4 实验数据准备
2.5 本章小结
第三章 基于汉语词汇特征的分词方法研究
3.1 问题描述
3.2 条件随机场的特征函数框架研究
3.2.1 传统特征函数
3.2.2 复杂特征函数
3.2.3 特征函数提取模板
3.3 基于条件随机场的汉语词汇特征函数研究
3.3.1 词汇特征的转化研究
3.3.1.1 随机特征(R)
3.3.1.2 词缀特征(P)
3.3.1.3 边界特征(M)
3.3.1.4 邻接特征(Ant、Sub)
3.3.1.5 构词特征(D)
3.3.1.6 特征集小结
3.3.2 词汇特征对比实验
3.3.2.1 实验目的
3.3.2.2 实验数据与参数设定
3.3.2.3 词缀特征(Pre、Post)的对比实验
3.3.2.4 邻接特征(Ant、Sub)的对比实验
3.3.2.5 边界特征(MS、ME)的对比实验
3.3.2.6 构词特征(D1、D2)的对比实验
3.3.3 词汇特征组合实验
3.4 词汇特征分词方法的对比实验
3.4.1 实验设置
3.4.2 实验结果与分析
3.5 本章小结
第四章 汉语语义依存关系的提取方法研究
4.1 问题描述
4.2 汉语语义依存关系
4.2.1 依存关系的确定
4.2.2 依存关系的提取研究
4.3 基于N-Gram的中文语义依存关系研究
4.3.1 单层N-Gram集成模型
4.3.2 多层N-Gram集成模型
4.3.3 同类词汇的符号化编码
4.4 基于依存关系的分词修正研究
4.4.1 基于依存关系的句法诊断方法
4.4.2 基于句法诊断的分词修正流程
4.4.3 基于依存关系的歧义消除方法
4.4.4 实验数据及参数设定
4.4.5 实验结果与分析
4.5 本章小结
第五章 基于依存关系的中文命名实体识别方法研究
5.1 整体算法框架
5.2 基于依存关系的命名实体识别研究
5.2.1 基于语境的依存关系研究
5.2.2 语境关系的知识扩充研究
5.2.3 特定语境关系的提取研究
5.3 实验数据及参数设定
5.3.1 基于同类语料的命名实体识别研究实验
5.3.2 基于专有领域的命名实体识别实验
5.4 实验结果分析
5.4.1 同类语料中的地名识别实验
5.4.2 专有领域的命名实体识别实验
5.5 本章小结
第六章 总结与展望
6.1 主要研究成果
6.2 工作展望
参考文献
致谢
研究成果及发表的学术论文
作者及导师简介
附件
本文编号:4053954
【文章页数】:106 页
【学位级别】:硕士
【文章目录】:
学位论文数据集
摘要
abstract
第一章 绪论
1.1 课题背景及研究意义
1.1.1 课题背景
1.1.2 课题研究意义
1.2 国内外研究现状
1.2.1 传统机器学习的历史与现状
1.2.2 深度学习的历史与现状
1.2.3 命名实体识别的历史与现状
1.3 主要研究内容及创新点
1.3.1 本文的主要研究内容
1.3.2 本文的主要创新点
1.4 本文的结构安排
第二章 基础理论及相关技术介绍
2.1 基础理论介绍
2.1.1 条件随机场模型
2.1.2 N-Gram模型
2.1.3 依存语法模型
2.2 相关技术介绍
2.2.1 汉语中的分词技术
2.2.2 汉语分词中的歧义消除技术
2.2.2.1 基于规则词典的歧义消除技术
2.2.2.2 基于统计模型的歧义消除技术
2.2.3 基于依存语法的汉语句法分析技术
2.2.4 汉语中的句法错误纠正技术
2.2.5 汉语命名实体识别技术
2.2.5.1 基于深度学习的汉语命名实体识别技术
2.2.5.2 基于统计模型的汉语命名实体识别技术
2.3 实验结果评估标准
2.4 实验数据准备
2.5 本章小结
第三章 基于汉语词汇特征的分词方法研究
3.1 问题描述
3.2 条件随机场的特征函数框架研究
3.2.1 传统特征函数
3.2.2 复杂特征函数
3.2.3 特征函数提取模板
3.3 基于条件随机场的汉语词汇特征函数研究
3.3.1 词汇特征的转化研究
3.3.1.1 随机特征(R)
3.3.1.2 词缀特征(P)
3.3.1.3 边界特征(M)
3.3.1.4 邻接特征(Ant、Sub)
3.3.1.5 构词特征(D)
3.3.1.6 特征集小结
3.3.2 词汇特征对比实验
3.3.2.1 实验目的
3.3.2.2 实验数据与参数设定
3.3.2.3 词缀特征(Pre、Post)的对比实验
3.3.2.4 邻接特征(Ant、Sub)的对比实验
3.3.2.5 边界特征(MS、ME)的对比实验
3.3.2.6 构词特征(D1、D2)的对比实验
3.3.3 词汇特征组合实验
3.4 词汇特征分词方法的对比实验
3.4.1 实验设置
3.4.2 实验结果与分析
3.5 本章小结
第四章 汉语语义依存关系的提取方法研究
4.1 问题描述
4.2 汉语语义依存关系
4.2.1 依存关系的确定
4.2.2 依存关系的提取研究
4.3 基于N-Gram的中文语义依存关系研究
4.3.1 单层N-Gram集成模型
4.3.2 多层N-Gram集成模型
4.3.3 同类词汇的符号化编码
4.4 基于依存关系的分词修正研究
4.4.1 基于依存关系的句法诊断方法
4.4.2 基于句法诊断的分词修正流程
4.4.3 基于依存关系的歧义消除方法
4.4.4 实验数据及参数设定
4.4.5 实验结果与分析
4.5 本章小结
第五章 基于依存关系的中文命名实体识别方法研究
5.1 整体算法框架
5.2 基于依存关系的命名实体识别研究
5.2.1 基于语境的依存关系研究
5.2.2 语境关系的知识扩充研究
5.2.3 特定语境关系的提取研究
5.3 实验数据及参数设定
5.3.1 基于同类语料的命名实体识别研究实验
5.3.2 基于专有领域的命名实体识别实验
5.4 实验结果分析
5.4.1 同类语料中的地名识别实验
5.4.2 专有领域的命名实体识别实验
5.5 本章小结
第六章 总结与展望
6.1 主要研究成果
6.2 工作展望
参考文献
致谢
研究成果及发表的学术论文
作者及导师简介
附件
本文编号:4053954
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/4053954.html
上一篇:基于BIM技术的施工场地布置优化研究
下一篇:没有了
下一篇:没有了