越南语新闻事件元素抽取方法研究
发布时间:2019-11-16 08:18
【摘要】:随着全球化的不断推进,中国与东盟各国的交流越来越频繁。越南作为与中国接壤的国家,与中国在政治、经济、文化等方面的交流更是与日俱增。为了更好的了解越南对中国在政治、经济等重要领域的事件看法,收集越南国内的新闻语料并对其进行系统管理、分析和提取出里面的重要事件元素就具有非常重要的研究意义。本文针对越南语新闻事件元素抽取中的关键问题,围绕越南语的分词、词性标注、越南语新闻事件语料库构建、越南语新闻命名实体识别方法以及基于模板和最大熵模型相结合的越南语新闻事件元素抽取方法开展了相关研究,主要完成以下特色研究工作: (1)开发了一个通用的越南语分词和词性标注系统平台。针对现有的越南语分词和词性标注工具包提供的核心API和模型,集成开发了一个越南语通用的分词和词性标注平台,为后续的越南语新闻事件元素抽取奠定基础。 (2)构建了越南语新闻事件语料库。对越南语新闻事件进行了定义,选取了获取越南语的新闻语料来源网站,并对获取的越南语新闻语料进行类型、类别、分词、词性标注、新闻实体标注、触发词和事件元素标注等一系列的标注工作,并将分析后的语料进行存储,构建了越南语新闻事件语料库。 (3)提出了一种基于条件随机场的越南语新闻命名实体识别方法。针对越南语词和词性的特点,定义了越南语实体识别的特征模板,利用收集的越南语新闻事件语料对越南语人名、地名、组织机构名、百分比、货币、钱数和时间日期等进行标注,并采用条件随机场方法训练得到越南语新闻命名实体模型,最后利用该模型实现面向越南语的新闻命名实体识别。 (4)提出了一种基于模板和最大熵模型相结合的越南语新闻事件元素抽取方法。该方法首先分析了越南语新闻事件的特点,然后对越南语新闻事件的类型和类别进行识别,定义事件的抽取模板,并结合最大熵模型对越南语新闻事件元素进行抽取。 (5)利用上述研究成果,设计实现了越南语新闻事件元素抽取的原型系统。
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
本文编号:2561748
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【参考文献】
相关期刊论文 前10条
1 赵江江;秦兵;;基于BootStrapping的中文事件元素抽取系统设计与实现[J];智能计算机与应用;2012年01期
2 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
3 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
4 李朝;彭宏;叶苏南;张欢;杨亲遥;;基于DOM树的可适应性Web信息抽取[J];计算机科学;2009年07期
5 张先飞;郭志刚;刘嵩;程磊;田雨暄;;基于触发词指导的自相似度聚类事件检测[J];计算机科学;2010年03期
6 李芳,盛焕烨,姚天f ;信息检索与信息抽取技术的研究[J];计算机应用研究;2002年01期
7 王厚峰;指代消解的基本方法和实现技术[J];中文信息学报;2002年06期
8 梁晗;陈群秀;吴平博;;基于事件框架的信息抽取系统[J];中文信息学报;2006年02期
9 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
10 赵妍妍;秦兵;车万翔;刘挺;;中文事件抽取技术研究[J];中文信息学报;2008年01期
相关博士学位论文 前1条
1 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
,本文编号:2561748
本文链接:https://www.wllwen.com/jingjilunwen/zhengzhijingjixuelunwen/2561748.html