一种基于流形距离的中文语块聚类分析方法
发布时间:2017-11-28 11:15
本文关键词:一种基于流形距离的中文语块聚类分析方法
【摘要】:将中文语块分析看做词在句子内部聚类并标记语块类别的过程,建立了中文语块分析的聚类模型。首先构建词的语法功能空间,使用ISOMAP方法重构词空间的低维流形嵌入,进而考察词在低维空间中的分布情况。在使用层次聚类方法分析语块时,使用流形上的距离替代传统的欧式距离,在算法复杂度可以接受的范围内,提高了语块分析效果。
【作者单位】: 国防科学技术大学电子科学与工程学院;长江日报报业集团;
【基金】:新闻出版重大科技工程项目(1041STC40889)资助
【分类号】:H146
【正文快照】: 中文语块分析(chunking)是浅层句法分析(sha-llow parsing)中最主要的任务[1],对机器翻译、信息检索等自然语言处理具有重要作用。目前对中文语块的定义尚未形成公认的权威解释,沿用Abney[2]的观点,中文语块(下文皆称语块)是符合一定语法功能的非递归短语。每个语块都有一个中
【参考文献】
中国期刊全文数据库 前9条
1 冯志伟;;特思尼耶尔的从属关系语法[J];国外语言学;1983年01期
2 孙广路;王晓龙;刘秉权;关毅;;基于词聚类特征的统计中文组块分析模型[J];电子学报;2008年12期
3 杨震;范科峰;雷建军;郭军;;基于语义的文本流形研究[J];电子学报;2009年03期
4 梁颖红;赵铁军;于浩;姚健民;徐冰;;基于改进K-均值聚类的汉语语块识别[J];哈尔滨工业大学学报;2007年07期
5 王自强;钱旭;;基于流形学习和SVM的Web文档分类算法[J];计算机工程;2009年15期
6 孙吉贵;刘杰;赵连宇;;聚类算法研究[J];软件学报;2008年01期
7 周俊生;戴新宇;陈家骏;曲维光;;基于大间隔方法的汉语组块分析[J];软件学报;2009年04期
8 公茂果;王爽;马萌;曹宇;焦李成;马文萍;;复杂分布数据的二阶段聚类算法[J];软件学报;2011年11期
9 王娜;杜海峰;王孙安;;一种基于流形距离的迭代优化聚类算法[J];西安交通大学学报;2009年05期
中国硕士学位论文全文数据库 前1条
1 邹宏梅;组块识别技术的研究与实现[D];国防科学技术大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 赵Z,
本文编号:1233770
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/1233770.html