当前位置:主页 > 文艺论文 > 语言艺术论文 >

藏汉跨语言话题模型构建及对齐方法研究

发布时间:2018-11-14 08:54
【摘要】:如何获取藏文话题在其他语种中的相关信息,对于促进少数民族地区的社会管理科学化水平、维护民族团结和国家统一、构建和谐社会具有重要意义。目前大多数研究集中在英汉跨语言信息处理方面,针对藏汉跨语言研究较少。如何根据藏语、汉语的特点,并结合目前藏语信息处理的研究现状,实现藏汉多角度的社会网络关系关联,同步发现关注话题并进行数据比较,是迫切需要解决的问题。该文在藏汉可比语料的基础上,利用词向量对文本词语进行语义扩展,进而构建LDA话题模型,并利用Gibbs sampling进行模型参数的估计,抽取出藏语和汉语话题。在LDA话题模型生成的文档-话题分布的基础上,提出一种基于余弦相似度、欧氏距离、Hellinger距离和KL距离四种相似度算法的投票方法,来实现藏汉话题的对齐。
[Abstract]:How to obtain the relevant information of Tibetan topics in other languages is of great significance to promote the scientific level of social management in minority areas, maintain national unity and national unity, and build a harmonious society. At present, most researches focus on English and Chinese cross-language information processing, but few on Tibetan and Chinese. According to the characteristics of Tibetan and Chinese and the current research situation of Tibetan information processing, it is urgent to solve the problem that how to realize the social network relation of Tibetan and Chinese, find the topic of concern and compare the data simultaneously. On the basis of Tibetan and Chinese comparable corpus, this paper uses word vector to extend the semantic of text words, and then constructs LDA topic model, and estimates the parameters of the model by using Gibbs sampling to extract Tibetan and Chinese topics. On the basis of document-topic distribution generated by LDA topic model, a voting method based on four similarity algorithms, cosine similarity, Euclidean distance, Hellinger distance and KL distance, is proposed to achieve the alignment of Tibetan and Chinese topics.
【作者单位】: 中央民族大学信息工程学院;国家语言资源监测与研究中心少数民族语言分中心;
【基金】:国家自然科学基金(61501529,61331013) 国家语委项目(ZDI125-36,YB125-139)
【分类号】:H214;H136;TP391.1

【相似文献】

相关期刊论文 前10条

1 郑张尚芳;;补《敦煌〈藏汉对照词语〉残卷考辨订误》[J];民族语文;1992年04期

2 金家新;兰英;;论“中华民族多元一体”视阈下的藏汉双语教育[J];民族教育研究;2009年03期

3 李双剑 ,曲尼;从藏汉谚语比较看藏汉民族的友好关系[J];中央民族学院学报;1987年01期

4 才让措;;关于藏汉翻译中的文化差异浅析[J];商;2014年04期

5 扎雅·洛桑普赤;从语言哲学的角度思考藏汉互译的可能性问题[J];西藏研究;2003年03期

6 扎洛;;藏区藏汉双语学生类型及学校类型研究[J];青海师范大学学报(哲学社会科学版);2008年06期

7 慈仁翁姆;浅谈藏汉翻译中专班的实践教学:实习[J];康定学刊;1996年03期

8 土登达杰;;浅谈藏汉互译对西藏社会的贡献[J];西藏科技;2014年07期

9 尼玛卓玛;;藏汉民族的文化差异对翻译的影响[J];文学教育(中);2012年07期

10 洛松泽仁;;藏汉互译中的文化差异的探讨[J];青年文学家;2011年18期

相关会议论文 前1条

1 华却才让;;藏汉句子局部对齐策略的研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

相关重要报纸文章 前4条

1 记者 陈彦玲;地区多措并举推进藏汉“双语”活动深入开展[N];林芝报(汉);2014年

2 记者 何龙 石志安;吴德刚来我州调研基层干部藏汉“双语”培训工作[N];甘南日报(汉文版);2014年

3 安微 记者 松涛 周前进;藏汉双语培训以口语基本会话为主[N];四川日报;2013年

4 蔺以光;云南迪庆推行藏汉双语教育初见成效[N];中国民族报;2008年

相关硕士学位论文 前9条

1 万玛吉;藏语辞藻及其翻译研究[D];西北民族大学;2015年

2 杨忠措;藏汉颜色词译法研究[D];西藏大学;2016年

3 丁子牙;藏汉思维方式与翻译研究[D];西北民族大学;2011年

4 伊泽卓玛;略谈藏翻译之政论文的翻译[D];西藏大学;2015年

5 拉毛卓玛;藏汉常用词汇比较[D];青海师范大学;2012年

6 尼玛卓玛;藏汉单句翻译研究[D];西藏大学;2013年

7 卡毛姐;论藏汉翻译中的归化与异化问题[D];西北民族大学;2005年

8 关却才郎;谈藏汉历史文献中的译名对当代人名翻译之影响[D];西藏大学;2013年

9 吾见才让;试论藏汉翻译的虚词翻译方法[D];西北民族大学;2006年



本文编号:2330709

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/2330709.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6f11d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com