基于词频统计的汉语缩略研究

发布时间:2018-01-05 01:01

  本文关键词:基于词频统计的汉语缩略研究 出处:《安徽大学》2017年硕士论文 论文类型:学位论文


  更多相关文章: 汉语缩略语 原词语 词频 原理


【摘要】:汉语缩略语是汉语发展与表达中的一种常见的词汇现象。它是由意义相同但音节数量较多的语言单位,即原词语缩略而成。当前对汉语缩略语研究的关键问题集中在缩略语的界定、省时性、词义的精确性及使用频次等方面。文章在以上问题的导向下,以汉语缩略语词典中的缩略语与原词语为对象,在自建的大规模语料库中进行词频统计并加以对比分析,总结缩略语与原词语词频的共时性特征。同时,从历时性的角度深入分析汉语缩略与原词语频次的演变。最后,在以上研究的基础上,概括汉语缩略语产生的主要动因,并总结缩略原理,发现汉语缩略语的缩略原理与霍夫曼编码原理相似。本文分为六个部分:第一章为现代汉语缩略语研究现状的回顾,同时梳理缩略语研究中几个关键问题。在此基础上,介绍本文的研究目的、意义、思路与方法。第二章为汉语缩略语与原词语的关系及缩略原则的研究。本章从语义、产生时间、构造形式等方面分析了两者的关系,总结出缩略时需要遵循的原则。第三章为汉语缩略语与原词语的词频分析。本章分为四部分:第一部分简要说明汉语缩略语的选词来源及语料库建设;第二部分对词频统计与其研究现状进行概述,并通过实验对比计算机分词统计与人工分词统计的结果,验证计算机统计的准确率;第三部分根据词频统计的数据对比,分析缩略语频次与原词语总频次的关系,从而得出词语频次越高,音节越少,越容易缩略的结论;第四部分就少数不符合上述结论的特殊现象进行分析。第四章为汉语缩略语与原词语使用频次的历时态分析。本章首先介绍了语言历时研究的现状,其次对建立的大规模流动语料库的内容及特点进行说明。最后根据汉语缩略语与原词语在频次上会逐年变化的特点,以十年为一个阶段,分析缩略语与原词语频次变化,总结现阶段缩略语与原词语的关系。第五章为汉语缩略语的缩略动因与原理的总结。首先从已有研究成果及本文实验数据可以分析出:"省力原则"是缩略语产生的主要动因;然后根据霍夫曼编码的特点,在前两章实验数据的基础上分析缩略原理,发现缩略语的产生与信息论中的霍夫曼编码原理相同,都体现了频次高,编码短的特征。同时,缩略语频次与音节多少也有关联,从侧面证明了霍夫曼编码原理在语言学领域的实践。第六章为结语。本章梳理了文中的主要内容,指出了研究工作中有待改进的地方,并对未来工作的开展进行展望。文章通过实验方法分析缩略语与原词语的频次特点,从一个新颖的角度探索信息论与缩略原理的关系,为缩略语研究和计算语言学适用性作了有力补充。
[Abstract]:Chinese acronyms are a common lexical phenomenon in the development and expression of Chinese. It is a linguistic unit with the same meaning but a large number of syllables. At present, the key problems in the study of Chinese acronyms focus on the definition of abbreviations, time-saving, precision of word meaning and frequency of use, etc. The paper is guided by the above questions. Taking the acronyms and original words in the Chinese acronym dictionary as the object, this paper makes a comparative analysis of the word frequency statistics in the self-built large-scale corpus, and summarizes the synchronic characteristics of the acronym and the original word frequency. At the same time. From the perspective of diachronic in-depth analysis of Chinese acronyms and the evolution of the frequency of the original words. Finally, on the basis of the above research, summarized the main causes of Chinese acronyms, and summarized the principle of acronyms. This paper is divided into six parts: the first chapter is a review of the current situation of the study of modern Chinese acronyms. At the same time combing several key issues in the study of abbreviations. On this basis, this paper introduces the purpose and significance of this study. The second chapter is the study of the relationship between Chinese acronyms and original words and the principle of abbreviations. This chapter analyzes the relationship between the two from the aspects of semantics, generation time, construction form and so on. The third chapter is the frequency analysis of Chinese acronyms and original words. This chapter is divided into four parts: the first part briefly explains the source of Chinese acronyms and the construction of corpus; In the second part, the author summarizes the statistics of word frequency and its research status, and verifies the accuracy of computer statistics by comparing the results of computer segmentation statistics with artificial word segmentation statistics. The third part analyzes the relationship between the frequency of acronyms and the total frequency of the original words according to the statistical data of word frequency, and draws the conclusion that the higher the frequency of the words, the less the syllables, the easier it is to abbreviate. Part 4th analyzes a few special phenomena which do not accord with the above conclusion. Chapter 4th is the historical tense analysis of the frequency of use of Chinese abbreviations and original words. This chapter first introduces the present situation of diachronic research. Secondly, it explains the content and characteristics of the large scale mobile corpus. Finally, according to the frequency of Chinese acronyms and original words will change year by year, take ten years as a stage. The change of frequency of acronyms and original words is analyzed. Chapter 5th is a summary of the causation and principle of Chinese acronyms. First of all, from the existing research results and experimental data, we can analyze: "the principle of saving effort" It is the main cause of the acronyms. Then according to the characteristics of Hoffman coding, on the basis of the experimental data in the first two chapters, it is found that the generation of abbreviations is the same as the Hoffman coding principle in information theory, which reflects the high frequency. At the same time, the frequency of acronyms is related to the syllables, which proves Hoffman's practice in the field of linguistics. Chapter 6th is the conclusion. This paper points out the areas to be improved in the research work and looks forward to the development of future work. The paper analyzes the frequency characteristics of acronyms and original words by means of experimental methods. This paper explores the relationship between information theory and the principle of acronym from a novel angle, which provides a powerful complement to the study of acronyms and the applicability of computational linguistics.
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:H136.6

【相似文献】

相关期刊论文 前10条

1 何凤远;;中文词频分布与齐夫定律的汉语适用性初探[J];现代语文(语言研究版);2010年10期

2 邱苇;陈永斌;;近年国内美术研究热点概观——基于美术核心期刊论文题名的词频统计与分析[J];苏州工艺美术职业技术学院学报;2013年04期

3 陆汝占;汉语词典编纂一体化环境(上)[J];辞书研究;2000年02期

4 陶家骏;HSK自动化词频统计分析[J];暨南大学华文学院学报;2005年01期

5 王洋;刘宇凡;陈清华;;汉语言文学作品中词频的Zipf分布[J];北京师范大学学报(自然科学版);2009年04期

6 吉日木图,嘎日迪,赛音,达·巴特尔;《现代蒙语词频统计软件系统》的设计与实现[J];中文信息学报;1997年03期

7 徐锦芬;寇金南;;基于词频的国外互动研究热点及趋势分析(2000—2012)[J];外语教学;2014年03期

8 尹斌庸,方世增;词频统计的新概念和新方法[J];语言文字应用;1994年02期

9 朱玉彬;;词频研究新成果——《当代美语频率词典:词汇素描、搭配和主题词表》评介[J];辞书研究;2013年04期

10 钱乃荣;;学习汉语的难和易[J];语文学习;1991年10期

相关会议论文 前5条

1 尹斌庸;方世增;;词频统计的新概念和新方法[A];语言文字应用研究论文集(Ⅱ)[C];2004年

2 胡景贺;;《人民日报》1998年语料库中若干基本语言数据的统计与分析[A];第一届学生计算语言学研讨会论文集[C];2002年

3 安东洪;张惠茅;周生岩;;通过影像诊断结论词频统计辅助PACS检索方法研究[A];中华医学会第16次全国放射学学术大会论文汇编[C];2009年

4 赵青;;基于Hadoop分布式框架的关键词统计[A];中国新闻技术工作者联合会2013年学术年会、五届五次理事会暨第六届“王选新闻科学技术奖”和优秀论文奖颁奖大会论文集(报业篇)[C];2013年

5 尹斌庸;方世增;;词频统计的新概念和新方法[A];语言文字应用研究论文集(Ⅰ)[C];1995年

相关重要报纸文章 前1条

1 吕择;薄熙来庭审的词频分析[N];北京科技报;2013年

相关博士学位论文 前1条

1 叶飞;一种基于齐普夫定律的识别语料中高低词频分界点的新方法及其应用[D];南开大学;2014年

相关硕士学位论文 前10条

1 郑秀花;中国传统家训家规词频分析[D];黑龙江大学;2015年

2 谢关艳;苗族《亚鲁王》人名词频研究[D];贵州民族大学;2016年

3 徐林芳;基于词频统计的汉语缩略研究[D];安徽大学;2017年

4 何凤远;基于词频统计的齐夫定律汉语适用性研究[D];安徽大学;2011年

5 李润;汉语缩略语及其词频分析[D];安徽大学;2012年

6 炎士涛;基于词频统计的文本分类模型研究[D];上海师范大学;2007年

7 胡小溪;基于词频分布的文本隐写技术研究[D];湖南大学;2013年

8 孙墨;基于词频分析的《论语》《老子》思想比较研究[D];黑龙江大学;2014年

9 黄鑫;无指导学习下基于修正词频库的分词方法研究[D];重庆大学;2006年

10 张蓓蓓;《野客丛书》词频研究[D];广西民族大学;2015年



本文编号:1380854

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/zaizhiboshi/1380854.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f2f8b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com