当前位置:主页 > 文艺论文 > 语言艺术论文 >

基于AdaBoost模型的藏文文本分类研究与实现

发布时间:2020-06-17 18:26
【摘要】:目前,藏文大量文献资源已数字化和信息化,通过分类技术对文本进行分类,有利于文献工作者对文献的管理,同时阅读者更能快速方便的查询相关文献。由于藏语语言结构复杂,在自然语言处理领域,人们对其研究时间相对较短,在文本分类处理中,目前还没有一个相对成熟的分类体系,其原因主要是用于分类实验的语料和模型相对较少,即使有些模型也做了实验研究,但是分类效果却不是很理想,阻碍了分类技术的发展,因此本文通过网络收集一定规模的语料并结合当前相对成熟的机器学习AdaBoost分类模型对藏文文本进行了研究与实现,实验结果表明该模型提升了对藏文文本的处理能力以及具有良好的分类性能。本文在研究国内外文本分类的基础上,结合藏语语言本身的特点,把数量不同的多类别样本和当前较为认可的多类型特征作为模型的数据来源,以机器学习中相对成熟的分类模型为核心,建立完成了基于AdaBoost模型的藏文文本分类系统,通过测试达到了预期效果,本文研究成果如下。1.由于当前研究与实验的藏文语料相对较少,所以本文70000多篇语料由个人收集所得并分为7个类别,然后通过文本预处理共形成4392个规范样本,最终完成了对样本集的构建工作。2.把N-Gram和词共4种特征作为提取的对象,利用特征频度排序算法、信息增益算法、信息增益添加算法和前向逐步回归算法依次从成千上万个特征中选取了100个左右具有明显类别区分的特征作为本文实验所用特征,提高了模型的分类效率。3.对KNN、GaussianNB、Logistic回归和SVM常规分类模型进行研究和实验,为本文强分类模型的构建作前期探索,探索中验证了上述分类模型具有稳定的分类性能。4.通过学习AdaBoost模型对文本分类的原理,提出利用上述(3)所列4种机器学习分类模型替换原AdaBoost分类模型中使用迭代算法获取弱分类模型的方法,同时利用排列组合数学算法,共生成11种AdaBoost分类模型并通过5-CV实验结果表明,以一码元、二码元和词为特征的11种分类模型的分类精确率和召回率都达到了90%以上,最低的三码元特征模型的分类精确率和召回率也达到了88%,其中以一码元为特征且基于4种机器学习模型共同组合的AdaBoost模型分类精确率与召回率分别达到了96%和95%,并通过基于AdaBoost模型的多模式分类实验对比,显示出该模型具有良好的分类性能。5.利用AdaBoost分类模型改动算法原理,设计出相对完整的分类系统,以直观的界面对该模型分类性能进行展示。随着自然语言处理技术的不断发展,文本分类技术也越来越成熟,但对藏文文本分类的相关研究还处于起步阶段,探索研究实验也相对较少,本文在分类理论研究的基础上,通过对分类模型进行探索,得出实验数据,因此本文的研究成果对后续的研究具有一定的参考和借鉴价值。
【学位授予单位】:西藏大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:H214;TP391.1
【图文】:

存储属性,文本


由于初始文本从网站上直接下载所得,其中大量文本比较小,对应特征显得不够明显并且密度较低,因此需要整合部分文本,使其大小统一在一定的范围值内,整合过程需规范操作,尽量降低其它因素对后续分类性能的影响。针对上述粗略式收集的藏文初始语料,本文首先利用软件对文本大小进行排序,当进行特征统计时如果文本太小会增加特征值的稀疏性和模型性能的波动性从而难以找到比较稳定的特征,因此本文筛除 10kb 以下文本并对剩余文本进行无重复的压缩合并,尽量保持文本自身的自然结构特点,使文本大小集中到100kb 至 120kb 之间,最后以 txt 格式和类别名进行存储,其存储属性如图 2-1所示。

藏文,字符,处理结果


图 2-3 非藏文字符的处理结果2.5 样本总体规模文本预处理完成后,便可以作为样本使用,根据之前的研究表明,模型对数据认识分析的过程较为复杂且对数据质量要求较高,如果数据规模过小,那么这个认识过程就会模糊,对模型的性能不能做出可靠的评价。然而数据是无穷大的,完全收集也不可能完成,在文本分类领域中,通常每个类型样本数量大概在几百个左右,因此本文设置每个类别的样本在 300 个以上,形成一定的规模,使最终

【相似文献】

相关期刊论文 前10条

1 蒋焰;丁晓青;;基于多步校正的改进AdaBoost算法[J];清华大学学报(自然科学版)网络.预览;2008年10期

2 严智;张鹏;谢川;张钰林;李保军;;一种快速AdaBoost.RT集成算法时间序列预测研究[J];电子测量与仪器学报;2019年06期

3 李军;闫佳佳;;基于KELM-AdaBoost方法的短期风电功率预测(英文)[J];控制工程;2019年03期

4 王伦;;Adaboost-SVM多因子选股模型[J];经济研究导刊;2019年10期

5 叶晓波;秦海菲;吕永林;;一种改进的Adaboost-BP算法在手写数字识别中的研究[J];大理大学学报;2019年06期

6 王玲娣;徐华;;AdaBoost的多样性分析及改进[J];计算机应用;2018年03期

7 杜瑞超;华继学;翟夕阳;李志鹏;;基于改进Real AdaBoost算法的软件可靠性预测[J];空军工程大学学报(自然科学版);2018年01期

8 王玲娣;徐华;;一种基于聚类和AdaBoost的自适应集成算法[J];吉林大学学报(理学版);2018年04期

9 牛清宁;周志强;刘文超;;基于Adaboost算法的人眼检测技术在路考系统中的应用[J];汽车与安全;2016年04期

10 李新战;;基于改进Adaboost算法的人脸检测方法[J];科技经济导刊;2018年18期

相关会议论文 前10条

1 蔡念;金丰;阮恭勤;潘晴;许少秋;;基于AdaBoost算法的图像复原方法[A];第十五届全国图象图形学学术会议论文集[C];2010年

2 ;Using Skin Color and HAD-AdaBoost Algorithm for Face Detection in Color Images[A];Information Technology and Computer Science—Proceedings of 2012 National Conference on Information Technology and Computer Science[C];2012年

3 Wen Feng;;A Novel Lips Detection Method Combined Adaboost Algorithm and Camshift Algorithm[A];2012年计算机应用与系统建模国际会议论文集[C];2012年

4 陆文聪;钮冰;金雨欢;;基于AdaBoost算法的亚细胞位置预测[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年

5 陈宏伟;刘建伟;费向东;;一种半监督环境下的Adaboost算法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

6 唐晓丹;苗振江;;基于AdaBoost和粒子滤波的目标跟踪[A];第十四届全国图象图形学学术会议论文集[C];2008年

7 于淼;李乃民;王宽全;贾丹兵;闫子飞;;基于AdaBoost的中医舌诊分类算法研究[A];第二次全国中西医结合诊断学术研讨会论文集[C];2008年

8 李晶;陈媛媛;;基于AdaBoost的车牌字符识别模型研究[A];2008中国仪器仪表与测控技术进展大会论文集(Ⅰ)[C];2008年

9 张超;苗振江;;基于AdaBoost的面部信息感知[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年

10 郭翌;汪源源;;基于Adaboost算法的颈动脉粥样硬化判别方法[A];中国仪器仪表学会第十一届青年学术会议论文集[C];2009年

相关重要报纸文章 前1条

1 张阳;5G时代,AI能走多远?[N];人民邮电;2019年

相关博士学位论文 前10条

1 刘冲;模拟电路故障诊断AdaBoost集成学习方法研究[D];大连海事大学;2011年

2 Ebenezer Owusu;[D];江苏大学;2014年

3 习文星;移动背景下视觉的行人检测、识别与跟踪技术研究[D];中国科学院研究生院(上海技术物理研究所);2015年

4 卢金娜;基于优化算法的径向基神经网络模型的改进及应用[D];中北大学;2015年

5 卢岩;交通监控中的运动人体目标检测与跟踪[D];中国科学院研究生院(长春光学精密机械与物理研究所);2011年

6 王小明;可变光照下人脸检测与识别研究[D];华东师范大学;2010年

7 孙元;多媒体语义检索关键问题研究[D];吉林大学;2010年

8 王颖;成熟microRNA识别及其功能预测方法研究[D];哈尔滨工程大学;2016年

9 吴暾华;面向中医面诊诊断信息提取的若干关键技术研究[D];厦门大学;2008年

10 高常鑫;基于上下文的目标检测与识别方法研究[D];华中科技大学;2010年

相关硕士学位论文 前10条

1 成李英;基于AdaBoost算法的路由泄漏检测技术研究与实现[D];北京邮电大学;2019年

2 岳莹;基于SVM的人脸检测与识别研究[D];河北科技大学;2019年

3 闫蓉蓉;面向工业现场的安全帽检测算法研究[D];西安理工大学;2019年

4 苏倩;基于人脸识别的类门禁系统[D];西安理工大学;2014年

5 刘伟涛;基于旋转及改进AdaBoost的单类支持向量机集成[D];河北大学;2019年

6 邵东恒;改进k-means和Adaboost实现标签分布学习[D];闽南师范大学;2019年

7 肖永菲;室外停车场中空车位的检测及应用[D];贵州民族大学;2019年

8 杨国欣;基于Adaboost算法和视觉显著性的羊只目标检测与计数方法研究[D];西北农林科技大学;2019年

9 魏依萌;基于GPU加速的Adaboost车辆检测技术研究[D];哈尔滨工程大学;2018年

10 曹大陆;基于Adaboost算法的遮挡人脸检测研究[D];哈尔滨工程大学;2019年



本文编号:2717987

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/2717987.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户10a5c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com