基于语言模型的小学高年级语文易错字纠正与个性化学习系统研究
发布时间:2021-01-10 22:08
为了辅助小学高年级学生对易错字的学习,本研究以易错字的纠正与个性化学习为主题,以义务教育课程标准实验教科书中语文汉字教学为例,进行了易错字的纠正与个性化学习系统的应用研究与设计,共包括两个模块的研究和设计。首先,构建了易错字纠正模块。结合自然语言处理技术,构建了一个针对小学高年级学生的纠错混淆集;通过实验对比基于n-Gram语言模型和基于预训练语言模型的纠错算法的优劣,选择预训练语言模型进行纠错模块构建,该模块能够对经OCR识别后的文字进行检错和纠错。其次,构建了个性化学习模块,该模块能够依据易错字纠正模块中的检测结果,通过学习者模型和错别字知识模型,向学习者个性化的推荐与检测结果相匹配的章节知识、学习资源。本研究设计的模型能够方便学习者对错别字的检测和个性化学习,促进教育技术的应用,有利于教育技术在易错字教学中的应用和发展。
【文章来源】:中央民族大学北京市 211工程院校 985工程院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
图2-1?NNLM结构示意图??NNLM是一个简单的神经网络语言模型,它总共由四层构成,分别为输入层、嵌入??层、隐藏层、输出层
序型”神经网络,网络的输入是按照时序依次进行输??入,满足上述句子词语之间时序的基本特征[22]。并且由于RNN神经网络的特征,循环神??经网络语言模型比神经语言模型(NNLM)能够更好的捕捉到句子当中的历史信息。??循环神经网络是由输入层、隐藏层、输出层构成,其展开形式如下图:??-0?;-?;,?h??V?V/?V??匕丨麵?????〇—^??按雇时间线展幵?个?vv?u?f?n????—^?u?V?u???入?a?("7)?xtl?xt?xnl??图2-2?RNN神经网络结构图??循环神经网络中以时刻为单位,图中xt、xt+1分别为t-1、t、t+1三个时刻??的输入,其中U表示输入层的对应权重,V表示输出层的对应权重,W表示隐藏层的对??应权重。其中s^、st、st+1表示在t-l、t、t+1时刻隐藏层的记忆,0^、ot、ot+1??表示在t ̄"l、t、t+1输出层的输出。??由于循环神经网络中t时刻隐藏层的状态st是由当前输入xt与上一个隐藏层的状态??共同决定的,所以网络中的“记忆”可以通过神经元S在网络中不断的传递下去,??因此循环神经网络语言模型较神经语言模型能够更好的捕捉到句子中的历史信息。??2.?2.?4预训练语言模型??预训练语言模型(PTM)是一种新的自然语言处理的范式,通过使用大规模文本语??料库进行预训练,对特定任务的小数据集微调,从而降低单个自然语言处理任务的难度。??9??
贫:土.n?in??①?m??B?/-\??/?\?〇?m??分贝?/\?、??八??/\??1?J??图3-1?‘‘贫”字的IDS表示??如上图3-1所示,字符的IDS表示可以以不同的粒度级别给出。①和②中的树状图??都可以作为“贫”字的IDS表示方法。在本文中利用树状图②来表征汉字,他的IDS表??示正是图中虚线上面的字符串。与Wang等提出的仅使用字的笔画来计算字的相似度相??比,使用IDS表示法更具有优势。因为IDS表示方法不仅利用了字的笔画表示,还利??用了字的结构表示,其表征粒度更加细颗粒。在本文的混淆集扩建过程中,使用词语IDS??字符串的编辑距离来计算两个词语的字形相似度。本文未选择直接使用IDS树的方式进??行编辑计算是因为其计算复杂度更高,耗费时间也更长。??在字音的表征当中利用Unihan?Database中汉字普通话(MC)和粤语(CC)发音共??同计算发音相似度,这样有利于对一些同音字作出区别。对于字音相似度的度量,本文??研究当中同样通过计算两个拼音串的编辑距离来完成。??本文为了将字音或字形相似度的范围控制在〇到1之间,在完成编辑距离计算后会??对其统一进行归一化。??为了方便字形字音相似度的计算,本文首先利用Kanji?Database?Project中的idx.txt??文件和Unihan?Database数据集生成了一个中间文件,其内容由图3-2可知。其中第一列??代表该字符的Unicode编码,由]6进制数字表示,作为字的唯一索引;第二列是字符本??身,字符集中包含有繁体中文和简体中文,由于本文研究当中主要针对简体中文,故在??筛选过程中根据字符Unico
【参考文献】:
期刊论文
[1]基于统计语言模型改进的Word2Vec优化策略研究[J]. 张克君,史泰猛,李伟男,钱榕. 中文信息学报. 2019(07)
[2]学生错别字的纠正策略[J]. 康冬桂. 甘肃教育. 2019(05)
[3]新课程背景下小学语文识字写字教学策略与方法[J]. 周芬. 中国农村教育. 2019(05)
[4]纠正小学生语文作业中错别字的方法探究[J]. 梁惠英. 新课程研究(中旬刊). 2019(02)
[5]如何帮助学生消除错别字[J]. 杨雪琴. 甘肃教育. 2018(21)
[6]浅谈小学语文作业错别字纠正的策略[J]. 吴红梅,吴旦春. 甘肃教育. 2018(16)
[7]基于网络的自适应学习系统设计与实现[J]. 赵婉芳,赵妍,徐江红. 数字技术与应用. 2017(09)
[8]大数据下协作学习的个性化自适应学习系统设计研究[J]. 姜思璐,刘建国. 长春师范大学学报. 2016(10)
[9]国内外自适应学习平台的现状分析研究[J]. 郭朝晖,王楠,刘建设. 电化教育研究. 2016(04)
[10]汉字种子混淆集的构建方法研究[J]. 施恒利,刘亮亮,王石,符建辉,张再跃,曹存根. 计算机科学. 2014(08)
硕士论文
[1]小学高年级学生错别字现象的调查研究[D]. 商海静.山东师范大学 2012
本文编号:2969500
【文章来源】:中央民族大学北京市 211工程院校 985工程院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
图2-1?NNLM结构示意图??NNLM是一个简单的神经网络语言模型,它总共由四层构成,分别为输入层、嵌入??层、隐藏层、输出层
序型”神经网络,网络的输入是按照时序依次进行输??入,满足上述句子词语之间时序的基本特征[22]。并且由于RNN神经网络的特征,循环神??经网络语言模型比神经语言模型(NNLM)能够更好的捕捉到句子当中的历史信息。??循环神经网络是由输入层、隐藏层、输出层构成,其展开形式如下图:??-0?;-?;,?h??V?V/?V??匕丨麵?????〇—^??按雇时间线展幵?个?vv?u?f?n????—^?u?V?u???入?a?("7)?xtl?xt?xnl??图2-2?RNN神经网络结构图??循环神经网络中以时刻为单位,图中xt、xt+1分别为t-1、t、t+1三个时刻??的输入,其中U表示输入层的对应权重,V表示输出层的对应权重,W表示隐藏层的对??应权重。其中s^、st、st+1表示在t-l、t、t+1时刻隐藏层的记忆,0^、ot、ot+1??表示在t ̄"l、t、t+1输出层的输出。??由于循环神经网络中t时刻隐藏层的状态st是由当前输入xt与上一个隐藏层的状态??共同决定的,所以网络中的“记忆”可以通过神经元S在网络中不断的传递下去,??因此循环神经网络语言模型较神经语言模型能够更好的捕捉到句子中的历史信息。??2.?2.?4预训练语言模型??预训练语言模型(PTM)是一种新的自然语言处理的范式,通过使用大规模文本语??料库进行预训练,对特定任务的小数据集微调,从而降低单个自然语言处理任务的难度。??9??
贫:土.n?in??①?m??B?/-\??/?\?〇?m??分贝?/\?、??八??/\??1?J??图3-1?‘‘贫”字的IDS表示??如上图3-1所示,字符的IDS表示可以以不同的粒度级别给出。①和②中的树状图??都可以作为“贫”字的IDS表示方法。在本文中利用树状图②来表征汉字,他的IDS表??示正是图中虚线上面的字符串。与Wang等提出的仅使用字的笔画来计算字的相似度相??比,使用IDS表示法更具有优势。因为IDS表示方法不仅利用了字的笔画表示,还利??用了字的结构表示,其表征粒度更加细颗粒。在本文的混淆集扩建过程中,使用词语IDS??字符串的编辑距离来计算两个词语的字形相似度。本文未选择直接使用IDS树的方式进??行编辑计算是因为其计算复杂度更高,耗费时间也更长。??在字音的表征当中利用Unihan?Database中汉字普通话(MC)和粤语(CC)发音共??同计算发音相似度,这样有利于对一些同音字作出区别。对于字音相似度的度量,本文??研究当中同样通过计算两个拼音串的编辑距离来完成。??本文为了将字音或字形相似度的范围控制在〇到1之间,在完成编辑距离计算后会??对其统一进行归一化。??为了方便字形字音相似度的计算,本文首先利用Kanji?Database?Project中的idx.txt??文件和Unihan?Database数据集生成了一个中间文件,其内容由图3-2可知。其中第一列??代表该字符的Unicode编码,由]6进制数字表示,作为字的唯一索引;第二列是字符本??身,字符集中包含有繁体中文和简体中文,由于本文研究当中主要针对简体中文,故在??筛选过程中根据字符Unico
【参考文献】:
期刊论文
[1]基于统计语言模型改进的Word2Vec优化策略研究[J]. 张克君,史泰猛,李伟男,钱榕. 中文信息学报. 2019(07)
[2]学生错别字的纠正策略[J]. 康冬桂. 甘肃教育. 2019(05)
[3]新课程背景下小学语文识字写字教学策略与方法[J]. 周芬. 中国农村教育. 2019(05)
[4]纠正小学生语文作业中错别字的方法探究[J]. 梁惠英. 新课程研究(中旬刊). 2019(02)
[5]如何帮助学生消除错别字[J]. 杨雪琴. 甘肃教育. 2018(21)
[6]浅谈小学语文作业错别字纠正的策略[J]. 吴红梅,吴旦春. 甘肃教育. 2018(16)
[7]基于网络的自适应学习系统设计与实现[J]. 赵婉芳,赵妍,徐江红. 数字技术与应用. 2017(09)
[8]大数据下协作学习的个性化自适应学习系统设计研究[J]. 姜思璐,刘建国. 长春师范大学学报. 2016(10)
[9]国内外自适应学习平台的现状分析研究[J]. 郭朝晖,王楠,刘建设. 电化教育研究. 2016(04)
[10]汉字种子混淆集的构建方法研究[J]. 施恒利,刘亮亮,王石,符建辉,张再跃,曹存根. 计算机科学. 2014(08)
硕士论文
[1]小学高年级学生错别字现象的调查研究[D]. 商海静.山东师范大学 2012
本文编号:2969500
本文链接:https://www.wllwen.com/jiaoyulunwen/xiaoxuejiaoyu/2969500.html