数据挖掘技术在文本特征分析中的应用研究——以夏目漱石中长篇小说为例
【部分图文】:
。笔者构建大规模明治大正时期日语小说语料库,收录了同时代90位日本著名作家的300部小说,语料规模达1100万字。随后,笔者对全部语料逐部进行自动分词和文本特征采集,提取了所有作品的文本特征数据。在此基础上,运用SPSSV.19的个案排秩(RankCases)功能,将夏目漱石前期、过渡期与后期作品各项指标的均值转换为标准分,见表8(篇幅所限,在此只展示本文研究对象的均值和标准分,其他作品数据不再罗列)。为直观起见,笔者根据表8中各项指标的标准分数据制作了图2。图2夏目漱石中长篇小说的文本特征变化由表8和图2可知,夏目漱石前期、过渡期与后期作品具有一些共同特征:名词比很低,动词比、修饰词比与MVR偏高。但随着创作进入后期,句长由极短逐渐变为较短,含接续词的句子占比不断提高,以非过去式结句的句子占比则明显降低。樺島忠夫、寿岳章子(1965)指出,名词比例较高的文章属于概括性的,反之,则为描写性的。MVR值越大,文章越倾向于状况描写,越小则越倾向于动作描写。句子越长,可能越难以理解。接续词使作品中的句子相互之间发生关联。因此,含接续词的句子占比越高,句子之间的关联性就越强。由表8可见,夏目漱石所著中长篇小说的共性特征在于其表达偏重于描写,且倾向于进行大量状况描表8夏目漱石中长篇小说文本特征数据均值及标准分名词比动词比修饰词比MVR句长接续词句比非过去式句比前期作品均值49.095031.805017.065053.66258.09757.472587.7300标准分33.0068.3264.0354.138.9111.2295.71过渡期作品均值47.223332.610017.896754.95678.796712.786767.21
【相似文献】
相关期刊论文 前10条
1 毛文伟;;数据挖掘技术在文本特征分析中的应用研究——以夏目漱石中长篇小说为例[J];外语电化教学;2018年06期
2 史小华;;浅析夏目漱石的小说《心》——以“先生”的人物形象塑造为中心[J];文教资料;2008年07期
3 陈鹏翔;论韦晕的中长篇小说[J];华文文学;2001年04期
4 张萌;;东西方的碰撞与融合——从《心》看夏目漱石的文明观[J];青年与社会;2018年28期
5 孙萍;;探析夏目漱石的文学观[J];辽宁工业大学学报(社会科学版);2017年06期
6 冯运起;;夏目漱石小说《心》的结构关系研究[J];湖北函授大学学报;2018年14期
7 赵志;;夏目漱石小说的艺术特色——以《三四郎》为例[J];文教资料;2016年26期
8 高西峰;;夏目漱石笔下的“书斋”[J];文教资料;2013年18期
9 闻江涛;高鹏飞;;浅析夏目漱石参禅的原因[J];赤子(上中旬);2016年19期
10 陈莹;;试析夏目漱石作品《行人》中的女性形象——拥有多重面孔的阿直[J];赤子(上中旬);2016年18期
相关博士学位论文 前4条
1 马英萍;近代化语境下的漱石文学与禅[D];东北师范大学;2006年
2 李光贞;夏目漱石小说研究[D];山东大学;2006年
3 张小玲;夏目漱石与近代日本的文化身份建构[D];北京语言大学;2007年
4 胡天舒;19世纪末20世纪初日本知识人的中国体验[D];东北师范大学;2013年
相关硕士学位论文 前10条
1 仇晓;论菲茨杰拉德中长篇小说中的悲剧英雄[D];湘潭大学;2016年
2 陈慧晓;论夏目漱石《哥儿》对日本近代教育的反思[D];哈尔滨理工大学;2018年
3 赵琪;夏目漱石中长篇小说的“新女性”形象[D];黑龙江大学;2018年
4 张曦予;论《梦十夜》的叙述艺术[D];四川外国语大学;2018年
5 杨洁;《过了春分》对于夏目漱石的意义[D];上海外国语大学;2018年
6 伍丹慧;从前期三部曲看夏目漱石的悲剧意识[D];西安外国语大学;2018年
7 刘馨;论夏目漱石《门》中“门”的寓意[D];哈尔滨理工大学;2017年
8 曹晓;夏目漱石的自我超越[D];广东外语外贸大学;2016年
9 何慧燕;从《哥儿》看夏目漱石的内心世界[D];浙江大学;2013年
10 斉佳;"『坊っちゃん』から見る夏目漱石の留学生活──異郷に居る江戸っ子"[D];西安外国语大学;2014年
本文编号:2881964
本文链接:https://www.wllwen.com/yingmeiwenxuelunwen/2881964.html