基于社会网络与内容分析的学术谱系传承与发展研究
发布时间:2021-11-23 16:53
科学在发展的过程中,科学理论不断完善、演进,技术不断更迭。追根溯源,科学发展的本质是知识、技术、文化在一代代科学家和技术工作者之间传承发展的过程,是新一代科技工作者踩在前辈肩膀上不断前进、创造新知识的过程。从这个角度出发,当代中国科学家学术谱系的研究必要而紧迫。同时学术谱系研究突破了以往科学史研究的边界,涉及由学术谱系传承过程中数代科学家所构成的庞大的研究群体,在时段上考察历时达数十年乃至近百年的学术谱系发生发展过程。梳理学科谱系关系,厘清知识传承脉络,探究不同知识传承模式对学术产出的影响效能,对于挖掘科技人才成长规律,加快建设人才强国和创新型国家有重要意义。本文主要以遗传学领域谈家桢学术谱系为研究对象,对学术谱系内学者学术产出与学术影响力的影响因素进行深入研究,并在此基础上结合引文网络与主题模型进行学者学术评价与发展策略研究。为提高研究的准确性,首先通过引入引文信息、合作信息、机构信息等多维特征信息制定了DBSCAN聚类点间距离修正策略用以解决因同名现象所带来的研究数据集噪声失真问题,在此基础上完成了遗传学学术谱系的数据筛选工作。同时将Word2Vec算法、TF-IDF算法、Page...
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
研究路线图
第 2 章 数据来源与研究方法选集 N 中所有尚未被处理的对象 s,检查其邻域,若至少包含将这些对象加入 N;如果 s 未归入任何一个簇,则将 s 加入 C复步骤 2),继续检查 N 中未处理的对象,当前候选集 N 为空复步骤 1)~3),直到所有对象 o 处理完毕。-2 所示,图 2-2-(1)为二维平面上原始数据点的分布,图 2-means 算法聚类后三个簇类的分布,图 2-2-(3)为经由不合适参数 p 聚类后的结果,图 2-2-(4)为经由合适的最近邻距离的结果。对比图 2-2-(2)与图 2-2-(4)可以看出,相较于 KDBSCAN 在发现任意形状的簇类的问题处理中具有优势。同与图 2-2(-4)可以看出,选择合适的最近邻距离度量参数 E 是 D类的必要条件。同时 DBSCAN 算法能够有效识别出噪声点。
图 3-1 文献相似度计算步骤示意图如图 3-1 所示,计算文献相似度的步骤如下:(1)首先将整个数据集作为输入,通过利用 Python 编写的 LDA 主题模型程序进行计算,从而获得数据集中每篇文章所对应的主题向量;(2)任意取出两篇文献,通过其所对应的主题向量,计算两个主题向量的余弦相似度作为两篇文献的主题相似度。对于任意两个向量 a,b,两个向量的余弦相似度 C 的计算如公式(3-1)所示: = ( ) = £§( ) = (3-(3)判断两篇文献第一作者所属机构是否相同,如果相同则 IS=1,否则 IS=0(4)判断两篇文献是否存在直接引用关系,即是否存在文献 1 引用文献 2 或者文献 2 引用文献 1,如果存在则 CI=1,否则 CI=0;(5)通过经脚本已构建的文献集引文网络,统计引文网络中文献 1 与文献的耦合频次 CO,即文献 1 与文献 2 共同引用的文章的数目;(6)通过经脚本已构建包含文献、学者两实体的合作网络图,并统计文献与文献 2 除去第一作者之外所共同拥有的作者数量 CA;
【参考文献】:
期刊论文
[1]学术谱系解读:基于美国印第安纳大学高等教育研究学者的访谈分析[J]. 周谷平,杨凯良. 教育学报. 2017(02)
[2]基于文献计量的科学家学术谱系学术影响力的研究[J]. 吕瑞花,常欢. 情报理论与实践. 2017(01)
[3]基于主题模型的半监督网络文本情感分类研究[J]. 李扬,孔雯婧,谢邦昌. 数理统计与管理. 2016(06)
[4]学术谱系内合作网络研究——以刘东生为核心的第四纪学术谱系为例[J]. 常欢,吕瑞花,张佳静. 情报理论与实践. 2016(04)
[5]姓名消歧方法研究进展[J]. 付媛,朱礼军,韩红旗. 情报工程. 2016(01)
[6]基于LDA模型的科研合作推荐研究[J]. 刘萍,郑凯伦,邹德安. 情报理论与实践. 2015(09)
[7]蒋梦麟教育思想的学术谱系与内在理路——以其博士论文为中心的考察[J]. 吕光斌,时培磊. 高等教育研究. 2015(02)
[8]黄昆半导体物理学术谱系初探[J]. 汪志荣,丁兆君. 自然辩证法通讯. 2015(01)
[9]利用优化的DBSCAN算法进行文献著者人名消歧[J]. 任景华. 图书馆理论与实践. 2014(12)
[10]基于合著网络的学术人才评价方法研究[J]. 刘璇,段宇锋,朱庆华. 情报杂志. 2014(12)
硕士论文
[1]基于学术异构网络的学者影响力评估算法[D]. 周金梦.大连理工大学 2016
[2]基于语义的中文词义消歧技术研究[D]. 邓龙.哈尔滨理工大学 2015
[3]基于LDA的主题演化研究与实现[D]. 崔凯.国防科学技术大学 2010
本文编号:3514298
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
研究路线图
第 2 章 数据来源与研究方法选集 N 中所有尚未被处理的对象 s,检查其邻域,若至少包含将这些对象加入 N;如果 s 未归入任何一个簇,则将 s 加入 C复步骤 2),继续检查 N 中未处理的对象,当前候选集 N 为空复步骤 1)~3),直到所有对象 o 处理完毕。-2 所示,图 2-2-(1)为二维平面上原始数据点的分布,图 2-means 算法聚类后三个簇类的分布,图 2-2-(3)为经由不合适参数 p 聚类后的结果,图 2-2-(4)为经由合适的最近邻距离的结果。对比图 2-2-(2)与图 2-2-(4)可以看出,相较于 KDBSCAN 在发现任意形状的簇类的问题处理中具有优势。同与图 2-2(-4)可以看出,选择合适的最近邻距离度量参数 E 是 D类的必要条件。同时 DBSCAN 算法能够有效识别出噪声点。
图 3-1 文献相似度计算步骤示意图如图 3-1 所示,计算文献相似度的步骤如下:(1)首先将整个数据集作为输入,通过利用 Python 编写的 LDA 主题模型程序进行计算,从而获得数据集中每篇文章所对应的主题向量;(2)任意取出两篇文献,通过其所对应的主题向量,计算两个主题向量的余弦相似度作为两篇文献的主题相似度。对于任意两个向量 a,b,两个向量的余弦相似度 C 的计算如公式(3-1)所示: = ( ) = £§( ) = (3-(3)判断两篇文献第一作者所属机构是否相同,如果相同则 IS=1,否则 IS=0(4)判断两篇文献是否存在直接引用关系,即是否存在文献 1 引用文献 2 或者文献 2 引用文献 1,如果存在则 CI=1,否则 CI=0;(5)通过经脚本已构建的文献集引文网络,统计引文网络中文献 1 与文献的耦合频次 CO,即文献 1 与文献 2 共同引用的文章的数目;(6)通过经脚本已构建包含文献、学者两实体的合作网络图,并统计文献与文献 2 除去第一作者之外所共同拥有的作者数量 CA;
【参考文献】:
期刊论文
[1]学术谱系解读:基于美国印第安纳大学高等教育研究学者的访谈分析[J]. 周谷平,杨凯良. 教育学报. 2017(02)
[2]基于文献计量的科学家学术谱系学术影响力的研究[J]. 吕瑞花,常欢. 情报理论与实践. 2017(01)
[3]基于主题模型的半监督网络文本情感分类研究[J]. 李扬,孔雯婧,谢邦昌. 数理统计与管理. 2016(06)
[4]学术谱系内合作网络研究——以刘东生为核心的第四纪学术谱系为例[J]. 常欢,吕瑞花,张佳静. 情报理论与实践. 2016(04)
[5]姓名消歧方法研究进展[J]. 付媛,朱礼军,韩红旗. 情报工程. 2016(01)
[6]基于LDA模型的科研合作推荐研究[J]. 刘萍,郑凯伦,邹德安. 情报理论与实践. 2015(09)
[7]蒋梦麟教育思想的学术谱系与内在理路——以其博士论文为中心的考察[J]. 吕光斌,时培磊. 高等教育研究. 2015(02)
[8]黄昆半导体物理学术谱系初探[J]. 汪志荣,丁兆君. 自然辩证法通讯. 2015(01)
[9]利用优化的DBSCAN算法进行文献著者人名消歧[J]. 任景华. 图书馆理论与实践. 2014(12)
[10]基于合著网络的学术人才评价方法研究[J]. 刘璇,段宇锋,朱庆华. 情报杂志. 2014(12)
硕士论文
[1]基于学术异构网络的学者影响力评估算法[D]. 周金梦.大连理工大学 2016
[2]基于语义的中文词义消歧技术研究[D]. 邓龙.哈尔滨理工大学 2015
[3]基于LDA的主题演化研究与实现[D]. 崔凯.国防科学技术大学 2010
本文编号:3514298
本文链接:https://www.wllwen.com/guanlilunwen/keyanlw/3514298.html