当前位置:主页 > 科技论文 > 自动化论文 >

大规模软件工程知识库的自动构建

发布时间:2025-08-12 19:52
  随着大数据与人工智能时代的到来,知识库作为具有层级结构知识集合,已成为智能化应用的知识基础设施。在软件工程领域中,例如软件缺陷预测、语义关联度计算、软件文档相关性分析和开发人员推荐等工作中,知识库也正发挥着越来越重要的作用。然而,现阶段缺乏成熟的软件工程知识库,其主要的来源仍然是从通用知识库中提取、或者临时手工构建,无法达到大规模和丰富语义的标准,同时缺乏规范化。因此,构造大规模软件工程知识库是必要且紧迫的。在此背景下,本文基于Wikipedia和Stackoverflow数据源,使用机器学习的方法,自动挖掘软件工程概念以及概念间的语义关系,构建基于不同数据源的软件工程领域知识库;同时结合本体对齐的方法,对知识库进行对齐与融合,使得最终构建的软件工程领域知识库具有大规模、高精度的特性。本文的主要贡献和创新点包括:1)研究提出了从Wikipedia和Stackoverflow中联合抽取软件工程概念的方法。该方法从Stackoverflow中抽取软件工程领域的标签集合,挖掘问答文本进行领域概念发现,然后使用标签传播方法在Wikipedia中进行领域概念扩充。该方法使所构建的软件工程知识库保持...

【文章页数】:87 页

【学位级别】:硕士

【部分图文】:

图6弓ha吧

图6弓ha吧

图3-2标签在StacFig.3-2Useofthe对于Stackoverflow原始标签集合的1)选取前10%具有高投票率和前由于Stackoverflow对每个问题那些具有较高投票分数和收藏数从而具有较高的标签错误纠正能aNullPointerExcep....


图3-3具有描述文本的标签在不同频度分组中的占比Fig.3-3PropertionofTagswithDescriptioninDifferentFrequentnessGrroups

图3-3具有描述文本的标签在不同频度分组中的占比Fig.3-3PropertionofTagswithDescriptioninDifferentFrequentnessGrroups

图3-3具有描述文本的标签在不同频度分组中的占比Fig.3-3PropertionofTagswithDescriptioninDifferentFrequentnessGrroups3.3标签间的关系抽取本文采用半监督学习技术,完成标签间上下位关系的自动....


图3-4问题和问题Fig.3-4TextofQuestions

图3-4问题和问题Fig.3-4TextofQuestions

概念仅是部分子集,然而通过Stackoverflow文本挖掘可发现新的概念,从而能扩充规模。这里的Stackoverflow文本,是指在Stackoverflow网站页面中三部分:1)关于问题的描述;2)关于问题的回答;3)关于问题和回答的用户评论。图3-4与图3-5分别给出了S....


图3-6取样概念的MFig.3-6ProportionofM

图3-6取样概念的MFig.3-6ProportionofM

图3-6取样概念的M(())值分布Fig.3-6ProportionofM(())inSample从图3-6发现,样例中98.6%的M(())值在0.5及以上。因此,本文最终确定规则的阈值为M(())≥,即可....



本文编号:4059054

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/4059054.html

上一篇:巡线机器人状态检测与越障规划技术研究  
下一篇:没有了

Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户791b5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com