基于历时语料库的在线词典编纂系统设计
发布时间:2025-07-09 03:44
语料库语言学是借助大规模语料库对语言现象进行发现、挖掘的学科,目前已经存在很多在线语料库辅助语言学的研究。该文提供了一个按时间分片进行管理的语料库,并基于此提出了一个由社区维护的在线词典编纂系统,该系统将语料库查询结果动态结合在被编辑的词条中。该文还介绍了一个多义词词义发现和层次化聚类算法,用以自动生成一个默认的词条框架。该文概述了词典编纂系统的总体情况,重点介绍系统的设计和使用方法。
【文章页数】:9 页
【部分图文】:
本文编号:4057097
【文章页数】:9 页
【部分图文】:
图1 检索系统体系结构
(4)计算模块,用于计算密集型任务的处理,比如同义句检索。输入和输出与各模块具体功能相关。3.2基本检索功能
图 2 单检索示例
点互信息(PMI)是一个可以反映词语和词语之间是否存在共现倾向的指标[14]。PMI的计算如式(1)所示。ΡΜΙ(w1,w2)=logp(w1,w2)p(w1)p(w2)???(1)
图 3 词云效果展示
展示方面,我们给出了词云和静态力布局两种可视化方案。在词云方案中,文字的大小表示PMI的绝对大小,颜色深度表示当年与前一年PMI的差异。也就是说,文字颜色越深,表示这个词是在这一年突然出现的搭配,以引起用户注意,如图3所示。静态力布局是将统计量转化为物理参数后计算出的稳定的布局....
图 4 静态力布局展示
静态力布局是将统计量转化为物理参数后计算出的稳定的布局。在这个静态力布局中,我们引入了环状力、斥力、碰撞力和引力。环状力用来模拟共现词与中心词的PMI大小(其引力点位于物体-圆心连线与指定半径圆环的交点处);斥力和碰撞力用于使浮动的词语尽可能相互分开且不出现重叠;引力用来刻画共现....
本文编号:4057097
本文链接:https://www.wllwen.com/guanlilunwen/shequguanli/4057097.html