当前位置:主页 > 管理论文 > 社区管理论文 >

基于历时语料库的在线词典编纂系统设计

发布时间:2025-07-09 03:44
   语料库语言学是借助大规模语料库对语言现象进行发现、挖掘的学科,目前已经存在很多在线语料库辅助语言学的研究。该文提供了一个按时间分片进行管理的语料库,并基于此提出了一个由社区维护的在线词典编纂系统,该系统将语料库查询结果动态结合在被编辑的词条中。该文还介绍了一个多义词词义发现和层次化聚类算法,用以自动生成一个默认的词条框架。该文概述了词典编纂系统的总体情况,重点介绍系统的设计和使用方法。

【文章页数】:9 页

【部分图文】:

图1 检索系统体系结构

图1 检索系统体系结构

(4)计算模块,用于计算密集型任务的处理,比如同义句检索。输入和输出与各模块具体功能相关。3.2基本检索功能


图 2 单检索示例

图 2 单检索示例

点互信息(PMI)是一个可以反映词语和词语之间是否存在共现倾向的指标[14]。PMI的计算如式(1)所示。ΡΜΙ(w1,w2)=logp(w1,w2)p(w1)p(w2)???(1)


图 3 词云效果展示

图 3 词云效果展示

展示方面,我们给出了词云和静态力布局两种可视化方案。在词云方案中,文字的大小表示PMI的绝对大小,颜色深度表示当年与前一年PMI的差异。也就是说,文字颜色越深,表示这个词是在这一年突然出现的搭配,以引起用户注意,如图3所示。静态力布局是将统计量转化为物理参数后计算出的稳定的布局....


图 4 静态力布局展示

图 4 静态力布局展示

静态力布局是将统计量转化为物理参数后计算出的稳定的布局。在这个静态力布局中,我们引入了环状力、斥力、碰撞力和引力。环状力用来模拟共现词与中心词的PMI大小(其引力点位于物体-圆心连线与指定半径圆环的交点处);斥力和碰撞力用于使浮动的词语尽可能相互分开且不出现重叠;引力用来刻画共现....



本文编号:4057097

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/shequguanli/4057097.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户50090***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com