基于高效用模式和多分配图划分的推特突发事件检测研究

发布时间:2025-07-02 04:47
  推特(Twitter)突发事件检测是从推文数据中检测出突发事件相关信息的过程,该工作广泛应用于新闻获取、舆情分析、灾难事件检测等领域中。传统的推特突发事件检测方法存在两个问题:首先,频繁项集挖掘算法简单地挖掘出所有出现频数大于支持度的项集,而忽略了不同单词具有不同权重的问题;其次,突发词可以属于多个事件,而传统的单分配聚类算法只将一个突发词分配给一个事件。本文对Twitter突发事件检测相关问题展开了研究,主要工作如下:(1)面向事件检测的时间信息抽取。时间信息是事件的重要要素之一,广泛应用于事件检测与跟踪研究中。针对传统的基于规则的识别方法召回率低且难以识别事件类中文时间表达式的缺点,提出一种规则与统计相结合的中文时间表达式识别方法。首先,将中文时间表达式分为7类,以时间基元为单位总结正则规则,以降低规则制定的复杂度;然后,利用正则规则识别中文时间表达式,自动标注训练集,同时,人工标注出基于规则的方法无法识别的事件类中文时间表达式,利用标注完的训练集训练条件随机场模型(CRF)。实验结果表明该方法显著降低了标注工作量,提高了识别的召回率,F1值达88.73%,比基于规则的识别提高了6....

【文章页数】:64 页

【学位级别】:硕士

【文章目录】:
致谢
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景与意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 研究内容
    1.3 论文结构
    1.4 本章小结
第二章 相关工作
    2.1 Twitter的特征
    2.2 事件的定义及组成要素
    2.3 中文时间表达式识别的研究现状
    2.4 Twitter突发事件检测的研究现状
        2.4.1 基于突发词的检测方法
        2.4.2 基于主题模型的检测方法
        2.4.3 基于文档的检测方法
    2.5 Twitter突发事件检测面临的挑战
    2.6 本章小结
第三章 规则与统计相结合的中文时间表达式识别研究
    3.1 引言
    3.2 中文时间表达式分类及系统总体架构
        3.2.1 中文时间表达式分类
        3.2.2 系统总体架构
    3.3 基于规则的识别方法
        3.3.1 基于时间基元的正则规则
        3.3.2 时间基元的合并
        3.3.3 时间缀词
    3.4 基于统计的识别方法
        3.4.1 条件随机场算法
        3.4.2 语义角色
        3.4.3 特征提取与特征选择
        3.4.4 BIO标注
    3.5 实验结果与分析
        3.5.1 数据集及实验工具包
        3.5.2 评价指标
        3.5.3 实验结果与分析
    3.6 本章小结
第四章 基于高效用模式和多分配图划分的推特突发事件检测研究
    4.1 引言
    4.2 高效用模式挖掘(HUPM)
        4.2.1 相关定义
        4.2.2 推文中单词的外部效用值
        4.2.3 效用值列表构造
        4.2.4 最小效用阈值设定
        4.2.5 高效用模式挖掘算法
    4.3 多分配图划分算法
        4.3.1 相关定义
        4.3.2 多分配图划分算法
        4.3.3 一种近似多分配图聚类算法
        4.3.4 聚类数量的选择
    4.4 算法流程
    4.5 数据集与参数选择
        4.5.1 数据集
        4.5.2 数据预处理
        4.5.3 Twitter突发事件检测的评价指标
    4.6 实验结果及分析
        4.6.1 参数选择
        4.6.2 性能对比
        4.6.3 时间性能
    4.7 本章小结
第五章 总结与展望
    5.1 总结
    5.2 展望
参考文献
攻读学位期间的学术活动及成果情况



本文编号:4055261

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/4055261.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3e7d7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com