当前位置:主页 > 科技论文 > 软件论文 >

面向社交网络的科技领域事件检测系统的研究与实现

发布时间:2025-07-09 01:09
  当前,社交网络已经成为人们关注、获取、发布信息的重要渠道。随着互联网的蓬勃发展,社交网络每天产生的信息在持续增多,从中提取有价值的信息已经成为一个重要的研究方向。这些信息可用于商业竞争、情报分析、舆情监控等领域。同时,越来越多的科研机构、科研人员通过社交网络发布信息,这些信息经常包含科技领域相关事件,且往往比新闻渠道发布更早。因此,通过对社交网络进行检测,从中提取有价值的科技情报也变得大有可为。在进行事件检测时,及时发现事件至关重要,因此,事件检测算法需要具有良好的运行效率。通过对科技领域事件检测算法和web技术的应用,可以将社交网络中的科技领域事件以简洁直观的形式展示给用户。本文研究了基于词库改进的科技领域事件检测算法,并结合数据采集技术、文本表示技术以及文本分类技术设计并实现了科技领域热点事件检测系统。本文的主要工作如下:(1)研究了事件检测相关技术,结合科技领域事件检测的特点,使用词库改进了基于局部敏感哈希的事件检测算法,称为FSD-improved算法。该算法通过将科技领域词库与基于局部敏感哈希(Locally Sensitive Hash,LSH)的事件检测算法相结合,提高了事...

【文章页数】:81 页

【学位级别】:硕士

【部分图文】:

图3.1传统随机超平面划分

图3.1传统随机超平面划分

词库中的词需要具有较高的类别区分能力。在LSH散列时使用词库很大程度上可以获得一定的运行效率提升,此提升的程度因不同领域词库的类别区分能力差异而有所区别。杨雨诗等人介绍了一种分类词库构造方法[58],该方法使用基于TFIDF的主成分分析法,得到词库中每个词的权值,筛选出领....


图4.1热点话题发现系统的主要功能模块组成

图4.1热点话题发现系统的主要功能模块组成

图4.1热点话题发现系统的主要功能模块组成(3)系统架构本系统各模块之间相互独立,同时又紧密结合,图4.2为各主要功能模块间的信息交互图。Twitter文本采集模块与无关词滤除模块直接相连,交互的信息为采集到的原始Twitter文本。无关词滤除模块分别与高质量领域....


图4.2各主要功能模块间的信息交互

图4.2各主要功能模块间的信息交互

图4.2各主要功能模块间的信息交互4.3相关技术介绍本节对后续模块设计中需要用到的技术栈进行简要介绍。(1)ScrapyScrapy是一个基于Python的网页抓取框架[61],用于从网页中提取结构化数据。包含的模块有爬取引擎(ScrapyEngine)、调度器(Sc....


图5.1系统整体处理流程图

图5.1系统整体处理流程图

第五章系统实现与测试第五章系统实现与测试上一章对系统的设计进行了详细介绍。本章将结合基于词库改进的科技领域事件检测算法的优势与科技领域事件检测问题的特点,对科技领域热点话题发现系统的实现进行详细论述。该系统具有的功能有Twitter数据采集、数据预处理、Twitter文....



本文编号:4056905

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/4056905.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b4cbc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com