当前位置:主页 > 科技论文 > 搜索引擎论文 >

链接作弊垃圾网页的检测算法研究

发布时间:2020-07-07 09:31
【摘要】:随着互联网的迅速普及,Web上的垃圾网页也逐渐增多,这极大的影响了搜索引擎的精度和效率,如何识别垃圾网页已经成为互联网搜索所面临的最严峻的挑战之一。 通过对垃圾网页深入的研究,多数网页作弊利用了链接的特点。本文在对各类垃圾网页链接作弊检测技术做了深入研究综述的基础上,设计垃圾网页检测系统框架,然后在这一框架下研究如何对网页的特征属性进行分析和分类器设计。 论文中首先研究优化了一个基于随机森林算法的链接作弊分类器。通过对网页进行基于内容和链接等特征属性的综合提取,采用该分类器对测试集进行第一阶段分类。 然后针对“链接工厂”等链接作弊的常见形式,采用SpamRank算法进行检测。通过对垃圾页面种子集赋予SpamRank权值,并在垃圾页面及其链接页面之间相互传递SpamRank值,构建Web图并对其进行遍历,从而达到对测试集进行第二阶段分类的目的。最后采用IN-OUT算法对链接工厂的检测结果进行了分析。 本文最后利用Web Spam Challenge2008推出的检测研究用数据集WEBSPAM-UK2007分别训练分类器,同时对链接型垃圾网页检测算法进行了实验,并用各种评测指标和算法对比等对实验结果进行了详细的分析。结果表明,本论文实现的链接型垃圾网页检测系统达到了预期的目标。
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.092

【相似文献】

相关期刊论文 前10条

1 吴鹏飞;马凤娟;;基于Boost.Regex的网页信息抽取[J];电脑编程技巧与维护;2009年15期

2 徐明;;轻松破解网页右键屏蔽六招[J];电脑校园;2002年12期

3 杜翠茹;;浅析网页布局方法在教学中的优化[J];大众科技;2010年05期

4 孟涛,闫宏飞,王继民;Web网页信息变化的时间局部性规律及其验证[J];情报学报;2005年04期

5 ;和朋友看同一个网页的幸福生活[J];计算机与网络;2005年18期

6 张晓彦;张晓明;;一种基于表格属性的网页信息隐藏算法[J];北京石油化工学院学报;2009年01期

7 郭利伟;王家兵;;Web信息自动标引方法比较[J];内蒙古科技与经济;2009年07期

8 胡少荣;孟嗣仪;刘云;张彦超;丁飞;;网页信息自动抽取技术的研究[J];铁路计算机应用;2010年09期

9 张莉,曾致远;Windows下网页信息实时监听程序的设计与实现[J];微计算机信息;2005年03期

10 陈太洋;;我国大学图书馆网站链接的实证分析——以中国“211工程”高校为例[J];图书馆杂志;2007年03期

相关会议论文 前10条

1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

2 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

3 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年

4 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年

5 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年

6 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年

7 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年

8 张阳;李战怀;近藤广幸;;WEB PAGE的自动分类[A];第十六届全国数据库学术会议论文集[C];1999年

9 宋丹;林鸿飞;杨志豪;;一种利用链接分析的Web话题跟踪方法[A];第三届学生计算语言学研讨会论文集[C];2006年

10 邹纲;孟遥;于浩;西野文人;;一种基于网站主页信息建立公司名称知识库的方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

相关重要报纸文章 前10条

1 壮壮;批量保存网页信息[N];电脑报;2004年

2 本报记者 黄继新;反垃圾信息:技术抑或法律?[N];经济观察报;2004年

3 杨永猛;西藏移动维护消费者权益[N];人民邮电;2008年

4 苗莎莎;内蒙古移动遏制不良信息出新举[N];人民邮电;2008年

5 何宗卯 本报特约记者 李典胜;向垃圾信息说不[N];解放军报;2011年

6 本报记者 刘燕;各大社区联手打响垃圾信息围歼战[N];科技日报;2011年

7 ;垃圾信息有望缴清[N];中国电脑教育报;2011年

8 本报记者 秦国防;绿色联盟能否扫清信息垃圾[N];河南日报;2008年

9 记者 周国勇 实习生 金丹;手文明:你会丢东西吗?[N];绍兴日报;2011年

10 张英;权威调查:用户平均每周收到8.29条垃圾短信[N];人民邮电;2006年

相关博士学位论文 前10条

1 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年

2 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年

3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年

4 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年

5 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

6 叶育鑫;语义Web下的知识搜索及其核心技术[D];吉林大学;2010年

7 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年

8 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年

9 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年

10 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

相关硕士学位论文 前10条

1 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年

2 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年

3 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年

4 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年

5 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年

6 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年

7 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年

8 徐桢虎;链接作弊垃圾网页的检测算法研究[D];西南交通大学;2012年

9 任斌;基于本体的主动学习主题爬行的研究与实现[D];吉林大学;2010年

10 赵航;基于链接信誉分析的网页权威排序分类算法研究[D];暨南大学;2012年



本文编号:2744957

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2744957.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0bb0d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com