最新
推荐
2014年高等教育信息化十大“关... 01-04 教育部成立教育信息化专家组 12-24
我国首次开展全国性教育信息化... 12-22 CERNET第二十一届学术年会 11-24
随着Web技术的发展,Spam不再是Email领域的专利,万维网垃圾(Web Spam)成为一种新的危害,垃圾网页(Spam page)开始日益充斥着互联网。在今年USENIX举办的LEET 2011,业界对Web Spam的危害、发展以及控制进行了讨论,本文将通过对大会上几篇论文的分析对WebSpam进行一个概要的介绍。 Complex Search of Web Spam 来自微软公司的Sasi Parthasarathy在大会上作了题为“Complex Search of Web Spam”的演讲。在演讲中,Parthasarathy对垃圾网页和搜索引擎的关联做了详细的介绍。在他看来,一个垃圾网页是一个使用垃圾技术来提升其在搜索结果的排名,但实际对用户没有任何使用价值的网页。用户不会主动地去浏览这些垃圾网页,所以垃圾网页必须通过搜索引擎才能欺骗用户并创造收入。要达到这样效果,垃圾网页就必须了解搜索引擎对页面排名的方法。目前通用的页面排名依赖于两方面的数据:网页内容数据和网页链接数据。垃圾网页也从这两方面实施对搜索引擎的欺骗。在页面方面,常见的欺骗技术包括: 关键字堆砌(Keyword Stuffing) 这些欺骗技术有着不同的实现方法,但总体来说都是生成大量对用户没有意义甚至不可阅读的内容,但这些内容包含大量关键字,可以被搜索引擎发现并评估。例如内容隐藏技术可以生成如图1 的一段Complex Search of Web Spam HTML代码,这段代码在页面上不可见,但罗列并重复大量的搜索引擎敏感的关键字。
当相应的关键字被搜索时,该页面会被排列在靠前的搜索结果中,但当用户点击该页面时,可能无法得到任何想要的与关键字相关的信息。 除了基于页面内容的欺骗,垃圾网页还采用基于链接的欺骗方式,主要形式包括: 链接农场(Link Farms) 这两种方式都是企图通过对垃圾网页建立大量的链接,从而提高搜索引擎对垃圾网页的排名。 Parthasarathy 针对这些欺骗技术指出,目前各家搜索引擎也在试图通过相关性判定等技术手段进行自动或人工的垃圾网页识别技术,但目前的效果很不理想。一方面一些合法的提升网站排名技术(例如一些大网站会购买付费链接)和欺骗技术的效果相似,搜索引擎难以判定哪一个是合法,哪一个是非法;另一方面如何判定内容的意义也是一个难题。 |
版权所有:中国教育和科研计算机网网络中心 CERNIC,CERNET,京ICP备15006448号-16,京网文[2017]10376-1180号
关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com