搜索引擎与作弊网站较量技术

  • 发布于:2019-08-25
  • 202 人围观
搜索引擎背后隐含着很大的经济利益,更容易被搜索到是提高点击率的一个重要途径,也是互联网“注意力经济”的一个重要指标,搜索引擎与作弊网站之间的矛盾,不光是技术上的攻防游戏,实际上是一个严肃的产业问题。

  “芙蓉姐姐”成作弊工具

  打开Google,选关键词“芙蓉姐姐”点击,再任选一个“芙蓉姐姐”出现较多的一篇点击,接着出现两种可能:第一,只数秒钟,页面便突然弹跳到“亚洲在线最大的宽频影院”等等网页。第二,出现无数的“芙蓉姐姐”,再任意选择一个“芙蓉姐姐”点击,出现与第一种可能一样的页面——其内容与“芙蓉姐姐”丝毫无关,扑入眼里的是女人半裸的身体或半裸的乳房。

  这便是一次完整的“作弊网站”体验。

  几乎没有一次例外,当网络上有某一个词成为热点时,它必将成为作弊网站(亦被搜索引擎称为“垃圾网站”)最为热门的“作弊工具”。这一次轮到“芙蓉姐姐”。

  在互联网搜索引擎领域,作弊网页已达到泛滥成灾的地步。

  这是据芙蓉姐姐走红的7月12日的统计。以“芙蓉姐姐”为关键词,通过Google进行查询,约有1,030,000个相关网页。查看前40篇的网页,约有15条比较符合“芙蓉姐姐”的内容,占37.5%,有25条不符合“芙蓉姐姐”的内容,占62.5%。

  除了最近两天刚排到第一位的门户网站新浪外,第二位是Mblogger,第三的是dyo.zj.com,均名不见经传。以排在前10位的来分析,除新浪外,几乎全是在BSP(Blog Service Provider托管服务提供商)上申请的BLOG网站(中文称“博客网站”),而在搜索结果的摘要内容上,这些网页类似于专题的形式,满目都是“芙蓉姐姐”,任意点开其中一个,大多弹出的是性感电影手机注册下载或铃声下载等页面。

  在百度里,以“芙蓉姐姐”为关键词,找到相关网页约1,340,000篇,在前40篇中,排在前面的主要是网易、TOM、新浪女性、QQ等门户网站的专题,而在Google中,这些内容均被作弊的blog挤出前40篇之外。

  据一位不愿透露名字的反spam(垃圾网站)专家王某介绍,百度这种搜索结果,并非百度偏好门户专题新闻类内容,根本原因在于,百度已将上文提到的Google前40篇内大部分的作弊网页自动删除掉了,结果比较符合“芙蓉姐姐”的网页内容自然在搜索中排得*前了。

  以“芙蓉姐姐”为关键词对照百度和Google两个主要搜索引擎的搜索结果,可以感受到百度搜索的用户体验要比Google好,因为在Google中查找意味着需要在一堆“垃圾”中寻找有效的网页。

  作弊联盟

  有意思的是,百度屏蔽这些垃圾网站时,遭到了这些网站在技术层面上的攻击。

  “百度一下”关键词“反百度联盟”会发现,在百度网站上有无数条有关“反百度联盟”的信息。自6月1日“反百度联盟”网站上线以来,目前已有2000多人次签名。

  该网站上线之初,气势较大,但最近几乎没有了动静。

  “反百度联盟”发起人为一个网名为“踏雪无痕”的网友,据称,其“美人鱼”个人文学网站于去年底被删除。该联盟在宣言中表示,该联盟是为了反对百度公司对广大站长和网友不公正而成立的同盟组织,本同盟成立的目的是“为了收集百度公司对待站长和网友不公正的证据,促进监督百度公司走向公正”。但是,该联盟成立一个半月以来,至今没有发现该联盟握有多少百度“对待站长和网友不公正的证据”。

  而百度对待“反百度联盟”的态度是“兼容”,直接通过“百 度一下”,即可获得该联盟的所有信息。但据称,百度对此联盟相当重视,从该网站一出现,便组织专业人员对联盟成员及联盟成立原因进行调查,最终得出结论,从已明示网站站名的该联盟成员来看,被百度屏蔽的网站无一例外都曾违反了百度的搜索引擎反垃圾网页规则。

  业内专业人士认为,成立反百度联盟是一件不正常的事情,这就像成立“假冒伪劣俱乐部”或“垃圾邮件联盟”一样,是不为一个社会所容的。

  目前,搜索引擎领域的垃圾网站,已到了泛滥成灾的地步。其发展趋势完全等同于当年垃圾邮件,已像蝗灾一样,不仅危害搜索引擎,也直接危害互联网。

  据百度PM总监俞军介绍,与作弊网站的斗争,将是互联网上一个长久的过程,目前双方的博弈与全球反病毒在技术与形式方面已没有什么区别。

  俞军认为,从某种角度来说,几乎是垃圾网站在推动着搜索引擎的进步。

  在搜索引擎发展初期,搜索引擎的专业人员一直在思考,如何让搜索者以最快速度搜索到最有价值、最为相关的结果,因而发明了meta tag——这是一种“超文本标志语言”,在互联网体系中的作用是表明该网页或网站的属性。

  起初,meta tag是很好用的。那时候,诚实的web站点管理员(webmaster)们如实地填写网站摘要,如实地列出跟他的网站最相关的关键字,搜索引擎们抓取、索引、检索这些诚实的meta tag,并作为搜索结果排序的重要依据。为了有效提高搜索结果,有专门的网络人员研究SEO(搜索引擎优化),专门为网站提高搜索结果而进行优化。

  然而,人们越来越发现,搜索结果的排序,是一个巨大的利益空间——如果谁的网站或网面能够排在搜索结果的前列,谁就有可能获得最大的“广而告之”效益而产生巨大利益。因而,许多“觉醒”过来的网站为了追逐这一利益空间而开始追求页面浏览量(pageview)——打开一个页面,却可包含数个页面元素,从而获得众多的点击数(Hits)——点击数则是“注意力经济”的一个重要指标。

  而到了这个地步,一度推动技术进步的“搜索引擎优化”(SEO)已异化成“搜索引擎作弊工具”(英文简称“SEO SPAM”)。

  从Google的“芙蓉姐姐”的搜索结果便可看到这一典型的作弊:在meta tag中塞进成堆的关键字,或塞进跟自己的网站内容无关,但是非常流行的关键字——但当你打开它时,它又迅速地跳转入作弊网站设定的网页页面中。

  反spam与spam间的较量

  搜索引擎第一轮反击是,在排序时更多地依赖网页正文而不是meta tag。但spam们以进为退,在正文中大量使用与网页背景相同颜色的关键字,在图片注释文字中塞进关键字,在网页代码加入“看不见的注释”。搜索引擎又开始第二轮反击,它们找到了有效的方法来过滤这些看不见的文字。

  搜索引擎的spider(蜘蛛)在访问任何网站时都会自报身份,并且查阅网站的访问规定,按照各网站的规矩来办事。于是,SEO随之制作两个网站,一个专供网友访问,一个专供搜索引擎访问,“各取所需”,这种方法叫做cloaking(外套)。

  在国外,其实早在上世纪SEO SPAM便已成大热门。据1998年的一次调查,在主要的搜索引擎上搜索当时的热门词汇“Monica Lewinsky”(莫妮卡-莱温斯基),各搜索引擎首页居然有40%的搜索结果是垃圾网站。

  搜索引擎只能去寻找新的相关性排序依据,或作弊者不能控制的排序依据,即到网站以外去寻找排序的依据。于是,出现了超链分析,出现了Pagerank。超链分析的原理即是看网页间的同类链接点作为重要依据,此后,又根据各网站的权重等来综合分析等。这样,gov(政府网站)和edu(教育网站)通常被赋予较高的排名,来自gov和edu的超链也有更高的价值。

  但spam们又据此做大量的网站,准备大量的链接,哪个客户出钱,所有的网页都给它一个链接。这种SEO方法被称为linkfarm。而反spam的做法就是凭发现的linkfarm而认定此即为作弊网站。

  据某论坛上某个站长透露,目前,在中国已经形成了一个巨大SEO SPAM市场,据反spam专家王某的估计,中国以此为生的人数大约在数十万,其网站更是高达数百万计。在互联网上,有众多SEO网站,它们打着各种旗号来“指导”人们作弊,并在上面谈心得体会。

  这些SEO SPAM们“赖以生存”的方式主要是以下两种:1.利用搜索引擎引来网站流量带动的广告收入;2.贩卖通过对搜索引擎作弊获得的较高的关键词排名。网站流量以独立IP计算,根据站长的透露,自己每日5000个独立IP的访问量,仅加入了电影宽带等3家的广告联盟,月入已达1300元左右。而一个被百度收录2万左右网页的做流量的网站,每日IP很快就能涨到4万元。

  前赴后继的spam

  SEO SPAM的破坏性是相当巨大的,它不仅直接破坏了每日数亿计的用户搜索体验——这是搜索引擎网站赖以生存的关键所在,同时也破坏了搜索引擎获得收益的主要来源——竞价排名以及相关广告。

  据有关统计资料,在所有网页中,摒除无效网页,作弊网页占到整个网页的10%;在某些热门关键词的搜索中,其前50篇网页,垃圾网站的网页所占比例甚至可以高达80%以上。

  在中国,Google一直以谦谦君子的形象示人,但它也有发怒的时候。

  2005年3月26日凌晨4点,忍无可忍的Google突然发力,将广大批spam站点清除。Google的页面恢复了以前的干净。

  但事隔不到4个月,垃圾网站的网页又如潮水般涌来。据来自Google的内部消息,Google也一直在致力于反spam,但建立一个完整的反垃圾网站系统是一个漫长的过程,在中国,反垃圾网站的人才更是奇货可居。在采访百度时,百度即不愿披露反垃圾网站专家的姓名,“因为这是百度最为宝贵的人才之一”。

  据王某透露,其实在搜索引擎与垃圾网站的长期斗争中,搜索引擎总是处于守势。这不仅因为搜索引擎公司真正考虑搜索结果相关性和排序的只有几个人,而互联网上整天琢磨怎么对付搜索引擎的有几十万网站管理员,更重要的是,制造一个或几十个甚至几百个作弊网页,只要将一个目标网页稍作改动即可实现,并可以不断进行类似复制,而搜索引擎甄别、删除却需要相当的时间,这种“以一当百”,以一个网站对付数以万计作弊网站的工作,对搜索引擎而言,是一个巨大的人力资源投入与成本投入。

  目前,垃圾网站的新攻击方向是博客网站。在国内的各大博客,目前均已苦不堪言,spam如蝗虫般涌来,流量太大会导致网站通道堵塞而无法访问。

  这一斗争过程,已完全类同于互联网的病毒与反病毒,所不同的是,制造病毒的成本有时会更高些——需要很高的技术门槛,而制造垃圾网站的门槛却相当低,且制作方便。

  因此,作为搜索引擎,对待垃圾网站的态度是高度地一致:永久删除。

  但在搜索中,永远会有垃圾网站的存在,因为它每时每刻都在诞生。由于垃圾网站的成本与收入间的巨大差异,SEO SPAM们还会勇往直前,前赴后继。而到目前为止,政府以及相关部门还没有对这种互联网上的“假冒伪劣”制定相应的法律制度来制约。但相信这一天一定会到来。
万企互联
标签: