悠久的搜索历史
现代社会信息量的增长已经让人喘不过气。在这么多的信息中,人们需要去发现哪些是自己真正需要的,同时忽略和自己无关的。信息汲取技术是人们达到这个目标的途径,也是万事的起点。信息汲取是一个根据特殊搜寻需要而在收集到的一堆文件中查找信息的过程。这个过程的核心是建立索引,以便在搜索信息的时候迅速得到所需要的那一部分。
其实,信息搜索的需要从人类文明开始时就有,潘树广在《中国古代的索引》一文中指出,中国的索引源远流长,在南北朝时代便有类书。从唐宋到明清,搜索编撰技术越来越成熟。最典型的是清代蔡烈先编出《本草万方针线》,为李时珍《本草纲目》编的方剂索引,以便把《本草纲目》中的一万多个药方按病种门类重新排序,使读者查阅它可以得知治疗某病有哪些药方,这些药方分别见于《本草纲目》某卷某页。乾嘉时期著名学者章学诚更在编撰史书系列的过程中提出了当今搜索引擎使用的三个核心技术——关键词的选择、排序(排名)、注明出处(链接)。而蔡烈先所用的“针线”一词,可以理解为今天我们所说的“链接”。
今天,搜索引擎将大量的网页信息采集到它们庞大的、原理上是无限容积的资料库中,通过和古代索引技术同样的模式,根据人们提出的问询,给人们提供准确的答复。下面我们具体了解搜索引擎如何收录网站,遵循什么标准来排名,以及给搜索引擎优化从事者的挑战。
3.1搜索引擎收录网站的原理
3.1.1探寻蜘蛛和探寻机器人
搜索引擎要知道网上的新生事物,就得派人出去搜集。我们提到,在Yahoo创办初期,许多编辑天天泡在网上,访问新鲜网站,然后将搜集来的信息整理成序。当时的网站数量少,做起来比较容易。而现在新网站的出现数量、老网的更新都是爆炸式的,靠人工是不可能完成这个任务的。所以,搜索引擎的发明者就设计了计算机程序,派它们来执行这个任务。
探测器有多种叫法,也叫crawler(爬行器)、spider(蜘蛛)、robot(机器人)。这些形象的叫法是描绘搜索引擎派出的蜘蛛机器人爬行在互联网上探测新的信息。Google把它的探测器叫做Googlebot,百度就叫Baiduspider,MSN叫MSNbot,而Yahoo则称为Slurp。这个探测器实际上是人们编制的计算机程序,由它不分昼夜地进入访问各个网站,取回网站内容、标签、图片等,然后依照搜索引擎的算法给它们制定成索引。所以,这可不是“爬行”而是以光速来访问的。
一个搜索引擎会同时派遣出许多探测器。这些“机器人”或者从站主直接呈递的网站URL去访问,或者由一个网络用户所装的搜索引擎工具栏(比如Google工具栏)得知用户去的网站,或者是从一个网站中指向另一个网站的链接过去。探测器不一定是从网站的首页进入访问,所以,如果你要探测器访问你的其他网页,那么这个进入页就需要和其他网页相连。达到这个目的最容易的办法就是在每一页都加入指向首页的链接。
但是,探测器对许多网站是不能完整取回信息的,这个大多是由于网站的设计没有按照搜索引擎探测器的思路来进行优化。比如,如果一个网页比较大,探测器也只能截取网页的首部,而且只能跟着少量的链接走。Google目前能够吸收100KB的文件,Yahoo会多一点。这个可以通过实验来检验。将一个搜索关键词放在一个很长的网页(约160KB)最后部分,然后看Google的缓存(cache)中显现网页的大小是多少。如果不出意料,Google的cache说这个网页只有101KB。很显然,一部分内容没有被Google抓走。
这个现象告诉我们不要将网页设计得很长、很大。将大的网页拆成若干小的网页具有多个好处:
使得网页容易被探测器抓取。
更容易建立合理的网站内部链接关系。
每个网页可以更加集中在重要的关键词语。
节省服务器的带宽。
方便浏览者的阅读。
如何将网站设计得更加方便搜索引擎来访,是搜索引擎优化的重要应用技术。
3.1.2Google的Freshbot和DeepbotGoogle使用两个探测器来抓取网站上的内容:Freshbot和Deepbot。深度探测器(Deepbot)每月出击一次,受访内容在Google的主要索引之中。刷新探测器(Freshbot)是持续不断地发现新的内容,例如新的网站、论坛、博客等。看起来,Google是发现了一个新的网页,之后频繁地再访,来看看是否还有什么新的更新。如果有,这个新网站就被加入到刷新探测器的名单中进行访问。
刷新探测器取得的结果是汇编到一个单独的数据库里,每一次刷新探测器进行新的一轮循环的时候都被重写。刷新探测器和Google主要的索引是合在一起提供搜寻结果的。这就是说,新的信息可能很快出现在搜索结果中然后就消失,直至一两个月后在Google主要索引中重新浮现。如果一个网页在Google主要索引中已经存在,刷新探测器取得的关于这一页的更新结果会出现几天,然后又退回原来的版本,直到深度探测器来访问这一页。我们知道的Google Dance——Google大规模调整索引的行动(详见本章第3.3.3节)就发生在深度探测器出访之后。
这个Google的操作模式就是收集-采编/索引-反馈的工作程序。事实上,搜索引擎包括下列几个元素。
抓取状态:搜索引擎派出探测器到互联网上不知疲倦地搜集网页。网页仓库:搜索来的网页要集中在一个地方储存,等候索引处理。
索引整理:将网页分门别类,进行压缩,等候进行索引编类,而未压缩的原始网页资料被删除。
索引状态:将压缩后的网页编目在不同的索引之下。
问询状态:将用户问询所用的白话转变成搜索引擎读懂的计算机语言,来咨询各个索引求得相关答案。
排名状态:搜索引擎将相关答案根据一定的标准以单子的形式排列给用户。搜索引擎认为最好的答案被推荐在首位,较次的排列随后,依此类推。下面我们具体了解搜索引擎如何收录网站、遵循什么标准来排名,以及给搜索引擎优化从事者的挑战。
3.2搜索引擎如何提供搜索结果3.2.1搜索引擎的信息索引工作上节我们知道了搜索引擎出击互联网去收集各个网页,力图带回最大量的信息。但是,这些信息回来之后,是暂时放在一个“仓库”中的。在用户提出搜索问询的时候,并不是这些一手信息反馈给用户,而是加工后的有序网页。不经过这些加工,在服务用户问询的时候无法迅速给予回答。这个整理一手网页、编制索引的过程也是搜索引擎评判网站质量的过程。只有有价值的信息才会送入索引。
举例来说,搜索引擎设立一个索引叫“搜索引擎优化”,它就会在它的仓库里寻找有关“搜索引擎优化”的网页,把它们收录在“搜索引擎优化”这个标签下面,等有用户搜索“搜索引擎优化”的时候,它就在这一堆网页中寻找答案。
根据美国《Google的佩奇等级及其他》一书的作者蓝维尔和迈尔分析,这个索引有三种:第一种是内容索引。这里的内容包括网页的关键词、标题、描述语句、链接源头文字都以一种反向数据结构被压缩。这种结构就好像一本书的索引总是在书的最后部分一样。更多的有价值的信息,如网页链接也被收集,放入结构索引之中,这是第二种索引。最后一种是特别索引,集中图片、PDF文件等供特别搜索问询。
3.2.2搜索引擎的信息反馈工作
当用户在搜索框里面敲入搜索关键词按下搜索键的时候,搜索引擎便紧张地开始工作,争取在最短的时间(几百万分之一秒)提供搜寻结果。Google一般将整个执行时间控制在半秒之内。
要在这么短的时间里提供准确的结果,临时计算是不可能的。因此,搜索引擎在内容索引和结构索引的过程中都有个预备计算。在搜索引擎执行了计算后,出来符合用户问询条件的网页太多。一般过去的搜索引擎就此打住,将信息就反馈给读者了。Google进一步将结构交付给排名程序,请排名程序将相关信息按照从最相关到最不相关进行排列。排名程序于是从预备计算过的索引中排列进行比较,给网页的内容进行打分,将综合的结果提供给用户。
3.3搜索引擎排名原理
3.3.1Google的佩奇等级(PageRank)
佩奇等级(PageRank)是Google在20世纪90年代后期超越其他搜索引擎的一个重要概念和法宝。“佩奇等级”是Google算法的重要内容。2001年9月Google被授予美国专利,专利人是Google创始人之一拉里·佩奇(Larry Page)。因此,PageRank里面的Page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。
按照李开复博士在Google黑板报上的说法,“佩奇等级”是一个拥有5亿个变量和2,000万定义的数学平衡式,是Google搜索的核心技术之一。“佩奇等级”着重考察网站的权威性,即越有权威的网站越容易被其他网站主动链接。被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和您的网站挂钩。“佩奇等级”这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的权威性越高。
佩奇的初衷是非常理想化的。他认为,一个网站的好坏不是由网站自己吹出来的,也不是网站自己做假做出来的,而是大家评选出来的。你链接一个网站,那个网站就获得了一个投票。这样的评比结果很难被操纵,网站的排名也就很难由作弊获得。但是,这个逻辑现在一样遭遇了挑战。搜索引擎优化者为了提升一个网站的“佩奇等级”价值,总是在试图获取最多的导入链接,因为一个导入链接就相当于一份投票。更多的网主靠虚假的链接来积累这个“投票”来作弊。因此,Google现在对于搜索的排名并不像以前那样重视“佩奇等级”了。
“佩奇等级”评价一个网页用1~10的数字来显示在Google工具栏中。这个数字就是佩奇等级的值,简称PR值。PR值越大表示网站越重要。在Google的工具栏上用鼠标指向PageRank的绿色条,就可以看到比如7/10这样的表示。这就是说,某一网页的PageRank是7。
但是,这个工具栏上显示的其实是Toolbar PR,它对应的是一个真实的对数范围。在一些情况下,从工具栏上看到的PR不是很准确,有些是工具栏“猜”出的。
佩奇等级的心脏是一个数学公式。它看起来挺害怕的,然而实际上执行的是简单的概率分析,在其中并没有复杂的理论。这里作者做些基本的解释。
一句话,PageRank关注的是一个网页的重要性,但是Google有更多的因素决定网页和搜索的相关度。我们希望看到的结果是人们根据兴趣搜索时,我们的网页能够出现。PageRank的数字不能反映你的网页在用户心目中的地位——当你的网页被收入用户的收藏夹时,这才是值得骄傲的。
2004年初Yahoo推出了自己的搜索排名技术——WebRank,仿效PageRank,也是出现在Yahoo的工具栏中,然而反响却不怎么热烈。
3.3.2怎样看待PageRank是零
从2001年底,针对使用嫌疑手段的网站,Google引入了一个制裁措施——给这个网站的PR变为零。不管这个网站有多少人链接它,它的所有网页或者至少许多页的PR在Google工具栏中显示为零。
出现这个现象还可能是因为一个网站太年轻,Google还没有来得及给它评判。Google PR一般一年更新4次,所以不可能新网站一上线就获得PR值。你的网站很可能在相当长的时间里面看不到PR值的变化,特别是一些新的网站。PR值暂时没有,这不是什么不好的事情,耐心等待就行了。
PR值为零的另外一个原因是一个网站缺少导入链接,即没有人来链接它。所以,看到这样的情况不要慌张,你的网站没有被Google封掉,只是链接缺少而已。这样PR=0的网页如果优化得当,一样可以取得良好的排名。作者的旅游网站的一些网页的PR值就是零,但依然得到一些重要的关键词排名。
但是,如果一个网站之前的搜索排名都很好,拥有很多链接,并且没有其他的重大改变,而突然出现了PR=0的情况,我们认为,这个网站在接受Google的惩罚。这时候,Google工具条的显示是灰色。
遭受惩罚的具体原因,应该是网站的设计或者优化过程中采取了一些不良做法。在PR=0的情况下,Google的索引中就删除了受罚网站的数据,即网页信息。这样,在搜索任何关键词的时候,这个网站不会出现在搜索结果之中。本书第8章列举了常见的错误做法,希望读者避免采用。
3.3.3Google Update和Google DanceGoogle Dance是过去Google剧烈更新网站排名的活动。在这个“跳舞”的过程中,Google所储存的索引都被重新洗牌。有没有发生Google Dance,搜索结果中的变化便一目了然。这个过程大概是每36天1次或者1年10次。Dance可以说是地震,一开始猛烈之后还有小震,要等1个月的时间才能平息。这个也就是为什么把Google的索引更新叫做Dance的原因。
以往在Google没有研发出一种技术来能够经常性地搜索新网站以便不时地调整索引的时候,Google Dance是它全面更新的手段。方法主要是在2004年之前使用的,在那个时候,网站在更新后、实施SEO之后要等到Dance后才能有新的排名效果。在每一次的Dance之前,已经取得很好的排名的网站生怕下一次的Dance将排名毁掉,而没有好的排名的网站则希望Dance早日来到,早日获得机会。因此,Google Dance一直是搜索引擎优化者心中最关心的事情。人们对它是又爱又恨,逐渐也成为了Google神化的一个标志。
现在,Google的更新一般是非常频繁的,能做到每日进行,而且剧烈程度非常小,往往是算法的微小修改和索引的小调整。但是,就在大家以为Google Dance不再有的时候,2006年6月12日Google又经历了一次大的更新。许多网站的排名又不见了,或者只有首页还能被搜索到。正巧这个Dance发生在美国的父亲节,所以又被称为“Big Daddy Update”(老爸更新)。
Google Update和Google Dance是Google完善自己的算法、反对垃圾泛滥的努力。而这个努力的标志性的历史事件是2003年年末的佛罗里达更新(Florida Update)。
3.3.4佛罗里达风暴和时代意义
2003年11月上旬Google开始的对排名算法的剧烈更新。这个更新,犹如飓风,席卷了许多网站原先的排名,使很多网站在即将到来的圣诞节的购物黄金季节失去大量的客源。这个被称为Florida Update的大规模调整,是Google反击黑帽SEO制作垃圾网站来获取不合法排名的历史性战役,在搜索引擎发展史和搜索引擎优化史上具有时代意义。由于Google的这次更新是以位于佛罗里达的Google数据中心为主的,因此称为“佛罗里达风暴”。
Google在这次风暴中集中火力对以两个词语组成的关键词组的搜索开刀。因为大多的商业网站的搜索词一般以两个词语组成,比如“cell phone”,而商业网站是垃圾网页的最大制作者,所以Google对这些网站开刀就是找准了目标。当然,绝大多数商业网站是无辜的,作者的网站bestcallback.net也在其中遭受鱼池之殃。
佛罗里达风暴之后不久,也就是2004年的一月,Google又进行了一次巨大的算法更新。因为这次更新是从位于得克萨斯州的奥斯汀(Austin)的Google数据中心开始的,所以这次的更新被冠以“奥斯汀风暴”。奥斯汀风暴被看做是佛罗里达风暴的余震。
作者至今难忘佛罗里达风暴来袭的那些天——活生生地看着那些本来排名居第一、第二的关键词位置一下子跌出100位甚至200位,带来的后果就是访问量的暴跌。那些日子可以说是让人“饭不思茶不饮”。
因为佛罗里达风暴来的是购物旺季,所以各种关于Google的论调纷纷出来。其中最有名的就是“阴谋论”——Google希望网站都在这个黄金季节去做Adwords竞价广告,好让Google大赚一笔,为2004年年初的上市做准备。后来,人们否定了这个推论,因为Google在之后的3~4个月里逐渐将无辜的网站放回原来的位置。作者的网站排名也逐渐回来,比如“callback service”这个关键词从160多位弹回到50多位,再从50多位弹回到20多位。在20多位徘徊了一个多月后,终于重返首位。
持续了若干月的更新,使许多SEO从业者反思如何正确地使用技术来在这种灾难似的打击中生存下来。
3.4Google沙盒(Sandbox)和逃生法你辛辛苦苦地做好了一个网站,寄希望靠它立刻投产,期待从Google上引来访问者。你也对网站进行了优化,然后却没有看到你想要的流量。是的,Google将新的网站都收录到了一个沙盒(sandbox)里面了。这意味着在之后的一段时间里,人们在搜索流量很大也就是热门关键词的时候,在Google上看不到你的网站。
你或许感到奇怪。新的网站在投放之后,开始曾经在热门的关键词上面排名相当不错,而突然在一个月后都消失不见了。这时候,你会立刻有个恐惧感——我的网站被Google封了。或者,你会怀疑SEO到底有没有用。其实,不要怀疑这些,大多的可能是你的网站被送进了Google沙盒。
请注意,进入沙盒不同于网站被封。这里有个好办法来鉴别是否在沙盒中还是被封。
在Google的搜索栏里面输入你网站的域名,如果没有任何结果而之前曾经出现结果,那么这个网站很可能被封了。但是,如果有结果出现,不管有多少条你网站的链接得到显示,你都没有被封。进一步,你在搜索栏目中输入不太有竞争难度的关键词,如果Google显示出你的网页链接,那么你这个网站就很可能在沙盒里面。另外,如果你在其他搜索引擎里面都有不错的排名而就在Google里面没有,十有八九你是在沙盒里面。
为什么会有Google沙盒这个现象呢?
有两种网站会被收进沙盒。一种是新网站,特别是这个新网站突然得到了大量的导入链接;另一种是老网站,在短时间里突然增加了大量的导入链接。
为什么得到大量的链接反而会造成问题呢?
这是因为Google知道,很多网站试图靠增加链接来获得虚假的PR值。我们知道,Google比较看中导入链接,作为网站的受欢迎程度的一种体现,即“一人一票”的“投票”方式来推举权威网站。
Google认为,受到“投票”越多的网站,即被其他网站链接越多的网站就越可能是好的网站。这个原理被很多不法的站主横加利用,他们纷纷造出许多无用链接,试图混淆Google的判断。特别是有许多网站设计者在短时间内制作出粗劣的网站,利用链接来欺骗到Google的PR值和排名来迅速赚钱。而当Google抓住这些网站的时候,这些网站设计者又造出一批新的网站来达到赚钱的目的。这样,Google的搜索可靠性受到极大影响,成为被操控的机器。早期Google对此没有心理准备,使得大量的垃圾网站被排名到前列。这才有了第2章里描述的Google佛罗里达风暴和“奥斯汀风暴”来清扫垃圾。
为了对付这些投机行为,Google决定采取反制措施。2004年3月开始出现Google沙盒,也就是举世瞩目的Google佛罗里达风暴和奥斯汀风暴之后的半年。有了沙盒,Google仍然像过去一样迅速收录网站,从互联网上从新的网站里努力获取新鲜的信息,但是不再像以前那样信任这些新网站。所有新收录的网站都要经过“适用期”或者“观察期”。经过时间的考验,如果这些网站能顺利通过Google多次的反“泛滥”过滤器(spam filter)的考验,最终这些网站就被放回搜索的“大海”之中,参与正常的排名竞赛。这个过程少则两三个月,长则要一年。
如果你的网站进入了沙盒,你不要沮丧。沙盒是最终可以走出来的,但是在走出之前,你可以采取一些积极的措施,争取早日走出沙盒。在这个沙盒时期里,最应该做的,也是非常重要的,是慎重地开展缓慢的但是强有力的链接战役。
Google的注册专利在某些点上指出了为什么许多网站会被投放到沙盒里面好久。注意下面的几点建立链接策略,可以缩短你的网站在沙盒里面的停留时间。
要和外部网站进行有益的链接。如何进行有益的链接,请看本书第7.4节的专门叙述。
建立链接不要着急,要缓慢而持续。
仔细思考链接的源头文字(anchor text)怎么写,将它们写在链接里面。使用多样的起源文字。
将链接连在你经常更新的那些页面中。
链接策略是力图从和外部的联系中,得到外界对网站合法性的确认,以便“证明”给Google看。但是,最重要的莫非于继续增强网站自身的实力,添加新的网页是最好的办法之一。养成每天或者每周添加一个新网页的习惯。很多人做不到,但是却是重要的一招。添加新的网页,你能吸引搜索引擎常常来访,这样能让你走出沙盒快些。这个努力是最会得到回报的,还可以对未来走出沙盒后在Google中取得理想的排名有不少帮助。详见第9章“网站的养育和监控方法”。
这段时间,你还可以考虑开展竞价排名。在Google上面做广告,和你的排名以及走出沙盒无关,但是这段时间启动竞价排名可以让你立刻得到访问者,同时给你一个衡量广告收益的机会。通过竞价排名,你可以更加熟悉什么关键词能带来点击,这对你的网站优化能起参考作用。
不要遗忘其他搜索引擎。如果您经营的是中文网站,百度的市场占有率在中国是Google的3倍之多,即使网站进入Google沙盒,影响也有限。我们优化网站不是冲着Google、百度或者任何一家搜索引擎而来的,因此我们的搜索引擎优化的策略和希望也不会放在一个篮子里面。
经营英语网站,如旅游业、出口贸易等,对Google的依赖不言而喻。可是,我们也不要忘记了,在美国,Yahoo、MSN、Ask合起来的市场占有率也达到了25之多。不仅如此,这三家搜索引擎的确有一帮die-hard(死忠)的用户坚决不用Google。在Google沙盒里待的这段时间里,力争从这些搜索引擎获得流量,这也是一样重要的。据科摩根大通分析师Imran Khan近日进行的一项调查显示,62的互联网用户希望更换目前使用的搜索引擎。调查结果表明,尽管Google在互联网搜索市场占据统治地位,但用户忠诚度却并不是很高。
在这期间,你还可以多投入精力到搜索引擎之外的地方设法得到访问者。这些地方包括与自己网站主题相关的网上社区、博客等。但是,切记不要随意去泛滥这些地方。
也有一些搜索引擎优化专家对Google沙盒是否真正存在持怀疑态度。根据美国尚奇公司的一项内部抽样调查统计,在2003~2006年中服务100个网站中,有40的网站明显经历过沙盒,而有23的则从来没有过,37的感觉不明显。的确有相当一批网站没有遭遇过沙盒,例如与美国在线娱乐门票、体育赛事球票垄断网站Ticketmaster竞争的GoldenTickets.com网站,从尚奇2006年5月份完成网站设计、正式上线后,6月份便在Google上取得132个前三页关键词排名。在随后的一年内,这样的排名稳中有升,也令尚奇的SEO工程师感到“太顺了”。排名数据显示,这个网站并没有经历过Google沙盒。根据专家们的推断,这个网站没有经历沙盒的原因,一是尚奇在设计这个网站的时候,将SEO的理念贯穿到整个设计过程中,做到了对Google的相当友好;二是这个网站从事的业务是门票、球票,除了SEO,其他方面的投入也带来了很多流量,而这些频繁的访问帮助Google做了判断——这个网站是值得信赖的网站。
网站是在Google引入沙盒这个过程之前便存在的,因此也就不会有沙盒的经历。然而,不管真实存在与否,Google沙盒的滋味对任何一个站主都不是好受的。耐心是制胜的法宝。一个聪明的站主会把沙盒作为一个提高自己网站素质的机会来建造一个令Google无法拒绝的好网站。
百度搜索引擎是不是也有“沙盒”呢?作者从接近百度的人士了解到,百度应该是有“沙盒”的。国内一些研究百度的人士也大致得出了同样的结论。其实,无论有没有沙盒,只要真心地做出一个好站,搜索引擎一定是要收录它、研究它,推荐它的。
Yahoo有没有“沙盒”呢?至少从作者的经历中没有明显感受到。网络上流传的有关Yahoo Sandbox的言论大多是2002~2005年之间的。所以,即使有,也是旧的话题了。