书城计算机网络SEO智慧
49068300000009

第9章 网站设计的最优化操作

搜索引擎优化实践

SEO必须融入网站设计

网站设计,这个听起来并不新鲜的话题在搜索引擎主宰人们信息搜寻的今天,正在经历一个悄然的理念上的更新换代。这个变化的结果就是,网站设计从过去面向用户而转化为面向搜索引擎。说是适应搜索引擎也好,或者说是对搜索引擎友好,都是在强调搜索引擎对网站成功的至关重要的作用——没有搜索引擎,哪里来的访客?这种以搜索引擎适应性为主体的网站设计的新概念,经过许多成功网站的检验而成为一种新的趋势。这种新的设计思维,作者称为“第三代网站设计思维”。

“第三代网站设计思维”的核心思想,就是SEO必须融入到网站设计之中——网站设计之时便是SEO启动之时。许多网站的负责人逐渐明白了SEO对网站带来优质流量的重要性,但是却没有更深入地了解到SEO的最佳应用时间应该是在网站规划之时。这就比如在设计一幢大楼的时候就必须把防震效果考虑进去一样,而不是在建好之后再去采取防震的措施。在由没有“第三代网站设计思维”的设计者把一个网站完工之后再去做SEO只能是补救——结构上比较适应搜索引擎的网站,SEO相对代价小;而结构上有重大问题的网站,可能需要推倒重来。如果真的要推倒重来,损失的不止是金钱,更是时间。如果你需要将网站建设外包,在选择网站建设商的时候,一定要对这个建设商的SEO知识进行考核。

SEO的完整做法一定是包括了对网站结构的改革。所以,网站优化的过程远远不只是加关键词就能对付的。一个网站的结构如果不能被搜索引擎所接受,就等于将你的网页和内容放入了一个迷宫里面,是给搜索引擎的来访制造障碍。绝大多数网站之所以不能被搜索引擎收录,在基础上可能是犯了结构上的毛病。这个毛病的产生是因为网站主人和网站设计人员对搜索营销没有足够的知识,设计网站的思路依然是早先第一代和第二代的设计思维。

搜索引擎优化的实践越多,则会越觉得网站设计决定一个网站最终是否能够收获。SEO的目标是流量,但是这些流量来到网站怎么消化,怎么充分利用,网站的结构与设计(还有内容)决定了这些流量是否能转变成价值。因此,网站设计的最优化操作不仅影响搜索引擎是否喜欢一个网站,而且也决定了一个网站能否被访客接受。在这一章里,我们先解决网站设计怎样先让搜索引擎喜欢。做不好这个,后面想要的效果无从谈起。

4.1网站设计的可用性原则

4.1.1实用性和艺术性矛盾吗

网站结构的组成,实用性和艺术性如何协调是网站设计的挑战。从搜索引擎优化的角度观察,无疑是实用性为先。这是因为搜索引擎目前还没有发展到能够“审美”的地步。它们看不懂Flash,也看不懂图片,甚至连美术字也不懂。也就是说,搜索引擎“没有感觉”。

为了设计对搜索引擎友好的网站,我们一定会放弃一些新技术的使用。在搜索引擎认识这些技术之前,也就是在搜索引擎的程序工程师们还没有发明出能认识这些技术的办法之前,我们的网站设计最好是保守些。但是,我们不是说实用性和艺术性一定是矛盾的。

搜索引擎优化可以针对网站的艺术性采取补充措施,使艺术化的网站尽可能地获得在搜索结果中的优秀排名。诺基亚公司的N-Gage?游戏手机网站(www.n-gage.com,详见第10章范例)采用了很多Flash和图片效果,但是经过SEO的处理,依然可以获得满意的排名,就是个成功的例子。

4.1.2搜索引擎怎么看待网站主题

观察国内的许多网站,包括一些号称在某一领域做领头羊的大型网站,普遍希望“大而全”来建立网站。比如,一个金融信息网的导航目录中也包括下面的内容分类:

男人|女人|体育|军事|健康|娱乐|新闻

这样的网站组建让人哭笑不得。可以猜测建站总负责人的初衷有这么几个:——来访者到了这里就什么信息都得到了;

——不对金融感兴趣的人也可以来访这里;

——我的金融信息不足以吸引人,靠其他内容可以让人喜欢上网站;——网站总体流量变得惊人,便于展示给广告客户或者投资人。

这些想法都是“善意”的,但是却违背网站建设的重要原则——主题针对性。主题针对性一方面从使用者方面来定义,即什么样的网站给什么样的人使用。从搜索营销的方面来看,是告诉搜索引擎一个什么样的网站主题。没有明确的、独一的主题,搜索引擎摸不清网站是什么类别的,试图提供什么方面的信息。

那么什么是网站主题?

一个主题,就是一个网站主要讨论的话题,也是网站的主旋律。为什么这个主题非常重要?

网站内容的相关性决定了主题的重要性。而搜索引擎又是根据相关性来决定网站的质量,并根据相关性来回答用户的搜索。相关性强的网站,被优先送给用户。这个优先,就是搜索结果的优先排名。当一个网站的内容集中在一个焦点的时候,搜索引擎认为,这个网站既然这么“热烈”讨论一个话题,那么它里面所谈的东西一定是很有价值的信息。搜索引擎根据各个网页所使用的关键词、你的网站被链接的关键词、你用来链接各个网页的关键词——这三个因素来判断网站的相关性是否很强。像上面所提到的一个金融网,它的关键词有几万、几十万个,因为这个网站的内容是包罗万象,没有边缘的。搜索引擎于是摸不到头脑。这也就是搜索引擎优化策略中非常重要的议题——全站总体内容与搜索问询的关联性。这个议题的重要性在于一个网站究竟应该怎样确定自己在茫茫互联网中的角色。

语义学知识告诉我们,搜索引擎如同人一样能很容易在整个网站通篇使用和围绕的关键词,搜索引擎不一定会给这个词排名或者提升这个词的排名。搜索引擎会在整个网站中寻找和这个词相关的词来断定这个网站在说什么。这样,一个网站,特别是较年轻的网站会衍生关键词,也就是主关键词派生出来的关键词(长尾词)容易获得排名。而实现这个可能性的前提是,整个网站讨论的必须是和核心关键词相关的内容。举个例子来说,一个销售珠宝的网站可以展示各个款式的玉器、珍珠、名石等。每一页都会不同于另外一页,比如珍珠项链的一页就和手镯的不一样,但是主题依然是珠宝。和其他主流搜索引擎一样,Google对主题很看重。主题的针对性经常影响一个网页的搜索排名。这就是人们搞不懂为什么一个PR值为6的网站反而不能排在PR值为4网站的前列的原因之一。

如果这个珠宝站的PR值是5,忽然间它又增加了一些网页去卖iPod了。结果会是怎样的呢?原来的玉器、珍珠、名石等的网页的PR可能依然不变,但是网站的总体PR就被化妆品的增加而稀释了。这样,当另外一个专门卖iPod的网站就有足够多的机会在搜索iPod时候的排名上压倒这个珠宝站。

不过,这个相关性原则对“久经考验的”老网站是例外。一个历史悠久的自行车网站如果在“自行车”等词语上排名很好,那么如果它要新增助动车、电动车此类新的内容,它可能不会花费很大力气就可以得到这些衍生词的排名。作者的电信网站也反映出这个现象。在本书后面章节对作者网站的分析中可以看出,当最先一些很有挑战性的关于国际长途回拨电话的关键词得到排名后,作者增加了800免费电话的新产品,这些新产品的网页经过优化,很快地便获得大量的搜索流量。

这个相关性原则对门户网站如新浪(sina.com.cn)和娱乐网站如江苏广电(jsbc.com)也是例外的。论其原因,搜索引擎对像新浪、江苏广电这样的网站在资历和素质上已经取得信赖。用一些美国SEO专家的话来说,“祖父级”的网站可以获得任何排名。

生活中,我们可以很容易地记住一个专卖店是卖什么货品的,而却难记住一个百货商店的特色是什么。许多厂商开始连锁专卖店、旗舰店,其中一个目的就是为了突出它们的主题——是它们生产的商品在影响着人们的生活。

保持主题的特色和针对性才能使搜索引擎优化发挥作用。“简单”才是最好的——这是永恒的真理。

4.1.3重视网站结构一致性

网站的每个页面应该遵循一个主题,所以在格式设计上力求保持一致或者大体相仿。突然的一个页面改变会打乱访客的思维,影响他们对网站内容的吸收。这是从可用度方面来观察的。另一方面,不同的格式也会影响搜索引擎优化的努力。搜索引擎优化是一个整体的、连续的工作,但是从开始就要围绕网站的主题设计。不稳定的网站结构会增加搜索引擎优化的工作量,也影响对优化结果的评估。

微软的网站www.microsoft.com虽然产品众多,但是每个产品的网站都基本上遵循一个风格,在导航设计上也力求简单明了,不掺杂无关的信息。这种设计与绝大多数的网络使用者贴近,对维护客户对微软的亲和度具有非常重要的作用。

4.1.4W3C浏览器兼容验证

网页是由HTML或XML语言写成的。就如其他语言一样,它们都包含一些法则或者标准,针对这些标准所进行的测试称做效验。HMTL的标准是World Wide Web Consortium(www.w3c.org)制定的,这个组织帮助网站编辑者编写标准的网页,以便通过不同的浏览器,如IE、Firefox、Safari甚至Lynx都能完美阅读。

验证同时也是保证搜索引擎免于遭遇网页中的编写句法的错误而不能理解网页内容,或者不明白网页中什么是重要的,什么不是重要的。遵循W3C标准,也便于不同的网页设计者使用不同的网页设计工具来编写一个网站的不同网页,使得各个网页的结构得到统一。虽然许多网站没有遵循W3C标准也获得很好的排名,但是经过验证后,网站能保证你的网站的式样不会被不同的浏览器改变,使得你的网站的访问者看到的网页与你设计出来的完全一致。

你可以在网页的最首端加入下面一行来告诉访问者、浏览器、验证机制和搜索引擎的蜘蛛机器人,你是遵循W3C标准的:

验证的方法是到达http://validator.w3.org输入网址,一些不匹配的错误就会被指出。

在现实当中,一个网站的编码是否服务W3C标准并不是影响搜索引擎排名的重要因素。Google喜欢好的网站内容,所以编码的错误不是太大的问题。在Google中,获得许多排名的网站都含有许多编码上的错误。但是,如果一个网站的编码错误严重,它会阻止搜索引擎顺利地收录网页,即使爬虫依然能克服困难收录,但是我们为什么要给它制造麻烦呢?

4.2网站设计的第三代思维

4.2.1换位思维:设想自己是搜索者

互联网最早出现的时候,很多网站都是美术设计家的手笔。他们将之前展示在画报、杂志、广告上的内容,凭借他们先天的优势搬到网上建成了网站。这些网站的设计以“美”为指导思想,但更多的是以设计者认为的“美”为标准,忽视了用户的体验。这个我们称为“第一代网站设计思维”。

网站结构的组成,应该是以使用者为考虑对象,而不是设计者的偏好。因此,按照设计者的审美观来组织的网站常常不能被用户所接受。正如周虹、王咏刚在《优秀网页设计速查与欣赏》(电子工业出版社2005年10月出版)中指出的,“很多设计师只注重布局、文字、色彩等基本设计要素,而从不考虑自己设计的网页是否能给用户带来最舒适的使用体验”。

纠正忽视用户体验的设计做法,新的设计方式讲究能让使用者接受导航模式、最能让他们方便在网站里面巡游、最短的时间接触到最重要的信息。这个充分考虑人机对话的设计思路,是“第二代网站设计思维”。这种思维出来的网站在用户到达之后,能让他们轻松地驾驭浏览的方向,获得所需要的资讯,乃至购买产品。

但是,这个思维模式没有想到,也没有考虑到所期望的网站用户是怎样到达网站的。设计者再也没有想到,一个最大的用户可能访问这个网站有麻烦。这个大的用户就是搜索引擎。这个用户后面才是成千上万的网站用户,而那些众多的用户是依靠着搜索引擎的导引才能到达这个网站的。

不错,网站设计是很令用户使用舒适的,但是不能充分地被搜索引擎认识,结果是无法和搜索引擎能介绍的众多用户接触。这样的网站浏览量少,没有达到网站建设的重要目标。

知道了搜索引擎重要的中介作用后,设计者可以通过设想自己是个搜索者,是如何在搜索引擎中寻找和你网站相关的信息的。这个设想的方法和实践,可以先从网站所涉及的关键词着手,按照关键词的流行程度组织相关内容网页的次序。

最重要的关键词,一般放在主页。这个反向考虑网页重要性来给网站的设计结构提出参考的方法,就是换位思维。这个和传统的设计网站结构的方法,例如,公司简介、产品介绍、客户服务等排列方式不同。换位思维得出的网站结构,能更接近搜索者,也就是潜在的消费者。另外,按照这个逆推出来的网页主次安排,对网站重要性不同的网页获得相应的网站价值,比如Google的PR值有实践意义。这就是“网站设计的第三代思维”。

4.2.2选个好域名

虽然置疑将关键词置于一个域名对一个网站的排名是否真的有帮助,但这样的做法还是值得推荐的。比如,你要建立一个北京奥运会相关的网站,那么就一定会将Olympics取在域名之中。有些搜索优化人士做过分析,发现Google对含有关键词的域名的网站比较留心,在一些搜索结果中,这些网站获得了比较高的位置。这样的域名选择也能使得访问者比较容易记住,对传播网站的知名度也有益处。

4.2.3站内链接更为重要

提到链接,许多人马上想到的是和其他网站的链接。做搜索引擎优化的人士非常积极地从其他网站添置指向自己网站的链接,即导入链接。不错,导入链接的增加会对网站的价值提升有帮助,但是网站内部链接也是受到搜索引擎重视的。

相比导入链接,搜索引擎认为站内链接更为重要。在一个站点中,一定是有主要页面和次要页面的。除了利用网站的结构,如一级、二级、三级层次来布局网页外,链接的指向是表面什么内容重要、什么内容次要的一个手法。搜索引擎认为,一个受链接最多的网页(一般是主页)是最重要的网页,依此类推。同样,从主页指向某个重要页面的链接,可以帮助受链页的排名,因为这样清楚地告诉搜索引擎看完了首页,就应该去看这一页。举个例子,我们常常看到某个电子商城在首页用大幅的广告推出如“情人节数码相机大优惠”。这个首页广告直接链接到这个优惠活动的特定页,消费者可以轻而易举地去浏览,搜索引擎也是可以去的,但是它不懂这个网页的特殊性和重要性。只有当网页中关于数码相机的大多数网页都有链接时,如可以用“情人节数码相机大优惠”作为一个链接通向那个特定页,该特定页的重要性就会急剧上升,搜索引擎会更加关注这一页,排名的时候多少会有些考虑。

站内链接的合理建造是搜索引擎优化的重要技术之一。它的优化能使网站整体获得搜索引擎的价值认可。这个优化措施主要是建立方便、直接、全面的浏览导航链接,使每一页有次序地首尾相接。这个链接的方法可以通过建立站点地图来实现,站点地图将所有的网页分门别类地列举出来,使搜索引擎非常容易地知道网站的结构,依照这个地图访问各个网页。关于如何设置站点地图,请看本章后半部关于站点地图的详细介绍。

4.2.4摒弃使用框架

下列是Google是否能将带框架(frame)的网站收入索引的一段回答:

“在力所能及的前提下,Google尽可能对框架提供支持。框架可能导致搜索引擎出错,因为框架不符合网络的概念模式。在网络模式下,一页只能显示一个网址。而使用框架的网页在一个单页中显示几个网址(每种框架一个)。如果Google确定用户的查询内容与网页总体匹配,Google将返回全部框架组。但是,如果用户的查询内容与大框架组中的某一个框架匹配,Google只返回此相关的框架。在这种情况下,此网页的整个框架组不会显示。”

从这段话可以看出,使用框架不是个好的网站结构。搜索引擎是“爬行”来看网站的,而遇到多个网页搭配在一起的时候,就像火车在铁轨上行驶一样,在交叉的轨道中只能随着一条轨道走,访问一个网页,其他网页就被忽略了。所以,搜索引擎优化强调网站摆脱这个网站组成方式。

4.2.5使用CSS和外置

CSS全称为Cascading Style Sheets,中文称为“网页样式表”。网页样式表用形象的话来描述就是将网页的规范“一气呵成”。Cascading在英文计算机语言中是指对命令的一环扣一环的统一设定。通过CSS,网页可以遵循统一的文字格式,在不影响网站结构的情况下使得各个网页的文字体现符合设定的规范。CSS对大型网站的多人编辑非常有用,以确保网站制作的格式统一。

在搜索引擎优化中,可以通过CSS将难看、冗长的JavaScript等置于网页之外而以链接方式引入使用,还可以将网页开头的一些不重要的编码移到网页末尾,以便搜索引擎快速阅读中心内容。这样不仅能给网页减肥,而且能使搜索引擎优化中可以对重要标题给予修饰的同时却不影响网页美观。

4.2.6JavaScript的处理

一个网页因为一些特殊的效果,比如大家所熟悉的下拉式菜单、MouseOver图片随鼠标自动转换效果等是由一段JavaScript来写成的。这一段程序往往很长,特别是遇到不止一段的程序连接在一起的时候,会有几十甚至上百行的编码。这些编码普遍被网页设计者放在网页之中给浏览器阅读和启动。比如下面一段MouseOver很长的编码放置在<header></header>之间,将会使搜索引擎阅读好长时间,之后才能真正地阅读到网站的实质内容。

搜索引擎要跨越这么多行才能接触到正文。这使得搜索引擎很吃力地阅读网页,而且使网页的文件变得很大,影响网页显示的速度。搜索引擎的设计是为了读网站的信息,而不是来啃这些程序。

知道了搜索引擎来访网站的目的,我们完全可以给它们的访问清洁路面。方法就是将这段编码保存为一个外置的文件,命名为jseffect.js,而在网页的<header></header>中建立一个链接便可,比如:

经过这个外置处理,这么长的编码缩短为一行,极大地优化了搜索引擎阅读网页的过程,因为搜索引擎对这段编码是没有任何兴趣的。

这个编码的外置处理的另一个好处是,如果每页或者许多页都使用同样的JavaScript效果,只要更改jseffect.js这个文件,则全部使用它的网页都得到更改,大幅提高了网站维护效率。

最近的研究发现,一些搜索引擎已经知道JavaScript是它们不需要去看的内容,因而在网页中遇到这些JavaScript的时候就干脆跳过。但是,如果你的网页的某些内容显现是依靠这些JavaScript的运行而实现的,如果读者的浏览器启动这些编码失败,那么搜索引擎也将读不到网页的内容或者错过一部分内容。

另外,使用CSS的:hover pseudoclass来控制下拉菜单(drop-down menu)和滚动(roll-over)的效果来替代JavaScript。这个替代能大大缩小网页HTML的文件重量。

4.2.7动态网页静态化

现代网站的许多网页是采用一些编程语言和数据库结合的方法来进行的。这个数据库就是存储网站信息的仓库,怎样读出这个仓库的内容是要靠计算机语言来调动的。这样就有了如下一些网页的出现形式:

这样的网页,我们称为动态网页。动态网页会使搜索引擎望而却步,因而很不容易在搜索引擎上获得排名。为什么呢?因为这些网页的实质信息是储存在数据库里面的,只有在一个用户来访问的时候通过变量的选择,网页才生成。用户,是知道怎么选择一个变量的,比如选择一个城市。但是,搜索引擎不是人,它不会选择变量,所以网页生成不了,搜索引擎空手而回。

像Google这样的搜索引擎也不情愿阅读带有问号(?)或者其他数据库的字符(#&*!)的URL,因为那个很可能是陷阱,或者是死循环,将损害搜索引擎探测器的工作。所以,探测器在程序设计中能发现并回避动态网址。

因此我们需要将这些网页变成静态的,如:

举一个通俗的例子,我们去中药房去抓药,看到所有的成分,如当归、桂枝片、贡丹皮等都是放在柜子里面的,除非抓药,一般情况下不打开。也就是说,柜子在打开的时候,我们才能看到柜子里面确切的是什么、有多少(如多少根当归)。但是,我们经常需要不打开柜子也要知道里面装的是什么,所以我们就在柜子外面贴上了标签来描述里面的药品。

动态页面里的内容也就像存放在柜子(数据库)里面的中药成分。我们不去点击网页中的链接时(拉开柜子的动作),页面中加载的来自数据库的内容,比如一双鞋子的照片、价格等,是不会自动生成网页给我们看到的。所以,为了使我们不点击也能看到内容,我们就可以把动态的内容反映在标签上,随时可以看到,而且一直都看得到。这些标签都是以静态的形式出现的,而且随着柜子(数据库)里面的成分变化而变更。搜索引擎就是这样,它们不会用手去点击而打开柜子(数据库),因为它们没有手。为了让它们看到柜子(数据库)里面有什么,我们就作出许多相应的静态页面(标签)。

可以有两种办法来使得搜索引擎能够吸收原本属于动态页的内容。

第一种办法是制作大量的静态网页,并且将它们链接到相应的动态页。这样在搜索引擎来访动态页之前,静态页已经将动态页启动出现。这种方法很简单,通过一个目录表就可以实现。虽然搜索引擎不能完全抓住动态页的内容,但是也能抓住绝大部分内容。

第二种方法是使用一个软件将动态URL转化为静态URL。例如,Exception Digital Enterprise Solutions公司的XQASP软件将问号(?)和等字符清除。

转化前:

转化后:

如果你使用的是Apache服务器,mod_rewrite可以把动态的URLs映射成静态形式。你可以用这个命令来缩短URL的长度,给网页减肥,制作对搜索引擎友好的URLs。Apache、IIS、Manilla和Zope都支持这个技术。雅虎和其他流行的网站用这种技术给它们的网页减肥20~30。

如果用Cold Fusion来制作的URL中有“那么重新调整服务器之后,将”变成就很简单地转化了。

以上详细的技术操作,请读友参考计算机程序设计的相关书籍。

4.2.8处理Flash的使用

现在许多网站采用了Flash动画,使网站变得很精彩。不幸的是,搜索引擎却没有办法享受这个精彩,它还只能看文字。因此,为了照顾搜索引擎,也为了使你的网站能在搜索结果中取得优秀排名,尽量少用Flash。如果非用Flash不可,例如游戏网站等需要Flash来增强视觉感受,可以考虑再设计一张不含有Flash的纯文字版网页,并链接原来的Flash网页。另外的方法是,在Flash不多的情况下,可以在同一页面上增加一些文字说明。

再有,不要用Flash来作为链接源头,而应该使用文字。

著名的美国游泳王子,北京奥运会8枚金牌获得者迈克尔·菲尔普斯的形象代理公司在2006年曾经将一份中文网站建造和优化的请求发到作者的信箱。于是,作者立刻打开www.michaelphelps.com。结果看到的是,这个网站从首页到内部37个页面全部是Flash设计,比赛数据等也是Flash。Google收录整个网站只有一页,就是首页,而且是这么一句:

作者当时给出的建议就是——网站重做。重建一个以文字为主、Flash为辅的新网站,然后对菲尔普斯展望2008北京奥运的行动给予充分描述和搜索引擎优化。

遗憾的是,代理公司没有采纳作者的建议,而是采取了临时性的转向,把www.michaelphelps.com直接转向一个Michael在美国游泳运动员的网站swimroom.com上的分页。这种做法无疑把菲尔普斯的名望降低为一个普通运动员。尽管本书收尾的时候传来菲尔普斯吸毒的丑闻,但就他的超一流的运动水平来说,这个网站与他的成就显然是不匹配的。

4.2.9处理Ajax的使用

Web 2.0技术中的Ajax由HTML、JavaScript技术、DHTML和DOM组成,这种新方法可以使得页面变更部分内容时不必每次都读取数据库,因此节省了大量的网页显示时间,减少了对服务器的压力,也便于网站访问者更加顺利地阅读信息。

但是这个方法产生的内容不能被搜索引擎阅读。为此,Google在2007年给出了如何能让搜索引擎爬虫看得到这些内容的建议。

这个建议简单说来就是在网页导航中使用HTML链接,保证你的网站在一些没有将JavaScript打开的浏览器中也能阅读,在Ajax中使用真实的链接,比如:

4.2.10图片大小的处理

网站上的图片比文字要显示得慢,所以搜索引擎优化要求图片的文档大小尽量限制在最低。如果你的网站背景或者页面上有太多、太大的图像,搜索引擎探测器会花太多的精力来阅读。这样会使得搜索引擎不能完全抓获网站的内容,最终影响网站在搜索结果中出现的几率。

在给图片减肥的同时,我们希望给图片的<alt image>标签注明图片的名称,说明图片是关于什么的。一般这个名称是网页中使用的一两个关键词。

4.2.11避免使用图片来做链接

有时候,使用图片来代替文字作为链接的源头艺术感比较强。这个对网站访问者来说是欣然接受的。但是,搜索引擎是不认识图片的,它们只认识字。因此,为了让搜索引擎知道链接导向的网页是什么,请用包含关键词的“链接源头文字”来做导向。

4.2.12怎样缩短冗长的URL

短的URL是否比长的URL更能得到比较好的排名?这个是有争议的问题。不过,根据不少搜索引擎优化者的经验,短的总比长的有优势。就长度而言,如果保持在65个英文字母之内就是最理想的了。

缩短长的URL,需要对网站结构进行优化的调整,避免不必要地设置过多层次的目录,而力争简洁地尽可能地将网页集中化。一般认为,网站的层次尽可能不要超过3层。过深的网站结构使搜索引擎访问吃力,许多内容不能被收录。

4.2.13404错误页设置

在网站设计中,出现错误页是常见的,这样的页面在访问的时候,浏览器上显示的是请求的URL不存在,这个页面可能是网站中本身就没有,也可能是被删除了。这样的缺省页面在静态网站中是可以自动生成的,被称为404页面。当搜索引擎访问网站得到404页面的时候,它们会知道这个网页不存在,也会将网页从它们的数据库中删除。

问题是我们不能放过这样的网页可能给我们带来的访问者。

我们可以把这个错误页定制成一个有血有肉的缺省页,使它成为信息页,导引访问者继续访问网站,而不要让它成为空白的——“对不起,您访问的网页不存在”。方法如下:

首先设计一张网页,建议和主页的格式保持一致,或者把这页设计成一个推广活动的介绍页面。将这一页命名为404.htm。

然后上传到网站的根目录,如www.xyzcompany.com/404.htm。修改你的.htaccess文档,写入:

如果没有这个.htaccess,可以用TextPad来写成.htaccess.txt文件,上传,然后在服务器的文件存放处将.txt这个后缀删掉。

这里需要谈一下在动态网站中的404问题。以电子商务网站为例,当你的钻石商城里面删除不再出售的两款钻石的页面时,这个钻石商城网站的目录与这两款钻石网页的链接被自动切断,搜索引擎在访问网站时,按照路径是径遇到两个404页面。但是,过了一段时间,你却发现这两款钻石的页面依然完好地被搜索引擎收录,甚至在搜索关键词的结果中排行很高。你是第一时间想消灭这两个页面的。

产生这个问题的原因是这两个钻石页面可能有外部的链接在给搜索引擎一个途径继续造访,而搜索引擎依然认为这个页面存在而继续保留。解决的办法是把这两个钻石页面导向404页面,或者指向类似商品的页面。

4.3适应搜索引擎的文本管理系统

文本管理系统(Content Management System,CMS),是一个计算机应用程序系统。它将文件等内容有机地组织起来,方便网站的编辑人员统一编辑、管理网站所要发布的信息,并将它们发展成网站中互相连接的网页,完成一个网站的建设过程。这个系统的发明,大幅度地提高了网站制作的效率和质量,不仅使专业网站开发者方便地制作内容丰富的网页,也使得非编程人员能容易地改编、添加或者删除网页,做到了以前只能由专业编辑人员才能做的网站管理工作。

CMS最早是CNET自己内部采用的系统,该系统便于发表网页,后来在1995年将这个系统独立成一个公司,开发出Vignette CMS系统,用于商业应用。随着Web 2.0的出现,CMS现在被扩展到了门户(portal)系统的编辑和像维基Wiki网站使用的在线网上编辑系统。

但是,由于CMS是一个计算机应用系统,所以它编辑网页是采用一些编程语言和数据库结合的方法来生成动态网页的。在上一节我们阐述了动态网页会使搜索引擎望而却步,这个缺点是一些早期CMS的设计中没有想到的。所以,我们需要采用克服了这些缺点的CMS来编辑出网页。目前美国市场上不少CMS开发商都意识到了搜索引擎的重要,推出适应搜索引擎规律的CMS。Vignette首先就是对搜索引擎友好的CMS。另外作者司职的美国尚奇(Zunch)公司,作为搜索引擎优化的企业,特意开发了对搜索引擎有益的CMS,名称为zMS。这样的CMS能使编写出的网页呈现静态,使搜索引擎方便地阅读。

那么,怎么发现什么样的CMS对搜索引擎是友好的呢?

首先,你需要决定使用什么样的服务器平台(server platform)。需要CMS使用的编程语言和数据库是决定于服务器平台的。如果和一个特别的平台嫁接,它可能会限制你CMS的选择。如果能找到一个独立于平台之外的CMS就理想了,因为它能够运行在任何服务器上。

下一步,就是检查CMS能否作出符合W3C标准的HTML网页。好的CMS是应该让编辑人员随时能够更换网页标签,而不需要额外的编程。最好的系统应该就是将网页编辑不需动什么脑筋就可以做,就像使用Microsoft Word那么简单地提供一个编辑平台,用术语称就是WYSIWYG编辑器或Rich Text编辑器。这个重要的特性将允许你使用标准的按钮和键盘就可以写作、格式化。当你发布网页的时候,CMS就在帮你写HTML,CSS和编程语言来将你的内容按照你编辑时的格式展现在网络上。许多CMS也提供一些特别的功能,比如RSS feed、购物车、论坛、在线聊天的兼容,提升网站的作用。

一句话,一个适应现代网站需要的CMS是应该能制作出既能使访客喜欢又能使搜索引擎感觉舒服的网站。

4.4适应搜索引擎的购物车系统

我们想象一下:你在网上搜索一种你想买的商品,而某家公司的这种产品能够正好出现在搜索结果的前列。对这个公司来说,这意味着什么,已经是不言而喻。

现在大多数的购物车系统都是从数据库中存储商品信息,而在访客点击产品链接的时候调出来呈现在网页上。这个做法不仅方便而且便于管理,也方便访客来进行在线搜索商品。但是,有一个致命的缺点。就是,访客到达网站后,是可以通过站内的搜索引擎来寻找信息的,可是像Google这样的搜索引擎是很难来抓取的。这个原因和上节说明的为什么搜索引擎抓不到存储在数据库里面的网页内容一样。

这里需要树立一个新的观念,即我们希望各个产品网页在客户搜索产品名称或者特性的时候都能有机会出现在搜索结果之中。例如,你是销售减肥产品的网站,所以有20页不同的减肥产品陈列,包括A种减肥茶、B种减肥运动用品。本节第一段中描述的就是一个理想状态,就是无论大家在网上是搜索A种减肥茶还是B种减肥运动用品的时候,你的这两个网页都能出现在搜索结果前列。这个是我们最想争取到的效果。这样,我们就需要购物车系统制作出的产品网页能够适应搜索引擎,即这些网页必须是静态的,而不是包含数据库变量和问号的网页名称。

这样的网页是很少能被搜索引擎收录的:

而同样内容的网页如果是这样静态的地址,就有很大机会被搜索引擎收录:

所以,在选择一个购物车系统的时候,我们要看它是否能编出静态的网页。美国尚奇公司的zWebCommurce购物车系统(www.zwebcommurce.com)不仅能编出静态的网页,而且能在各个网页加入SEO的网页标签,方便你对网页进行搜索引擎优化,使网页更有机会攀升在搜索结果的前列。

4.5给“盲人”编写站点地图

Sitemap,即站点地图,是搜索引擎优化中的一个重要步骤。其作用远超过给网站访客做向导。现在,站点地图更主要的作用是让搜索引擎的探索机器人或者蜘蛛来了解一个网站,指导它们按照地图上指向各个网页的链接顺利到达各个网页。这个地图对使用JavaScript做Menu的网站,或者使用Flash隐含链接的网站尤其重要。

在前面的章节中,我们已经知道了搜索引擎现在不能像人一样用眼睛来观察网页。它们访问网站的方式和瞎子摸象的情形是差不多的,摸到什么算什么,是凭链接才知道去哪里。或者,我们可以用火车的运动来了解。就是,火车按照轨道走,轨道铺到哪里,车开到哪里。你需要给搜索引擎铺轨。所以,为了照顾它们没有“视觉”的弱点,你需要设计一个专门的网页,并将此网页连在首页。这个网页罗列你的网站中的全部网页,使搜索引擎一来访就知道你的网页的全部分布。

编写站点地图不是以提高网站排名为目的,但是对搜索引擎了解一个网站非常有帮助,原因就是能够让一些不容易被搜索引擎看见的网页得到收录的机会。搜索引擎虽然现在能深入网站的各个层次来观察网站,但是如果让蜘蛛减少访问各个网页中链接的时间,蜘蛛就能很有效率地来迅速掌握网站的全貌。通过编写HTML地图,蜘蛛更快地到达网站的深层,有助于网站更多的内容被搜索引擎抓取和索引。

这个站点地图网页的形式是纯粹文字版的HTML文件,上面是通向各个网页的链接。在这里,链接的文字需要反映指向页的主题。比如,指向页是关于减肥茶的,那么这个链接文字应该包含“减肥茶”这个关键词。

有相当多的网站页数很大,而且有几层的架构,数量也惊人,比如有1,000页,搜索引擎要花很大的力气来判断,也要花相当多的时间来寻找网页。在网站结构上,我们要考虑不要将网站的内容(某个网页)同首页隔两个链接以上,而站点地图需要直接链接到那个网页。对于大型的网站,站点地图该怎么设计呢?

既然Google是最重要的搜索引擎之一,那么我们最好是尊重Google给的建议——站点地图页面不要超过100个链接。如果有1,000页,那么你就将它们分类成10页或者12页的样子。站点地图页面的目的也不是自身希望此页能得到什么排名,主要是给搜索引擎一个导向,所以Google的建议是很好的。有很多的SEO人士更建议每页不要超过50个链接。看起来Google可以接受100个链接,但是恐怕它要反复来访才能阅读完。有些搜索引擎更不会阅读到网页的底部,那么对长的网页就很不利了。

站点地图有什么理想的结构呢?一般有层次的排列方式比较方便人们阅读。首页最靠左,是第一层。第二层从左边空格排列,如此类推到第三层和更深。如果能在链接的旁边做个注解就更好,可以照顾来访者的阅读。这样主地图的下面有子地图,非常清晰明了,不仅对搜索引擎而且对访客也很有指导。

办公室营养食品-专为办公室上班族研究出的保健食品营养固体维他命Nature Made全能维他命系列维他命A瓶装维他命B瓶装维他命C瓶装维他命E瓶装人体钙片瓶装丽晶护视维他命系列青少年视力保护神成年视力保护神老年视力保护神营养液体维他命饮品关于我们公司-我们的特色和服务先进科技先进管理公司全国销售代理华北地区代理华南地区代理华中地区代理联系我们公司-联系电话、E-mail、传真我们可以看到Google自己的站点地图。它将Google整个网站分为8类,分别是Search Guides,Services,Tools,Help Centers,Corporate Overview,Investor Relations,Press Center,Hiring。每一类再具体分述,有条不紊。

我们说了,每个搜索引擎都是对知识和信息如饥似渴。它们希望发现更多的网站来丰富它们的数据库。比如说Google,它意识到很多有价值的网站不能轻易地被它抓到,而这些网站对搜索引擎优化又不懂。所以,Google开发了一个工具来帮助这些网站的管理员,试图与他们沟通。这个工具就是Google XML站点地图。Yahoo!随后也推出了类似的工具。

4.6Google XML Sitemap一个Google站点地图是一个很简单的XML文件,罗列你的网站中的所有网页。但是,它的作用远远不止这个。实际上,人们从Google Sitemap这一Google的节目中可以一窥Google心里是怎么想的——它告诉你Google是怎么看待你的网站的。

Google站点地图是2005年夏天推出的。在此之前,针对Google而优化一个网站大多是依靠操作经验,而没有直接来自Google方面的沟通。没有经过优化的网站,要么是得不到排名,或者根本搜索不到,要么就是得到排名的不是你想要的重要网页。作为一般网主很希望Google的搜索机器人(Googlebot)都能探测到网站的每个页面,同时也一夜醒来看到Google给了自己网站一个好的排名。可是,没有和Google交流的途径,也不期待有这么回事发生。所以,在著名的美国网主讨论园地webmasterworld.com上,一个署名为GoogleGuy的人被奉为神仙,大家猜想他就是Google的一名员工,所以迫切希望他透露一点看法,原因就是大家太想知道Google是怎么排名的,哪怕就那么一点点。

在大约一年前,Google推出Google站点地图就发生了变化,特别是2006年2月Google又更新了这个系统,添加了若干工具。目前中文版的站点地图是在网站管理员工具里面:

那么究竟什么是Google站点地图呢?它对你提高网站搜索中的位置到底有什么帮助呢?从根本来说,是下面这两个最基本的用途。

第一,Google站点地图给你提供了一个途径来告诉Google你的网站有价值的信息。

第二,你可以通过Google站点地图来了解Google是怎么看待你的网站的。前面我们谈到,搜索引擎是对信息充满饥渴的,所以它们“孜孜不倦”地在网上收集新的资讯,很大程度上是从认识新网站来实现的。所以,从内心讲,它们真诚希望网主们能有办法和它们沟通,告诉它们什么信息是值得收录的。虽然Google的搜索机器人在发现网页信息方面做得不错,但是它在懂得一个网站的所有网页中那些相对是重要的这个技术上远不成熟。毕竟,懂得搜索引擎优化的网主是很少的一部分人;而且,许多网主专心在编写内容优秀的网页的同时,并没有太在意做网页间的链接和与其他网站的外部链接。

Google了解这个事实,所以它发明了这个地图系统来请你告诉它什么网页是重要的。它请你按照一个从0.0~1.0的尺度来说明某一页相对其他网页的重要程度。使用这个系统,你或许告诉你的首页是1.0,里面的产品分类页是0.8,每个产品的那一页是0.5,而你的联系方式的那页是0.2。

你同时也可以告诉Google你的网站的更新频率,以及数据内容的最新更新的日期。比如,你的首页可能每天更新而内部的产品网页或许一周才一次。

能告诉Google上述的信息是重要的,但是实施起来并不复杂。你甚至不需要制作本章上节所说的普通HTML站点地图文件。Google站点地图可以让你知道Google机器人在“爬行”你的网站时候哪些网页它找不到,哪些链接不能顺着走下去。这样,你便知道哪些地方出了问题。你也可以知道来访者的类型,虽然这个信息在一般网站分析系统中都能查出,可是对没有安装这个系统的网站来讲,Google站点地图也是个工具。

但是Google站点地图最好的部分是2006年2月份添加的网页分析功能。这一网页显示给你两列词语:第一列是“常用字词”,就是Google机器人基于你网站的内容而选择它认为能够代表你网站的词语。第二列是Google机器人发现的从外部链接到你网站使用的文字(anchor text)。遗憾的是,Google将这两列词语限制在20个以内。所以,像http、www和com这样的词也被算入这个限制之内,占用了空间,损失了不少应该收录的词。但是,这两列词语还是能给你一个重要的参考,来看你的网外(offsite)优化的努力结果。

当你比较这两列词语的时候,你可以明白Google是怎么看待你的网站的。“常用字词”里面的词语Google抓错了,或者没有抓到最能反映你网站的关键字词,你需要对你的网页内容进行修改。另外,如果你的导入链接(inbound link)“在指向您网站的外部链接中”里面使用的词语不是你想希望得到排名的,那么你就要在这方面立刻着手修改。

还有一个重要的用途是,Google可以通过这个地图系统告诉你是否有违反Google的行为。这可是个有超级价值的信息,特别是你的网站突然在Google上消失了,而你却不知哪里犯了错。

只有注册成为Google站点地图的站主才能得到这个信息,而且纯粹基于Google的判断。如果你搭建的是没有价值的网站,或者是抄袭的,或者你编了上千的桥页(doorway page)来转向(redirect)到一个网站,Google是不会通报你的。Google不想让制造垃圾网页的站主得到线索来提高他们的“技术”。

向Google递交站点地图所要做的第一件事情就是创建一个Google账户。这个账户可以是你的Gmail信箱的账户,也可以是Adwords、Adsense的账户。因为Google信箱的设立是依靠朋友推荐,所以,没有账户的读者可以到本书的相伴网站www.seoshu.com给作者发信索取邀请函。

如果您对XML熟悉,建造自己的站点地图文件是轻巧的。如果不是,您可以使用第三方的生成器来做。这些生成器在Google搜索中输入“Google Sitemap Generator”便能发现一串。Google自己也有生成器,可以下载并存在自己的服务器上,但是如果你对Python scripts不在行,最好还是使用第三方的生成器。

下面要做的就是:

Login你的账户。

将自己的网址输入“添加网站”的盒子。

在添加站点地图的地方,加入你的站点文件。

即使你没有站点地图,你仍然能得到上面谈到的网站分析的数据。这个是Google站点地图非常好的地方。添加站点地图文件则保证你的网页都能被Google知道。

Google站点地图能让Google机器人迅速发现你的网站内容,允许你告诉Google哪些是重要的,哪些是新添的,哪些做了变动。恰当地应用Google站点地图给你的工具,能修正你的SEO方法,最大可能地让你的信息被Google收录,而且能帮你检查外部链接文字上的错误或者失误。这两个方面是你优化网站最重要的两个实践。

4.7Yahoo URL List

为了和Google区别,Yahoo的Sitemap叫URL List,它的目的是为了帮助蜘蛛更快地抓取网站的内容。相对来说,Yahoo的站点地图比较简单,只要提供给Yahoo一个纯文本文件,逐行列出网站的所有URL就可以了,不需要用XML格式。

Yahoo站点地图是放在网站根目录下的一个urllist.txt文件。站长只要有一个Yahoo ID,就可以在这个地址提交给Yahoo:

请注意,这个Yahoo站点地图不适应雅虎中国。对于英文网站,Yahoo的重要性仅次于Google。我们希望Google在关注你的网站时,Yahoo也能帮你带来流量。

4.8百度搜索开放平台

百度搜索开放平台是刚刚登场的实用工具。网址:http://open.baidu.com。百度搜索开放平台是一个基于百度网页搜索的开放的数据分享平台,广大站长和开发者可以直接提交结构化的数据到百度搜索引擎中,实现更强大、更丰富的应用,使用户获得更好的搜索体验,并获得更多有价值的流量。

在经过必要的申请、审核后,可以通过开放平台实现的特色功能有:指定关键词,更精确、更直接地影响目标用户;

指定排序位置,更统一、更全面地展现内容;

指定样式,更丰富、更恰当地适应资源本身,不局限于文字;指定更新频率,与百度搜索结果保持及时同步。

平台与sitemap的区别

通过传统意义的sitemap协议,主要可以实现:向搜索引擎提交您希望收录的网页;

在一定程度上减轻了抓取产生的额外负担。而借助百度搜索开放平台,您则可以:

指定这些资源的更新周期,更合理、更节省;指定资源在搜索哪些关键词时会展现;

指定资源在搜索结果中的展现样式,不局限于传统的文本结果;还可查看资源的详细统计等其他附加功能。