46319700000007

第7章获取和查找信息(1)

环球信息网WWW

在使用WWW之前，Internet对大多数人来说还是个抽象的名词，而现在我们所说的Internet，谈网上浏览、冲浪、漫游，都指的是WWW。可以说是WWW才使Internet实实在在地走进了我们的生活。

应该说，是WWW为我们带来了一个崭新的“Internet世界”。Internet真正走进千家万户，和WWW的成长、发展密不可分。WWW的优势在于我们可以通过简单易懂的方法，迅速获得各种不同的资料。这些资料不仅可以包括普通的文字材料，还可以包括声音、音乐、图像、电影等多媒体资料。WWW的出现使Internet再也不是少数计算机专业人员和高科技人员的“专利”，而是真正成为大众的“乐园”。我们现在可以利用计算机网络获得任何想要的信息，包括文化、教育、体育、娱乐、科技、卫生、产业信息、留学、求职、论文检索，还可以坐在电脑前，由电脑带领使用者去做一次虚拟旅游、拜访世界另一端的著名人物，足不出户地“走遍”世界各大图书馆。这都是和WWW分不开的。

什么是WWW？

所谓WWW，它是英文三个单词WorldWideWeb的缩写，我们称之为万维网，全球信息网，或web网。

大家最先接触到Internet的大部分都是由于使用了WWW浏览这种方式，而且很多人甚至认为WWW就是Internet。其实，WWW网只是Internet的一部分。Internet上有很多WWW服务器，由这些WWW服务器组成的网络称为WWW网。

用户在WWW网上查询信息，如同“蜘蛛在蜘蛛网上穿行”，各个WWW服务器如同是“蜘蛛网”上的结点。用户从一个结点进入网络就可以找到自己想要的信息，这就是Web名称的由来。因为Web翻译成中文是蜘蛛网的意思。由于Internet几乎覆盖了全球，“蜘蛛网”的结点，即WWW服务器，分布在Internet上的大大小小的网络上，由信息提供者编织成一个世界范围的“蜘蛛网”，因此称为WorldWideWeb（译成中文是世界范围的蜘蛛网的意思），其首字母的缩写就是WWW，这就是环球信息网WWW名称的由来。

我们可以把WWW看成是一本巨大的图书，这本书不仅有普通书籍所具有的文字和图像，还包括声音和动画。正像普通的一本书是由一张张书页组成的一样，WWW也是由许多“页”组成的，只不过这些“页”分布在世界各地我们称之为网站的WWW服务器中，这种页面叫做“网页”。WWW把遍及全球的信息资源以网页的形式联系起来，我们称这种联系为“链接”。链接使我们可以方便地查询和浏览所需要的信息。

WWW的发展历史

在20年以前如果你有机会接触到Internet的话，那么你很可能是一个大学生或科研工作者，因为当时使用Internet的软件基本上都是基于UNIX系统上的。也就是界面枯燥，大部分都是冷冰冰的字符，你必须像现在学习DOS命令一样，先要记住一长串的命令及各种参数和格式，不能有一点的差错。这也是为什么当时Internet没有普及的重要原因之一。

正是在这种情况下，于1989年3月产生了WWW的概念，这由当时在欧洲量子物理实验室工作的科学家提出的。欧洲量子物理实验室是Internet在欧洲的重要组成部分，许多科学家通过这一网络工作。科学研究需要共享最新的研究成果，传统的邮件和文件传输等手段已不能满足工作需要，而且操作起来烦琐而复杂。在这种情况下，科学家们希望建立一个操作简单、具有统一的人机交互界面、可以快速获取各类信息的应用系统。

1990年11月，第一个WWW应用软件正式投入使用。开发者的主要目的是建立一个统一管理各种资源、文件及多媒体的系统，希望Internet的使用者只是通过简单易懂的使用方法，便能够迅速方便地在Internet上取得各种资料。1992年，欧洲量子物理实验室向全球公布了这一最新研究成果。由于WWW为Internet上的广大用户获取信息提供了方便和直观的手段，也为Internet上的信息提供者在制作等方面带来了方便，因此WWW受到了人们的普遍欢迎。

1993年，WWW技术有了突破性进展。在美国伊利诺州超级计算应用程序国家中心（NCSA）进行科学研究的安德森（Anderessen）开发出了一套软件，这套软件就是MOSAIC，它是世界上第一套WWW浏览器，为普通用户提供了非常直观的图形界面，非常易于操作。你只要会用鼠标，点击各个命令按钮，或点击网页中的各个已经做好的链接文字或图片，你就可以进行全球旅行了，并且用WWW浏览器软件可以观看多媒体的效果。正是因为这套软件的易学易用，得到广大普通用户的接受，这套软件从某种意义上为Internet普及到百姓家庭作出了不可磨灭的贡献。这一软件成为1994年全球流行的十大软件之一。

其后，有很多信息产业公司进行WWW浏览器的开发研制。1995年，在Internet上最流行的WWW浏览器应用程序是Netscape公司NetscapeNavigator，其后又出现了Microsoft公司的InternetExplorer浏览器等。

随着WWW的发展，出现了Internet特有的文化现象，它与广播电视有很大的不同，信息的提供者与用户不是分离的，许多用户既是信息资源的使用者，也是信息资源的提供者。分布在网络各处的用户自己建立、维护和更新各自的信息资源，使得WWW这个“蜘蛛网”上的结点布点增多，编织的网越来越大，形成Internet上信息的汪洋大海。

WWW中的术语

超文本（Hypertext）

在大多数情况下，计算机里存放的文字信息是顺序显示在屏幕上。例如，用文字编辑处理器：MicrosoftWord显示文本，总是从头到尾顺序显示。如果读者对其中的一段内容不感兴趣，可以用窗口边框的滚动条快速滚屏。这种顺序呈现格式很像录音机和录像机正向或反向顺序选播录音带或录像带中的部分内容。显然，用这种方式显示信息很不方便。实际上，日常生活中有很多是超越顺序呈现信息的实例。例如，根据书中有关内容列出的参考文献索引，翻阅另一本书中的有关章节。电影艺术中的“蒙太奇”可以进行连续画面的突然切换，例如从古埃及的征战到现代的金字塔观光等等。这些信息非顺序呈现实例蕴涵着超文本的概念。

超文本是指对于呈现在屏幕上的文本信息，用户可以随意跳跃一些章节，阅读下面的内容，也可以从计算机里取出存放在另一个文本文件中的相关内容，甚至可以从网络上的另一台计算机中获取相关信息。

超媒体（Hypermedia）

就信息的呈现形式而言，除了文本信息以外，还有语音、图象和视频（或称动态图象）等，统称为多媒体。在多媒体的信息浏览中引入超文本的概念，就是超媒体。

超文本标记语言（HTML）

当你从WWW服务器取得一个文件后，你当然希望它能在你的屏幕上正确无误地显示出来，包括文字、图象和声音。由于制作文件的人无法预测是谁用什么类型的计算机或终端来看这个文件，为了保证每个人能正确读出这个文件所携带的信息，就必须以所有类型的计算机都看得懂的形式来“描述”，于是就产生了超文本标记语言HTML。

超文本标记语言是服务器制作信息资源和用户浏览器显示信息资源而约定的格式化语言。每个WWW服务器所包含的信息资源，都可以看作是用HTML格式书写的文档或称为页面，以数据形式存放在计算机的硬盘上。用户浏览器按照HTML语言定义的格式显示信息。

经过超文本标记语言编写和描述的文件称为超文本文件。在超文本文件中，不但文字有特殊的效果，更重要的是增加了一些链接点，文件中的链接点可以是一段文字，也可以是一幅图画，这些链接点分别指向相关的新页面，无数的链接点编织成WWW信息网。

当你在浏览器中浏览一个页面时，总会发现一些链接点，它们通常是加亮的、带下划线的文字、一个图标或是一幅图画，更明确的标志是：当鼠标进入链接的区域时，鼠标的形状就会变成“箭头”或“小手”。鼠标单击链接点，该链接点所指向的页面就会打开，从而进入新页面。

HTML的各种命令穿插在文件的各个部分。它不但标明如何进行链接，而且标注出哪是页面的标题、段落、注脚和插入条目。也有一些命令使你能放入一些多媒体（图像、声音和动画等）信息。当浏览器读取到HTML文件时，将按照命令的指示去组成一个完整的页面。

主页（HomePage）

WWW是通过相关信息的指针链接起来的信息网络，由提供信息服务的WWW服务器组成的。任何一个信息服务提供者都会以醒目的标题表示信息的主题，为用户提供查询和索引目录。例如，每本书都有书名，书中有章节结构。同样，每个WWW服务器也有自己的封面和目录的一页HTML文档，称为主页。实际上，每个组织、单位和个人都可以建立主页，反映信息内容的层次结构，并有指针链接下一层次的页面。如果用户从主页开始浏览，可以完整地获取这一服务器所提供的全部信息。

统一资源定位器（URL）

（1）什么是统一资源定位器

在人民日报的报头上，我们可以找到http：／／www．people．com．cn的字样，这就是人们日报的主页的URL。其实WWW的使用者每天都会和统一资源定位器（URL）打交道。之所以有人对统一资源定位器的名字感到陌生，是因为我们经常用“网址”、“地址”等俗称代替它。事实上，统一资源定位器并不单单是个地址，在地址之外还包括了对这个地址的访问方式和其他访问信息。

Internet好像是一个无边的海洋，在这样广阔的海洋中如果没有明确的目标，很难找到自己的目的地。统一资源定位器（USL）的作用就像罗盘和航标灯，指明使用者访问的对象，以及采用什么样的方式来访问。不管你在世界何处，使用哪种计算机，在输入同一个URL时，都会连接相同的网页，看到相同的画面。这就是统一资源定位器（URL）的作用。

（2）统一资源定位器（URL）的组成

URL通常由以下4个部分组成：协议方式、主机地址（或域名）及端口号、目录部分、文件名。通常写作：协议：／／地址：端口号／服务器目录／文件名。

例如http：／／www．netscape．com／comprod／pub／index．html是Netscape公司提供产品目录的URL，我们按上述4个部分分解来看：

①协议方式：在URL中“：／／”及该符号之前的部分表示在通信中采取哪种类型的协议。两台计算机之间只有采用相同的协议才可以保证相互之间所传递的信息有正确的解释。上面例子中出现的“http”是Internet上最常见的协议，即超文本传输协议。

②主机地址和端口号：在“：／／”的后面是主机地址部分。主机地址可以使用计算机的IP地址，也可以用域名表示。

当你通过你的计算机向Internet提出服务时，计算机首先要查明你向哪一台服务器提出申请，如果你给出的是直接的IP地址，也就是由“．”分隔开来的4位数字地址时，你的申请直接被发送到目的计算机上；如果所给出的是域名，经过域名服务器（DNS）的查询，找出域名所对应的IP地址，然后再访问该服务器。

有些网页在访问时还需要提供服务器接入的端口号，这个端口号写在服务器地址之后，用“：”引出。如果不写，则由服务器选择一个默认的端口。事实上，由于目前WWW服务器大多具有自动分配端口的功能，在非特殊要求的情况下，已经不需要特别指定端口了。

③目录部分：在计算机地址后面由“／”引导的部分是你要求访问的服务器中的具体位置。这是一个可选项，因为并非所有的访问都用到子目录。

这一项的含义与计算机中DOS操作系统的目录结构大致相同，与DOS操作系统不同的地方是这些目录名是区分大小写的，错误地使用大小写字母可能会访问不到想要访问的目录。如果需要访问的是对方计算机的默认目录，目录部分可以不写。

④文件名：URL的最后一项是访问的文件名或页的文件名，它取决于最终出现在你屏幕上内容是什么。对于超文本文件的文件类型名，通常使用“．html”（或．htm），用以表明访问的是一个超文本文件。如果本项忽略不写，被访问计算机一般也会自动提供一个默认的文件供我们访问。如index．html。

上述这些能由计算机自动提供的部分被称为“缺省值”。缺省值的使用可以使URL的形式变得更短，输入更方便。由于大多数WWW服务器中的目录和文件名都有缺省值，一般访问一台WWW服务器的时候，可以只写前面两个部分，即协议方式和域名。例如我们前面提出过的人民日报主页，可以缩写为：http：／／www．people．com．cn就只包含协议方式和域名，其端口号、文件目录和文件名都采用缺省值。其实，协议方式“http”和“：／／”也可以缺省。这样，访问一个WWW服务器最简略的URL形式就成为：www．people．com．cn。

WWW的工作原理

第7章 获取和查找信息(1)

第7章获取和查找信息(1)