书城计算机网络一本书读懂大数据
24612700000018

第18章 得数据者得天下,商业竞争中的大数据(2)

现在的会计业和金融业不断发展,复式记账法被视为其不断发展的结果。实际上在推进数据利用的过程当中,这就好比是一个重要的里程碑。因为相关的账户信息的分类记录由于它的出现而实现。它的基础是一系列记录数据,也是信息记录标准化最早的例子,会计们因此能互相看懂对方的账本。复式记账法的规律能让账户盈亏情况的查询变得更为简单,交易的记账线索能够从中发现,这样一来所需的数据就越容易找到。在设计理念中它包容了“纠错”的思想,今天的技术人才可以以此为借鉴。要是有一个账本中有问题,那么就可以从另一本账本中进行查询。

复式记账法和阿拉伯数字一样也并非一开始就受到欢迎。200年以后,它广受欢迎是源于一个数学家和一个商业家族的推荐,也是他们改变了数据化的历史。

说到这名数学家,他就是知名的修士路萨·帕西奥利(Luca Pacioli)。1494年,他有一本推荐给普通读者和商人的数学教材出版。此书一经出版大获成功,曾经风靡一时。这本书是历史上第一本全部使用阿拉伯数字的书籍,也因此推动了阿拉伯数字在欧洲的广泛使用。此外这本书的最大意义在于详细论述了复式记账法。此后的几十年,此书关于复式记账法的论述被译成了6种语言,在世界上有多个通用版本。

而上文提到的商业家族,其实就是美第奇家族,他们是威尼斯商人和艺术资助人。16世纪欧洲最有影响力的银行家族非他们莫属,这是由于他们采用了当时世界上最为先进的数据记录方法——复式记账法。由于帕西奥利的著作和美第奇家族的成功,也让复式记账法一举成为标准数据记录法的基础,当然也让阿拉伯数字成了不可替代的数字。

数据记录不断发展,人们对世界的探寻也在不断前进,似乎关于时间、距离、地点、体积和重量的精准记录成了所有人的愿望。19世纪,科学家们陆陆续续发明了各种记录和测量电流、气压、温度和声频的单位和方式,科学一下子进入了量化的时代。好像不论是什么事物都可以被测量、划分和记录,人们对单位量化和记录的疯狂程度甚至已经到了需要用精细的划分来理解人的智慧了。不过这一轮伪科学的热情很快就消散了,而人们对一切量化的工作热情似乎从未消退。

测量数据和记录数据因为有了新工具和开放的思维得到了蓬勃的发展,因此也催生了现代数据化。所有数据化的根基都已经搭好了,这一切在模拟时代是不可能完成的,还可能需要无止尽的激情和耐心,不夸张地说,怎么也要有奉献一生的准备,这其中最典型的例子就是16世纪就没日没夜地观察天体运动的第谷·布拉赫(Tycho Brahe)。模拟时代成功的数据化例子并不多见,因为缺乏很好的运气,需要将大量的偶然事件叠在一起。最为幸运的应该是中校莫里,因为负伤他只好坐在办公室,也因此发现了珍贵的航海日志,只是这份幸运并非人人都有。在数据化的实现过程中必须有很重要的一点,也就是挖掘出潜藏在数据中的巨大价值,这才能揭示出最新的奥秘。

数字测量和存储设备因为计算机的出现而应运而生,数据化的效率也提高了不少。计算机的数学分析从数据中挖掘出了越来越多的潜在价值。简单地说,数据化是数字化的结果,但是数字化最终是替代不了数据化的。模拟数据成为计算机可读的数据是源于数字化,但是它和数据化之间的区别是本质化的不同。

文字的数据化进程

那么数字化和数据化有什么不同呢?这个问题不难回答,想要真正理解就来看看两者同时存在且一起起作用的领域就可以了,而这个领域也不特别,就是书籍。谷歌在2004年发布了一个充满野心的计划——数字化所有拥有版权的书籍内容,这样的结果就是世界上所有人都可以通过它们的平台来免费阅读这些书籍。谷歌为了完成这个庞大的计划,和世界上最大、最知名的图书馆合作,并在此基础上研发了自动翻页的扫描仪,做完这一系列准备工作,谷歌省去了扫描上百万书籍工作的大部分费用。

谷歌第一步要做的就是数字化文本,它扫描每一页图书,然后存进谷歌服务器中的一个分辨率很高的数字图像文件当中。这样一来,书本上的文本内容就数字化了,不管是什么地方的人都可以通过电子平台来阅读。只不过用户必须很清楚自己想要阅读的内容在哪本书上,或者可以轻松地从浩瀚的内容中寻找到自己所需要的片段。很显然这是由于文本没有被数字化的缘故,很难通过搜索来检索,更不可能被分析。谷歌所做的是将文本图像化,人的阅读才能让这些图像成为有意义的信息。

这是一个比历史上任何一个图书馆信息量都要庞大的现代的、数字化的图书馆,可是谷歌要做的不止于此。谷歌明白,数据化是下一步必须实现的,只有这样才可以挖掘出这现代化图书馆的巨大价值。从那以后谷歌开始利用识别数字图像的光学字符识别软件来对每一个字、每一句话、每一段进行识别。经过这个过程,数字化文本就转化为了数据化文本了。

现在人类检索这些文本成为可能,而计算机处理和分析这些文本的可能也因此实现了。在检索和查询的过程中,我们能做的还有无穷无尽的分析。通过它们还可以揭示出第一个词或是词组第一次出现的时间和它成为流行词的时间,几百年间人类思维发展和传播的轨迹也可以从中瞥见一斑,好几种语言的分析都可以从中实现。

15世纪中叶,印刷机问世,在这之后大概有1.3亿册的图书出版。截止到2010年,也就是在谷歌数字化图书计划执行的第七年,有2000万册的图书被扫描成了数字图书,大约是人类所有书写文明的15%已经数字化了,这个数字实在太惊人了!这也催生了一个新的学术研究方向——文化组学。这是一个计算机领域的专业词汇,实际上就是把人类的行为和文化发展趋势用文本定量分析的方式揭示出来。

哈佛大学的一项研究利用了几百万册图书和超过5000亿个单词来深入研究,发现这当中有一半出现在这些书籍中的单词是字典中未曾收入的。于是他们在分析报告中提出正规词典中尚未收入的不规范词汇数量十分惊人,这是个巨大的宝藏。在系统分析之下,人们提及纳粹德国时期的犹太画家马克·夏加尔(Marc Chagall)时,研究人员发现很多时候个人或是思想受到审查和压制,有很多“可量化的痕迹”被流传了下来。词语之于书籍仿佛是化石之于岩石,凡是信奉“文化组学”的人都和考古学家一般,很多宝藏都会被一一挖掘出来。至于其中的偏差也是必然存在的,就像是图书馆的每一本书难道都反映了最真实的现实吗?事实上难道不是图书馆员或是作者自己所看到的现实吗?就算是这样,人们还是可以通过“文化组学”来获取极大的惊喜。

文字如果成为数据,它一下子就有了巨大的能量,人们可以阅读,机器还能分析。谷歌作为一家典型的大数据公司显然明白信息化和数据化的价值,更何况很多数据的潜在用途是非常多的。因此,谷歌开始利用数据化的文本对自身的翻译系统服务进行改进。这个系统本身是可以自动扫描译本的,随后从两种语言的匹配中找到对应的词或是词组。一旦有了答案,系统就会用类似数学方法的方法来对待翻译,随后在电脑上找到两者之间最为恰当的词或是词组。

谷歌并非这一领域第一个吃螃蟹的人,也不是计算机时代第一个利用数据化来唤醒文明财富的公司。早在1971年,有一个志愿者就提出能否将公共领域的书籍数字化,制成电子书放到网络上,以供更多的人来阅读,这就是著名的古登堡计划(Project Gutenburg)。这是个非常有意义的举动,尽管当时还未能将书籍数据化,而书籍的其他功能也尚未开发,毕竟他所提出的是要扩充书籍的用途,这是关注阅读的一种做法。同样出版社这么多年也将电子书籍的开发视为未来的战略考虑,不过他们的重心还都没有把数据纳入自己的商业模式,显然书籍内容才是他们所关注的核心价值。所以书籍的数据价值始终没有被发现,只因为他们没有发现数据化的需求,更不知道书籍数据化的潜力。

如今,不少在电子书领域竞争的公司,譬如亚马逊推出了它的kindle电子书阅读器,一跃成了这一行业的先驱,从中可以发现亚马逊和谷歌之间差异性的发展策略。

亚马逊的资源来自数据化的书籍,而对于数据化背后的价值却从未关注。作为创始人的贝索斯说服了上百家的出版社在自己的kindle上发布图书,而读者在kindle上所读到的书籍并不只是简单的数字图像,而是可以更改字体和颜色来读的数据化文本。亚马逊数据化的文本已经超过了上百万册,可相比之下谷歌在做的却是费力地把所有旧的版本来数据化。因此亚马逊的着眼点在于书籍内容的阅读,而非数据化文本的分析。不可否认的是,传统出版社的压力或者限制了书籍内容的应用,毕竟人们还掌握着版权。对于谷歌来说,一个喜欢离经叛道的大数据公司不会有这样的压力,因为它所有的资源都是源于客户的点击,和出版社没有关联。至少现在可以公正地说,亚马逊在数字化内容意义方面最为老练,而真正触及数据化内容价值的是谷歌。

地理位置的数据化构建

世界上最基础的信息就是地球本身。可是从古至今没有人将它完完整整地量化过和数据化过。事实上这些信息的组成部分就是人和事物的地理定位,否则古人怎么会有“所谓伊人,在水一方”的诗句,只不过数据化是这些信息现在面临的问题。

西方的希腊是量化位置信息最早的地方。早在公元前200年,埃拉托色尼就创造了划分区域的格网线系统,这就类似经纬度法。不过这一系统很快就退出了历史舞台,和古代的很多好想法一样。过了1500年,也就是1400年,一本由托勒密撰写的《地理学》的影印本一路辗转从君士坦丁堡到了佛罗伦萨,那是一个科学和古典知识的热点被文艺复兴和贸易船只点燃的时代。这本著作一下子轰动了整个欧洲,这套系统直到现在仍然被用在解决航海导航的难题之上。自此地图上出现了经纬度和比例尺。1570年佛兰德制图师墨卡托改良了这套系统,从此海员出海时就可以通过它来完成最为笔直的航线了。

尽管记录地理方位的方式当时已经出现了,可是广为认可的标记标准却还未问世,信息共享还有非常大的难度。人们都在呼唤一套标准的标记系统,这和后来的人们呼唤互联网的域名一样。经过了一个漫长的时间经纬度的标准化才出现。1884年,国际子午线会议在美国华盛顿召开,与会的25个国家中有24个都同意将本初子午线和零度经线穿过的地方规定为英格兰的格林尼治。到了20世纪40年代,用墨卡托方位法世界被完全分为了60个区域,世界地理定位的精确度因此提高。

有了这个所有的地理定位信息,也就有了标准化数值范式的标记、记录、测量、分析和共享。可是人们却很少这么做,原因是在模拟数据时代,所有测量和记录地理位置信息的费用都太高了,这也奠定了人们呼吁低成本地理方位测量工具出现的基础。直到20世纪70年代,还必须依靠地标、天文星座、航位测量法和还未成熟的无线电定位技术来为地理位置定位服务。

1978年发生了一场巨大的转变,简称为GPS的全球定位系统,总共24颗卫星首次成功升天。地面上的汽车导航系统、智能手机以及其他的接收器都能接收到它的信号,再利用接受时间上的差异来完成三角定位,而这些信息均源于离地面20372米的高空。这个系统到了上个世纪80年代首次开放民用,90年代正式投入使用,还开放了商用。十年之后GPS的精确率大幅提升。今天,地理定位系统已经完成了精确到米的定位,也因此实现了古今中外航海家、制图家和数学家的梦想。在和技术手段结合之后,定位系统的发展非常迅速,同样也降低了自身的成本,而这一切都不需要依赖任何专业知识。

每时每刻定位都提供了众多的信息。可能的话,埃拉托色尼或者墨卡托可以定位所有他们所处的位置,这不依赖任何人。不过假设这是可行的话,也不够现实。接收器早期的成本是很高的,技术也很复杂,它只适用于潜艇而不是出租车。幸运的是,数字设备中廉价芯片的普及让一切都发生了变化。20世纪90年代GPS的价格还高达几百美元,现在已经降至1美元以下。如今的GPS的定位仅仅需要几秒钟的时间,它的方法是标准化的坐标表示法,像是37°14′06″N 115°48′40″W,就是内华达州偏远的51号区域,那里有一个美军的高级保密的军事基地,据称那里的秘密就是有很多外星人。

GPS现在是众多定位系统中的一种,包括中国和欧洲国家在内的众多国家都开始了自主产权卫星定位系统的开发工作。不论是哪种系统都要依赖电塔和无线路由器的信度来确定地理位置,所使用的技术仍然是三角测量,这从一定程度上填补了GPS在室内和高楼中缺少定位的缺陷,这是谷歌、苹果等众多公司纷纷要用开发定位系统来辅助GPS的原因。例如谷歌就利用街景车(Street View Cars)一边拍照,一边来收集无线路由器的信号,而苹果的IPHONE手机本身就是一个移动的信号接收器,在不知不觉的情况下就会收集用户的位置和无线数据,再传回苹果公司。此外谷歌的安卓系统和微软的手机系统也在做同样的工作。