书城计算机网络一本书读懂大数据
24612700000024

第24章 更自由,更开放,大数据的机遇和挑战(2)

智能手机和计算机技术的推广,使得个人生活行为的数据化已经变得极为容易。很多创业公司为了研究睡眠模式测量了人们夜间的脑电波,例如Zeo公司就已经有了全球最大的睡眠活动数据库,用于解释男性和女性睡眠时眼睛快速动量的区别。还有Asthmapolis公司把感应器绑在了哮喘病人的呼吸器上,然后用GPS定位的方式来收集位置数据,再来推断病因中的环境因素。Fitbit和Jawbone公司则是对人们体力活动和睡眠进行测量。Basis公司利用腕带来检测人们的生命体征,像是心率和皮肤电传导率等等,这些都可以用来推断他们所承受的压力。2009年,苹果公司有了一项专利,也就是对血液氧合、心率和体温的数据采用音频耳塞的方式来收集。这个时代数据的收集似乎已经比任何时候都简单且不受约束了。

人们似乎从数据化那里得到了更多人体运作的方式信息。挪威耶维克大学的研究人员和Derawi Biometrics公司联合开发了一款可以用在智能手机上的应用程序,它主要的功能在于分析人走路时的步伐,并将其作为手机解锁的方式。与此同时佐治亚理工学院的罗伯特·德拉诺(Robert Delano)和布莱恩·派尔思(Brian Parise)也开发了一款名为iTrem的应用程序,主要可以用来监测人体的颤动情况,为帕金森症和其他神经疾病的病人服务。医生和病人都受益于这些应用程序,病人不需要再到医院去做昂贵的体检,医学家们更是可以远程检测病人的疾病情况和治疗情况。东京的调查人员提到,尽管智能手机上的这些应用程序和三轴测振仪相比还不那么精确,但是一般使用是没有问题的。这也再一次说明,完全精确并非总比不精确有效。

大多数的时候,信息会被采集存储后再来使用,任何领域,任何事情都可以用这样的方法处理。Green Goose是一家创业公司,它们主要销售的是放在物品之上的微型运动感应器,以检测物品的使用次数。像是放在一捆牙线、一个洒水壶或是一盒猫食上,就能读出牙齿情结、植物护理和宠物喂养的所有信息。人们常常对“物联网”非常狂热,想在生活中的所有事物身上植入芯片、传感器和通信模块。好像这个词和“互联网”非常相近,但实际上它表示的是一种典型的数据化手段。

当下假设有一个重大的基础设施项目正在进行,很大程度上这和过去所做的一切都不一样,不管是罗马的水渠还是启蒙运动中的百科全书。它是全新的,但是又让人们置身其中,又好像是无形的,但和水渠中能触摸到的水不一样,因此人们总是无法意识到它的存在。所谓的它就是无处不在的数据化进程,它能够带来和其他基础设施一样的社会大变革。

城市的发展因为有了水渠而成为可能,启蒙运动因为有印刷机而得到推动,国家的兴起因为有了报纸而奠定了重要基础。所有流动的譬如水,譬如知识基础设施所依赖的。包括电话和互联网也不例外。相比而言,数据化所带来的转变则是革命性的。在大数据的帮助之下,世界在人们的眼里不再是一连串自然或是社会的现象了,而是由信息本质构成的。

一个多世纪以来,物理学家对人们宣称世界的本源不是原子而是信息。当然这个理论听起来有点让人难以置信。但是在数据化的推动下,人们能够全面采集和计算有形和无形事物的存在,并对其进行处理。

世界被视为是信息,可以将其视为是数据的海洋,它为人们提供了一个前所未有的看待这个世界的角度,可以充分地渗透到生活各个领域的世界观。

早晚会有一天,水渠和报纸的影响会由于数据化而渐渐消退,与此同时,再为人类创造一个数据化时代下的产物。因此它对传统印刷术和互联网也产生了冲击。只不过目前它还只是在商业领域上被应用。

数据化带来的挑战前所未有

大数据的核心在于带来了分析信息的三大转变,它导致了人们理解和组建社会方法的改变。

第一个转变就是大数据时代的到来,让人们可以更多地分析数据,不再依赖于随机采样,而是分析和某现象相关的所有数据。19世纪以来,当有大量数据出现时,人们的处理方法往往都是采样,这种方法是在缺乏信息和信息流通受到限制的模拟数据条件下产生的。通常很多人会觉得这是理所当然的,可是当高性能的数字技术开始流行的时候,人们才明白这是人为的限制。和小数据范围相比,大数据的分析能够带来更高的精确性,而从中还能挖掘出不少此前无法发现的细节问题。所以说,人们利用大数据看到了更多样本本身无法揭示出来的细节信息。

第二个改变在于,大数据的研究和分析,让人们对于精确度的追求不再那么热衷。在测量事物能力受限的情况下,人们最为关注的事情莫过于精确的结果。要是购买者不知道牛群里的牛是80头还是100头的话,那显然交易就很难进行了。一直到今天,人们还是习惯于在精确的基础上建立数字技术。例如只要电子数据表格能把数据排好,那么数据库的引擎就可以帮助人们检索出内容完全一致的检索记录了。

在“小数据量”的情况下,这种思维方式是可行的,毕竟供分析的数据还不多,那人们就需要尽可能地去精准分析和量化每一项记录。人们已经在某些方面意识到差别的存在了,比如晚上打烊时的小商店总是细细地把每分钱都数清楚,可是没有人会一分钱一分钱地去衡量GDP。随着数据规模的扩大,人们就不再会那么痴迷于精确度了。

专业的数据库是达到精确的基本保障。针对小数据和特定的某件事情,人们能够去追求精确度,像是某一个人想要确认自己的账户上是不是有足够的余额去开支票。可是大数据时代到来的时候,精确度的追求已经不可行,甚至不受到欢迎了。一旦有了海量的数据,人们所追求的目标就不再是精确度了。

复杂多样的大数据,在全球多个服务器上分布。人们在拥有大数据的情况下不用再纠结于一个特定的现象,只要是大方向掌握了就可以了。当然这不代表精确度就不需要了,只不过是不希望人们只是执着于此。微观层面上的精确度适当放弃一些,会让宏观层面上的我们有更好的洞察力。

前两个转变促成了第三个转变,那就是因果关系不再是人们热衷去寻找的了。人类长时间都习惯于寻找因果关系。即便是没有太多用途的因果关系,人们还是会习惯性地去找到这关系。可是到了大数据时代,因果关系的重要性渐渐被忽略了,取而代之的是事物之间的相互关系,这显然是一个相当新颖且有价值的观点。相关关系或许有可能无法告知人们事物发生的原因是什么,但是能提醒大家有事情正在发生。很多情况下,这种提醒就足够了。

或许数以百万计的电子医疗记录说明特定的组合橙汁和阿司匹林对治疗癌症有作用,可是这种治疗方法显然要比找出具体的药理机制重要得多。相同的,我们只需要知道买机票的最佳时机是什么时候,完全没必要去理解价格疯狂变动的原因是什么。大数据能告诉我们“是什么”而不是“为什么”。现象背后的原因是什么不需要人们去理解,只要数据能够自我发声即可。

没必要用少量的假设来进行分析,如果海量收据还没有收集全的话。只要是数据能自我发声,那很多从前尚未为人们所意识到的联系就会被人们所认识的。

就好比对冲基金在分析了社交网站Twitter上的数据信息后推测了股市的表现,亚马逊和奈飞(Netflix)也在自己的网站上依据用户的类似查询来推荐商品,还有Twitter,Facebook和LinkedIn则是利用用户的社交网络来了解用户的喜好等等。

几千年前,人类就开始了数据分析。最初美索不达米亚平原上的记账人员发明了书写,只为有效跟踪记录信息。圣经时代开启后,为了人口普查,政府开始建立大型的国民数据库。两百多年来,精算师们也在大量收集数据,只为了规避风险。

在模拟数据时代,收集和分析数据是一件很困难的事情,一旦有新问题出现,数据分析就不得不重新开始。来到数据化的时代,数据管理效率已经有了大踏步的进步了。数据化的进程将原本模拟数据转化为了计算机可读的数据,存储和处理这些数据就不再那样困难了,数据管理的效率也逐步提高。曾经要几年才能完成的数据收集和分析,现在只消几天的工夫。不过改变不是唯一的。曾经人们有一种偏见,认为数据库仅有单一的用途和价值,那是模拟数据时代的技术和方法所导致的。大数据转变尽管是数字化促成的,但这绝不仅仅是计算机存在所能实现的。

现在正在发生的一切人们已经无法准确描述了,但“数据化”的概念足以让人们去了解这次变革。它意味着所有人都要从世间万物中汲取信息,包括那些曾经认定和“信息”完全没有关系的事情。例如人们所处的位置、引擎的震动、桥梁的承重等等。量化的方式能够让这些信息都化为数据,这也使得从前无法做到的事情如今都成了可能,例如引擎会不会出现故障可以从引擎的散热和震动来推测。这样一来,数据就能够挖掘出前所未有的潜在价值了。

大数据时代为人类提供了一场寻宝游戏,数据让人们将关注点从因果关系转为相关关系,并释放出了潜在的价值,这就是主宰这场游戏的关键。这一切成为可能都源于新兴技术工具的使用。宝藏中不止一件宝贝,数据集内部都有着不为人知的价值。这些数据价值的挖掘和利用的竞赛正在全球各地上演。

数据处理技术已不是新鲜的事物,但最初它只是调查局、研究所和世界上的巨头公司掌握的一项技术。像沃尔玛和美国第一资本银行就领先其他企业在零售业和银行业率先使用大数据,这两个行业因此而得到改变。现在这些技术已经普及到各个行业。

个人受到大数据的影响是最大的。专业性在一个可能性和相关性占主导的世界里已经不再重要了。不过这并不说明行业专家会消失,因为他们要和数据表达进行博弈,就像是《点球成金》电影里的那样,统计学家让棒球球探们感到惭愧不已,精准的数据分析让直觉的判断不得不退居二线。人们因此不得不去调整管理、决策、人力资源和教育方面的传统理念。

大部分时候,人们都会将习惯建立在一个预设好的立场上,但是这只适用于少量、精确且重要的决策信息时代。一旦数据量规模变大,处理速度增快且数据不再那样精确,所谓的预设立场就不存在了。数据量庞大的情况下,人类自身就要让步于机器来做出决策。当然,不得不承认这也存在一定的弊端。

社会在监视和了解人类的行为上已然有了数千年的历史了。可是一个算法系统要如何监测呢?信息化时代的最早期,政策专家已经发现了人类的隐私权遭受到了信息化的威胁,人们不得不建立起一个庞大的规则体系来维护个人的信息安全。大数据时代来临的时候,这些规则又都失去了原有的作用。对于信息分享人们很热衷也都是自愿的,网络服务当中的一个中心特征就是信息分享,而不再是规避的薄弱点了。

对人们来说,似乎隐私的泄露已经不是危险,而转换成了被预知的可能,它们能够预测人们是否拖欠还款或是犯罪,这些算法很显然会让人们在尚未做出这些行为之前就预先被逮捕。因此大数据是统计的首位,那即便是这样,个人意志是不是就高于大数据呢?就仿佛出版印刷行业的发展推动了一个国家言论自由的立法保护,而大数据时代也必须推动个人权利捍卫的立法保护才行。

在处理和控制数据的方法上,政府机构和社会都要有全方面的改变。这是一个难以否认的用数据来预测一切的年代,尽管背后的原因究竟是什么我们难以解释。医生若是要求病人遵从医嘱,但对于医学干预的合理性无法说明的话,那将是什么情况呢?事实上在大数据时代,这是懂得病理分析的医生一定会去做的事情。此外司法系统的“合理证据”要不要改成“可能证据”呢?若可以这样做的话,那么人类的自由和尊严会不会也因此受影响呢?

大数据时代也必须有一系列倡导的规范制度,它们和曾经小数据时代发展并留存下来的规范有着继承的关系,只不过在新环境下旧规范也要与时俱进了。

人类在寻求量化方式认识世界的道路上大跨步迈进的标志就是大数据的出现。从前很多东西无法计量、存储、分析和共享,如今都被数据化了。世界因为大数据和海量的不如从前精确的数据为人们开启了一扇全新的理解世界的大门。社会对于因果关系不再执着,反而去关注相关关系的好处。

现代社会有了寻找原因这一神论,但因大数据的出现而被推翻。只不过人们又陷入了另一个历史困境中,那便是这是一个“上帝已死”的时代。换句话说,传统固守的信念已经开始发生动摇了。更让人感觉到讽刺的是,信念正在为“更好”的证据所取代。经验中获得的信息、直觉和迷惘都和证据相矛盾,它们是什么样的角色呢?世界转而开始挖掘相关信息,人们又该如何在不破坏传统因果推理的基础上来保证社会繁荣、人类前进并取得实质性的进步呢?