书城计算机网络一本书读懂大数据
24612700000005

第5章 大数据如此重要,引无数英雄竞折腰(2)

第一类是在数据本身基础上建立的公司,它们拥有海量数据,或者说至少可以收集海量数据,但在提取数据价值上和催生创新思想方法并不是最佳的,例如Twitter。它拥有的数据是海量的,只是这些数据还都要通过授权给其他两个公司来供他人使用。

第二类是技能型的公司。一般来说它们是咨询公司、技术供应商或是分析公司。它们有专业的技能,可是却不一定拥有大量的数据以及提出创新性使用数据的才能,例如天睿公司(Teradata),它就是一家大数据分析公司,而它的营销电子所用的数据都是来自沃尔玛和Pop-Tarts这两个零售商。

第三种是思维的公司。这种公司中的代表就是Jetpac。Jetpac的联合创始人皮特·华登(Pete Warden),就是一个通过想法来获取价值的最佳例子。利用用户分享到网络上的旅行照片,Jetpac寻找人们下一站的旅行目的地。很多时候数据和技能并不是某些公司成功的关键,真正让他们脱颖而出的是其创始人和员工的创新思维,以及如何从数据中将价值中挖掘出来的独特想法。

谷歌的首席经济学家哈尔·范里安(Hal Varian)也认为,世界上最棒的职业就是统计学家,这个说法非常有名,他提到:“要是想成为成功者,那必须是稀缺的,不可替代的人,绝不能是普通的,随意可以被替代的。”他还说道:“数据多且有战略上的重要性,可是能从数据中提取价值的能力却不是人人都具备的。这也是为什么统计学家、数据库管理者和掌握机器理论的人是最了不起的人的理由。”

技术和技能的过于强化会让数据本身的重要性被弱化,因此这是不可取的。计算机行业的快速发展,落后人力技术会渐渐远去,而范里安所赞许的技能就会开始普及。

大数据中最有价值的部分就是它本身,所以智者会先考虑如何拥有大数据。尽管他们并非第一个获得这些数据的人,但他们能和接触到数据、有权使用数据或是有意将数据授权于他人的人有接触。

一部分企业就巧妙地把自己放在了信息链的核心,于是扩大规模和挖掘数据的价值就成为可能。信用卡行业就符合这一点。近些年来,很多中小银行因为防范信用诈骗的成本过高,总是不愿意发行自己的信用卡,发行信用卡的都是大型金融机构,它们才能负担起防范技术所需要的人力物力。美国的第一资本银行和美国银行就积极地承担了这一工作。只是到现在,中小银行没有自己发行的信用卡,它们对于客户的消费模式全然不知,也就无法为客户定制特定的服务,关于这一点它们已经后悔了。

Maste Card长期就处在这个信息链的中心,因此数据收集和数据价值挖掘的黄金位置为之所占据。可以想见,未来信用卡公司不会再收取交易的佣金,反倒是会提供免费的支付服务。因为从中它们可以获得大量的数据,在经过复杂的分析之后,它们能够依靠卖掉分析结果来获得利润。

来说说第二类公司。同样是Maste Card,它们有自己的分析系统,所以它是游离在第一类公司和第二类公司之间。不少公司还会选择发展其专业技能,例如埃森哲咨询公司,它就通过和不同行业公司合作,应用高级无线感应技术来收集各类数据,并对此进行分析。

在医学数据领域,技术公司如何提供有效服务的例子比比皆是。华盛顿州的华盛顿中心医院这么多年来就和微软研究中心合作分析了众多的匿名医疗记录,这当中包含了患者人口统计资料、检查、诊断、治疗资料,等等。此研究的目的在于降低感染率和再入院率,要知道以往医疗卫生领域开销最大的就是这两项。无论是哪一个项目比例降低了都意味着开支的巨大降低。

研究中发现了不少惊人的相关关系,不少情况下出了院的病人一个月内又会再次入院。这当中就有不少是已经很常见却始终没有好的解决方案的,譬如,患有充血性心力衰竭的病人就有再入院的可能性,这病的治疗困难很大。研究当中还发现有一个因素是很出乎人意料的,那就是病人的心理状态。病人若是对最初诊断中有类似“压抑”这心理暗示疾病的词汇时,病人就有很高的再入院可能性。

尽管这种相关关系很难推导出特定的因果关系,但这也说明病人在出院以后要以解决心理问题为医学干预的重心,这显然对身体健康有着重要的帮助,也对降低再入院率,提供更好的健康服务,降低医疗成本更有利。机器在一大堆的数据中筛选出了这相关关系,人类或许永远也发现不了这个问题。这些数据仍属于医院,微软只提供了分析工具,依靠Amalga系统来帮助发现有价值的信息,这并非什么出彩的想法,却是这里最需要的。

技术专家是挖掘数据价值的专用人才。他们在被赞扬的同时还获得了“数据武士”这样一个非常时髦的称号。事实上他们并非想象中的那般耀眼。他们在大数据当中淘金,最后却要将财富拱手送给大数据的拥有者。

第三种类型的公司是拥有大数据思维的公司和个人。先于他人发现机遇是他们的优势所在,当然他们本身未必具备专业技能或是数据,甚至有可能他们还是行外人,可正是因为这个原因他们的思维才更为活跃。他们要考虑的仅仅是实施的可能而非可行性。

克罗斯和他的Flight Caster是这一类公司当中最先有行动的一个,尽管也没比其他企业快多少。大数据思维本质上是一种意思,它认为数据公开后如果能得到恰当处理的话,千万人急需解决的问题就会得到解决。Flight Caster在2009年8月公开发布了。就在同一个月,Fly On Time.us的计算机专家们也纷纷投入到公开数据中去,并建立了自己的网站。很快,Flight Caster原本的优势被削弱了。到2011年,克罗斯无奈之下只好把公司卖给了Next Jump。

随后克罗斯的重心就转向了新闻行业,很多人将其视为夕阳行业。在他眼里,并非如此,新闻行业是一个创新型外行人可开垦的宝地。他创办了新的创新科技公司Prismatic开始收集网上资源并排序,所谓的排序是在文本分析、用户喜好等基础上建立起来的。最重要的是,这个系统包容性很强,无论是青少年博客,还是企业网站,只要是受欢迎的内容就会排在非常前面。而欢迎与否的判定标准则来自点击率和分享次数。

Prismatic显然在服务上非常关注青年人和媒体交流的新方式,所谓信息的来源被弱化了。这无疑给那些自视清高的主流媒体提了一个醒,公众的力量已经超越了它们。最让人惊讶的是,从新闻领域内部诞生的Prismatic手握着大量的数据。美国国家记者俱乐部的那些“老人”对于网上的媒体资源始终没关注过,甚至连阿蒙克、纽约和印度班加罗尔的分析专家们也从来没想过这种方法。一头蓬松头发的克罗斯,说话吞吞吐吐,可就是这样的一个外行人,有想法也做到了,他的数据告诉了这个世界,相比《纽约时报》还有更为有效的信息来源。

同上世界90年代相比,大数据思维以及拥有此思维的人和初期电子商务的情况大相径庭。最初电子商务的从业者不受传统行业的固有思维和制度缺陷所限制,所以当时还在对冲基金工作的金融工程师杰夫·贝索斯辞职办了一家名为亚马逊的网上商店,软件开发工程师皮埃尔·奥米迪亚(Pierre Omidyar)开发了一家拍卖网站。现在若是领导者是具有大数据思维的,那他们一般不直接拥有数据资源。正因如此,他们不会在利益和金钱欲望面前让自己的想法实践受到阻碍。

正如人们见到的那样,也有一部分公司集合了大数据的大多特点。相比他人,埃齐奥尼和克罗斯决胜的想法不但早人一步,同时还存在技术上的优势。Teradata和埃森哲的员工上下班很是守时,不过他们也常常有灵光一现的时候。这一切都是由于公司所承担不同角色而造成的。很多公司会将自己所掌握的数据以授权的方式授权给更有能力挖掘数据价值的人。

现在不少大数据的先驱者通常学科背景都比较复杂,当自己掌握了数据技术之后就会和自己的背景知识相结合,然后在广泛的领域中应用。天使投资人和企业家的新一代正在诞生,他们中的大多数来自谷歌离职的员工以及所谓的Paypal黑手党”。这些人和一部分计算机科学家成了当下众多数据科技公司的最大依靠。

大数据只要得到有效的利用,公司的盈利模式和传统交流方式就会得到改变。举一个非常典型的例子,欧洲一家汽车制造商就利用了获得对手所没有的行业信息,而重新定位了自己和零件供应商之间的关系。

现在的汽车通常都配备了芯片、传感器和各种软件,汽车启动之后,这些关于汽车的信息就会反馈到制造商的电脑上。一部中档轿车的微型处理器大致为60个,车辆总价值的三分之一是车上的电子仪器。汽车上装满了这一类的车载仪器也使得车子成了“漂浮的观景台”。汽车零件的工作状态通过这些电子设备来监控,整体整合之后可以提高汽车的运行质量。总的来说,一个能够掌握这些数据的公司必然在竞争中占得先机。

汽车制造商和行业外的数据分析公司合作,结果显示产自德国的油箱蒸汽泄漏检测传感器存在一定的故障,即使是好的油箱它也会发出多达16次的报警报告。得到这一消息后,制造商反馈给供应商。商业环境比较和谐的情况下,就会出现已经在这个项目上投入大量资金的制造商,利用这一部分数据来为自己挽回一点点损失的情况。

制造商要考虑的是接下来该怎么办,是卖掉这些数据吗?它的价值有多少?假设供应商推卸自己的责任怎么办?或者是自己在挖掘数据中有了失误?制造商很明白,信息一旦被公布,其他的竞争对手也会有的放矢来改进自己的产品。所以比较明智的做法应当是只能让自己从中获益。最后汽车制造商找到了一个完美的方案,那就是利用软件的改进来改进零件,然后再为此申请一个专利,最后再将专利转卖给供应商。

大数据时代真的来了

继美国政府推出“大数据研究和发展”计划之后,日本政府又重新启动了ICT战略研究,此研究曾在大地震时期暂时停摆,这是一个重视大数据应用的战略计划。联合国此后也发布了《大数据促发展:挑战与机遇》白皮书,全世界似乎都在迎接大数据时代,各种计划接二连三地发布。

日本总务省信息通信政策审议会下设的ICT基本战略委员会在2012年5月召开会议会。会上,大数据研究主任、东京大学的教授森川博之提到,在大数据技术领域美国的优势是明显的,像是谷歌、亚马逊这样的大企业都在大数据的应用领域拥有很强的技术优势,日本接下来必须在大数据方面制定一系列战略来应对大数据时代。日本文部科学省在7月就发布了以学术云为主题的讨论会报告,提出大数据时代学术界要做好迎接挑战的准备,主要在大数据收集、存储、分析、可视化等等阶段展开研究,并构建大数据利用模型。

联合国2012年发布的《大数据促发展:挑战与机遇》白皮书已明确提出大数据时代已然到来,对于联合国和各国政府来说,这是一个历史性的机遇。报告中还对政府如何利用大数据来响应社会需求,指导经济发展进行了讨论,提出要在联合国成员国建立“脉搏实验室”,主要用于挖掘大数据的潜在价值。澳大利亚出资赞助印度尼西亚政府在其首都雅加达建立了“脉搏实验室”,于2012年9月投入使用。

大数据当前还是个新兴前沿的概念,我国尚未从国家和政府层面提出大数据相关的战略,可是在2011年11月,工信部发布的了物联网“十二五”规划中明确提到了四项关键技术创新工程,包括了信息感知技术、信息传输技术、信息处理技术和信息安全技术,当中的信息处理技术就有海量数据存储、价值挖掘等等方面的智能分析技术,显然这都是和大数据密切相关的技术。也就在同时,广东省等地方政府已经率先启动了大数据战略,推动本省的大数据发展,协助开放共享。

作为国家的核心资产,各国已经开始了大数据的激烈竞争。一旦在大数据领域落后,必然就无法守住本国的数字主权,也就意味着难以占据产业战略的制高点,国家安全数字空间也会相应地出现漏洞。美国政府在大力推行“大数据研究和发展”的计划之下,欧盟、中国等大型的经济体也会在不久的将来出台属于自己的引导性和倾斜性政策,目的就在于抢占大数据的战略制高点。一轮关于大数据的新竞争马上就要登场。

历史上这样的一幕曾经出现过。1993年,美国出台了“信息高速公路”计划,各国因此反应十分强烈。同年日本政府发布拟建设“研究信息流通新干线”计划,将全国的大学、研究机构利用高速通信线路来连接,并在后一年的5月又提出了日本版的“信息高速公路”计划,前后发布了《通信基础结构计划》和《通向21世纪智能化创新社会的改革》两个报告,报告中对网络建设的实施分三个阶段进行。欧盟在1993年6月的哥本哈根欧盟首脑会议上,由当时的主席德洛尔首次提出了“构建欧洲信息社会”的倡议,之后又在12月发布了旨在“振兴经济、提高竞争能力和创造就业机会”的白皮书,白皮书中已经提出了欧洲版“信息高速公路”构建的清晰构想,还为此成立专门的工作小组主要负责推进整个计划。与此同时,加拿大、韩国、新加坡等发达国家也都在逐步开发自己的技术优势,只为占据高新技术的制高点,迎接21世纪到来的技术发展挑战。各国都不惜投入巨额资金推出各国版的“信息高速公路”计划,一时间全球范围内“信息高速公路”计划风生水起。

从本质上来说,大数据就是人类社会所有数据量变到质变的必然产物,是“信息高速公路”计划的进一步升级和扩展,它对人类社会未来的走向和发展势必会有巨大的变革意义。很显然,现在的趋势已经说明了大数据时代真的到来了。