书城计算机网络一本书读懂24种互联网思维
47721500000041

第41章 大数据思维(1)

大数据思维带来三个革新:不是分析随机样本,而是分析全体数据;不是执迷于数据的精确性,而是执迷于数据的混杂性;知道“是什么”就够了,没必要知道“为什么”。

数据就是资产

金山董事长、小米创始人雷军在他的两会建议中提出希望“政府应充分认识大数据的重要性和战略地位,从整个国家的角度积极布局,引导大数据全面发展。在国家高等院校、科研机构建立大数据人才培养机制,国家资助或成立专项基金支持大数据关键技术研究”,呼吁政府重视大数据基础设施的建设。

早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。

最早提出大数据时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。麦肯锡的报告发布后,大数据迅速成为计算机行业争相传诵的热门概念。事实上,全球互联网巨头都已意识到大数据时代数据的重要意义。包括EMC、惠普、IBM、微软在内的全球IT巨头纷纷通过收购大数据相关厂商来实现技术整合,这足以看出它们对大数据的重视。

不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。

大数据是当前市场炙手可热的话题,联合国、美国政府、法国政府等组织都对其给予了高度重视,美国奥巴马政府甚至将其上升至国家战略高度。2012年3月29日,美国政府宣布“大数据研究和发展倡议”来推进从大量的、复杂的数据集合中获取知识和洞见的能力。该倡议涉及联邦政府的6个部门。这些部门承诺投资总共超过2亿美元来大力推动和改善与大数据相关的收集、组织和分析工具及技术。此外,这份倡议中还透露了多项正在进行中的联邦政府各部门的大数据计划。

在维克托·迈尔-舍恩伯格和肯尼斯·库克耶所著的《大数据时代:生活、工作与思维的大变革》一书中,大数据的概念得到了较为权威的辨析。所谓大数据,更接近于“全数据”。与传统分析抽样的、部分的数据的方法不同,大数据分析近乎总体的、所有的数据。

大数据具有规模大(Volume)、速度快(Velocity)、类型多(Variety)和价值大(Value)的4V特征,其不仅是适应时代发展的技术产物,更是一种全新的思维理念,即基于数据资产的商业经营模式。

对所谓大数据最直白的理解是海量数据,通常用来形容一个公司创造的大量非结构化和半结构化数据。

一项调查发现,九成企业的数据量在迅速上涨,其中16%企业的数据量每年增长一半甚至更多。调研机构IDC在2011年6月的报告显示,全球数据量在2011年已达到1.8ZB,在过去5年里增加了5倍。1.8ZB是什么样的概念呢?如果把所有这些数据都刻录存入普通DVD光盘里,光盘的高度将等同于从地球到月球的一个半来回也就是大约72万英里。相当于每位美国人每分钟写3条推特微博,而且还要不停地写2.6976万年,IDC预测全球数据量大约每两年翻一番,2015年全球数据量将达到近8ZB,到2020年,全球将达到35ZB。

2013年,国外著名的社交网站Facebook预计将实现60亿美元的收益,而创造这么多收益的Facebook居然没有向用户收取一分钱。

Facebook的价值正是数以亿计的用户在使用过程中不知不觉积累的大数据形成的。通过分析用户的喜好、身份资料、个人信息和浏览习惯,Facebook就能够猜测到每个用户的喜好,比如,你最容易被哪类广告吸引,每个网站页面都有一个“喜好”按钮,哪怕你从来不摁,你的信息也会被反馈给Facebook。

随着互联网技术的不断发展,数据本身就是资产,这一点在业界已经形成共识。马化腾说,数据成为资源。大家现在谈大数据和云计算非常多,因为我们连接多了,传感器很多,服务很多,像搜索引擎、电子商务,社交网络,都聚合了大量的数据,这些数据成为了企业竞争力和社会发展的重要资源。

电商现在非常热,为什么电商可以转向金融,借助用户和商家的信用提供信贷,都是大数据在背后起作用。

我们想象,人的社交属性是不是可以成为一个信用排序和算法迭代的思路呢?以后可能会出现一个“人品排名”,拼人品就出来了。你交的朋友人品比较好,你的“人品排名”就高。如果你的人品不好,你的朋友就不会跟你交友。这是我们的设想,是一个前瞻性的研究,我们希望能够做出一些成绩。

任正非说,未来的3~5年是华为抓住“大数据”机遇、抢占战略制高点的关键时期。要抢占大数据的战略制高点,占住这个制高点,别人将来想攻下来就难了,我们也就有明天。大家知道这个数据流量有多恐怖啊,现在图像要从1k走向2k,从2k走向4k,走向高清,小孩拿着手机啪啦啪啦照,不删减,就发送到数据中心,你看这个流量的增加哪是你想象的几何级数啊,是超几何级数的增长,这不是平方关系,而是立方、四次方关系的增长的流量。这样管道要增粗,数据中心要增大,这就是我们的战略机会点,我们一定要拼抢这种战略机会点,所以我们不能平均使用力量,组织改革要解决这个问题,要聚焦力量,要提升作战部队的作战能力。

塔吉特的“读心术”

有了“数据资产”,就要通过“分析”来挖掘“资产”的价值,然后“变现”为用户价值、股东价值甚至社会价值。

塔吉特百货是美国的第二大超市。一天,一名男子闯入塔吉特的店铺,他怒吼道:“你们怎么能这样!竟然给我的女儿发婴儿尿片和童车的优惠券,她才17岁啊!”这家全美第二大的零售商,居然会搞出如此大的乌龙?店铺经理觉得肯定是中间某个环节搞错了,于是立刻向来者道歉,并极力解释说:“那肯定是个误会。”然而,这位经理不知道,公司正在运行一套数据预测系统,男子的女儿会收到这样的优惠券,是一系列数据分析的结果。一个月后,那位父亲非常沮丧地打来电话道歉,因为塔吉特的广告并没有发错,他发现他女儿的确怀孕了。

在这名男子自己都还没有发觉的时候,塔吉特居然就已经知道他女儿怀孕了,为什么呢?难道塔吉特有神奇的读心术么?当然不是。这件事看起来非常不可思议,但背后是有规律可循。

原来,孕妇对于零售商来说是一个含金量很高的顾客群体,商家都希望尽早发现怀孕的女性,并掌控她们的消费。塔吉特的统计师们通过对孕妇的消费习惯进行一次次的测试和数据分析得出一些非常有用的结论:孕妇在怀孕头3个月过后会购买大量无味的润肤露;有时在头20周,孕妇会补充如钙、镁、锌等营养素;许多顾客都会购买肥皂和棉球,但当有人除了购买洗手液和毛巾以外,还突然开始大量采购无味肥皂和特大包装的棉球时,说明她们的预产期要来了。在塔吉特的数据库资料里,统计师们根据顾客内在需求数据,精准地选出其中的25种商品,对这25种商品进行同步分析,基本上可以判断出哪些顾客是孕妇,甚至还可以进一步估算出她们的预产期,在最恰当的时候给她们寄去最符合她们需要的优惠券,满足她们最实际的需求。这就是塔吉特能够清楚地知道顾客预产期的原因。

塔吉特根据自己的数据分析结果,制订了全新的广告营销方案,而它的孕期用品销售呈现了爆炸式的增长。塔吉特将这项分析技术向其他各种细分客户群推广,取得了非常好的效果,从2002年到2010年,其销售额从440亿美元增长到670亿美元。这家成立于1961年的零售商能有今天的成功,数据分析功不可没。

那么,塔吉特是怎么收集数据的呢?塔吉特会尽可能地给每位顾客一个编号。无论顾客是刷信用卡、使用优惠券、填写调查问卷,还是邮寄退货单、打客服电话、开启广告邮件、访问官网……所有这一切行为都会记录进顾客的编号。这个编号会对号入座地记录下顾客的人口统计信息:年龄、婚姻状况、子女、住址、住址离塔吉特的车程、薪水、最近是否搬过家、信用卡情况、常访问的网址,等等。塔吉特还可以从其他相关机构那里购买顾客的其他信息,如种族、就业史、喜欢读的杂志、破产记录、婚姻史、购房记录、求学记录、阅读习惯,等等。这些看似凌乱的数据信息,在塔吉特的数据分析师手里,将转换出巨大的能量。

塔吉特是如何分析数据的呢?塔吉特并不知道孕妇开始怀孕的时间,但是,它利用相关模型找到了她们的购物规律,并以此判断某位女士可能怀孕了。这个案例揭示了企业对于数据应用的一个新阶段。企业不仅利用商品的相关性促销,进而利用事物的相关性预测消费者的消费活动。这种预测是利用事物相关性来发现事情的变化规律的。

大数据时代带给我们的是一种全新的“思维方式”,思维方式的改变在下一代成为社会生产中流砥柱的时候就会带来产业的颠覆性变革!分析全面的数据而非随机抽样;重视数据的复杂性,弱化精确性;关注数据的相关性,而非因果关系。

沃尔玛的数据挖掘

20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难以理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。

由此,沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入。

数据挖掘(Data Mining,DM)是目前人工智能和数据库领域研究的热点问题,它伴随着大数据的神话而崛起。所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。