数据海洋:大数据未来世界的新石油绿色数据中心

2012-06-12    来源:《商业价值》杂志    
自古至今,从未有一个时代出现过如此大规模的数据爆炸。如今的商业世界,已经变成了飘浮在数据海洋上的巨轮,而那些通过大数据能力驶入蓝海的企业,将会赢得丰厚的回报。 大数

自古至今,从未有一个时代出现过如此大规模的数据爆炸。如今的商业世界,已经变成了飘浮在数据海洋上的巨轮,而那些通过大数据能力驶入蓝海的企业,将会赢得丰厚的回报。

大数据的特点

对于大数据的特点,业界通常用Volume、Variety、Value、Velocity这4个V来概括。大数据的特点包括:第一,数据体量巨大。从TB级别跃升到PB乃至EB级别。要知道目前的数据量有多大,我们先来看看一组公式。1024GB=1TB;1024TB=1PB;1024PB=1EB;1024 EB=1ZB;1024ZB=YB。到目前为止,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB。

第二,数据类型繁多。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,越来越多的非结构化数据的产生给所有厂商都提出了挑战。拜互联网和通信技术近年来迅猛发展所赐,如今的数据类型早已不是单一的文本形式,除了网络日志、音频、视频、图片、地理位置信息等等多类型的数据对数据的处理能力提出了更高的要求。

第三,价值密度低。价值密度的高低与数据总量的大小成反比。以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题。

第四,处理速度快。这是大数据区分于传统数据挖掘最显著的特征。根据IDC的一份名为“数字宇宙”的报告,预计到2020年全球数据使用量将会达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。

还记得10年之前风靡一时的美国情景喜剧《六人行》(又名《老友记》)吗?在这部美国NBC电视台从1994年开播到2004年落幕的经典之作中,6位主人公从姓名、职业到个人喜好至今都还能被粉丝们津津乐道。

这部美剧中有一个颇受观注的传奇谜团,那就是钱德勒到底是干什么的?——虽然他解释过很多次自己的工作,但是从来没有人真正弄明白过他所做的那个全称叫做“an executive specializing in statistical analysis and data reconfiguration”是个什么东西。

在该剧热播的10多年前,想要跟一个陌生人讲清楚这样一个与数据统计分析有关的岗位确实不是一件容易的事情,以至于到了《老友记》的最后两季,“生不逢时”的钱德勒不得不转行干起了广告。不过到了今天,钱德勒们的职业却正变得炙手可热。

如今,在数字方面拿手,对于数据分析着迷不仅不会让一个人再成为社会的另类,相反这意味着无数条件优厚的工作机会正在招手。

根据麦肯锡旗下研究部门麦肯锡全球学会(McKinsey Global Institute)2011年发布的一份报告显示,预计美国需要14万-19万名拥有“深度分析”专长的工作者,以及150万名更加精通数据的经理人,无论是已退休人士还是已受聘人士。

造成数据人才供不应求的一个显著的背景就是如今“大数据”的爆发正在得到从企业界到政府层面越来越多的重视。

今年2月,《纽约时报》撰文称,“大数据”正在对每个领域都造成影响,在商业、经济和其他领域中,决策行为将日益基于数据分析做出,而不是像过去更多凭借经验和直觉。而在公共卫生、经济预测等领域,“大数据”的预见能力已经开始崭露头角。

一个最新的例子就是Facebook在5月18日的IPO。在5月18日之前,几乎没有人敢说自己有把握去预测Facebook上市当天股价的走势,但是Twitter却神奇般地做到了。

社交媒体监测平台DataSift监测了Facebook IPO当天Twitter上的情感倾向与Facebook股价波动的关联。例如,在Facebook开盘前Twitter上的情感逐渐转向负面,25分钟之后,Facebook的股价便开始下跌。而当Twitter上的情感转向正面时,Facebook股价在8分钟之后也开始了回弹。最终,当股市接近收盘时,Twitter上的情感转向负面,10分钟后Facebook的股价又开始下跌。最终的结论是:Twitter上每一次情感倾向的转向都会影响Facebook股价的波动,延迟情况只有几分钟到20多分钟。

这仅仅只是基于社交网络产生的大数据进行“预见未来”的众多案例之一,事实上“大数据”所能带来的巨大商业价值已经被人认为将引领一场足以匹敌20世纪计算机革命的巨大变革。

2012年2月,《华尔街日报》发表文章《科技变革即将引领新的经济繁荣》,文中罕见地做出大胆预见:“我们再次处于三场宏大技术变革的开端,他们可能足以匹敌20世纪的那场变革,这三场变革的震中都在美国,他们分别是大数据、智能制造和无线网络革命。”

《华尔街日报》的断言并非无的放矢。在今年年初的瑞士达沃斯论坛上,一份题为《大数据,大影响》(Big Data, Big Impact)的报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。

更加值得关注的则是,奥巴马政府已经把“大数据”上升到了国家战略的层面。根据美国白宫今年3月29日新闻,奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”。希望增强收集海量数据、分析萃取信息的能力。

上一次白宫亲自参与推动信息技术产业的大手笔还是2010年希拉里提出的“国家宽带战略”,“大数据研究和发展计划”也被认为是1993年时任美国副总统戈尔宣布的“信息高速公路”计划后美国政府政策层面的一次“狂飙突进”,将“大数据”上升到国家意志将在下一个10年带来深远影响。

在互联网和通信技术飞速发展20年后,一个属于“大数据”的时代,真的来了。

数据海洋中的商业

商业的发展天生依赖数据来作出决策,但是自古至今,从未有一个时代出现过如此大规模的数据爆炸,如今的整个商业世界,已经变成了飘浮在数据海洋上的巨轮。

全球市值最大的连锁餐饮企业麦当劳、零售业中的巨无霸沃尔玛、在线零售的巨头亚马逊,这3家这个时代炙手可热的企业,如果说他们之间存在着什么相关性的话,会是什么呢?

数据?没错。麦当劳的强大在于它卖的不仅仅是汉堡而是在从事一个精准选址,对数据深入挖掘的“房地产生意”;沃尔玛的可怕在于其早在20世纪70年代末就开始通过挖掘数据来改善自己的供应链,时至今日,在其连锁超市的表象之下早已成为一家巨大的数据公司;亚马逊就更不用说了,贝索斯从不掩饰他对于数据中心的看重,对于这家电商巨头来说,数据就意味着一切。

以沃尔玛为例。早在1969年沃尔玛就开始使用计算机来跟踪存货,1974年就将其分销中心与各家商场运用计算机进行库存控制。1983年,沃尔玛所有门店都开始采用条形码扫描系统。1987年,沃尔玛完成了公司内部的卫星系统的安装,该系统使得总部,分销中心和各个商场之间可以实现实时,双向的数据和声音传输。

采用这些在当时还是小众和超前的信息技术来搜集运营数据为沃尔玛最近20年的崛起打下了坚实的地基。如今,沃尔玛拥有着全世界最大的数据仓库,在数据仓库中存储着沃尔玛数千家连锁店在65周内每一笔销售的详细记录,这使得业务人员可以通过分析购买行为更加了解他们的客户。

国外零售巨头对于数据资产的重视也在近年来影响着国内的电商企业。凡客诚品CEO陈年对《商业价值》杂志记者表示,“现在的凡客是一家数据公司。”

2011年凡客内部最大且最重要的一次调整就是想要实现互联网的系统化和数字化的管理,为了让任何“数字”变得可预测和可控,凡客成立了数据中心。

一开始,大家对数据中心的需求就是得到一些简单的数据,比如库存的数量。但是他们慢慢发现,得到数据之后就会面临一些相关的问题,如怎么配合进货等,于是数据中心就开始根据不同的问题,不断寻找数据与数据之间关联,并最终把各种关系搭建起来。出现库存周转慢的问题怎么办呢?数据中心就又得分析与库存相关的数据关系。除此之外,数据中心还会去研究新产品的上架与新用户增长的关系,每上线一个新品与它能够带来的用户二次购买的关系等。

1
3