舍恩伯格:大数据是新的黄金 新淘金时代来了
2013-07-09 外滩画报 编辑:华琪
“大数据”在一夜之间成了“因特网”那样的流行词,所有人都热衷于谈论它。而对于在这个领域最受人尊重的权威之一,舍恩伯格对大数据有着更加生活化的理解。“大数据能帮助我们揭示哪些事情将会发生相互关系,譬如知道流感将会扩散到哪里,知道什么时候网上购买机票最便宜。”舍恩伯格在接受记者专访时说,“大数据是新的黄金。新淘金时代来了。”
维克多·舍恩伯格身穿条纹西装,戴着约翰·列侬式的圆眼镜,把两只手放在胸前做出夸张的咆哮状。
拍照时,舍恩伯格突然用绳子扼住自己的喉咙。旁边站着的助理愣住了,纷纷觉得这个动作颇有隐喻。
“我们就像恐龙一样,将要面对一个新世界。”他用一个玩笑稀释“大数据”厚重的科技感,蓝色封面的书被放在桌角,《大数据时代》,封面上的蓝色方块好像漂浮的字节。新世界指的是“大数据”来临后的世界,在他眼里,那就是现在。他受邀来上海参加第一财经《头脑风暴》一个关于大数据的电视讨论会,在咖啡馆一角与导演认真对台词。
“大数据”一夜之间成了“因特网”那样的流行词,达沃斯有人谈论它,歌手Bono 在公开演讲中鼓吹“基于数据的真相运动”,Netflix 通过大数据分析出大热剧集《纸牌屋》,呆伯特(Dilbert)漫画里也有它的笑料:有一段说“它来自四面八方,它了解一切”,下一段则总结“它的名字就叫‘大数据’”。
著名摄影师里克·斯默兰在去年发起一个项目叫“大数据的人类面孔”,通过手机App 在8 天内收集世界各地人们对各种问题的看法,并将收集到的信息以匿名方式提供给研究人员、数据科学家和教育界人士,作为2012 年某一周人类生活的数据快照加以研究。翻开这本同名书,有些用粗体特意标示的触目惊心的句子,比如:“今天,平均每个人处理的数据比1500 年一个人一生处理的数据都要多。”
里克·斯默兰之前并不明白大数据是什么,雅虎CEO 梅利莎给他打了个比方:大数据就像我们这个星球正在发育的一种它自己的神经系统,每个人都可以为这个神经系统贡献各种各样的数据和信息,而大数据的发展也就意味着我们的星球正在逐步醒来。
作为大数据领域最受人尊敬的权威之一,舍恩伯格比他的书要活泼得多。拍照时,他跳上一驾堆器材的板车,拾起地上的一截绳,似乎在给马车加速,一边挥舞一边念念有词:数据,给我更多数据吧!忽然他就用绳子扼住自己的喉咙。旁边站着的助理愣住了,纷纷觉得这个动作颇有隐喻。斯诺登事件后,《1984》重新热销,而在其作者乔治·奥维尔一直居住到去世的伦敦公寓外,方圆200 码(约合182.88 米)的范围内,有32 台摄像机。
在节目开始时,主持人问到场的几位嘉宾,你们觉得大数据是什么,舍恩伯格举起他的题板:金子。“大数据是新的黄金。新淘金时代来了。”他说。
少年程序员
和舍恩伯格交谈的机会并不多,他的每一分钟都被安排得满满的,身边总是围绕着等着换名片的人。演讲结束,他坐在我旁边,松了口气:“我的朋友曾经总结,有人是吸气型人,有人是呼气型人。
我就是吸气型人。我并不太爱说话。”他说起话来,又仿佛从书里钻出来一样,像一台齿轮咬合完美的机器,他能在一个话题内延绵不绝,充满假设和论证,说着说着会突然沉默,就像结束了一个小节,翻过这一页,继续接上两句。
舍恩伯格在奥地利的一个小镇长大,父亲是个会计律师,母亲经营着一家电影院。他不止一次在公开演讲中提起他的母亲。“我母亲经营一家电影院,我每年都会问她过去一年最好的电影是什么,她总说,我知道,我知道,就是XXX,但她总是错的。”他试图用这个例子告诉大家,人的直觉往往只是“沾沾自喜的错觉”,而数据可以破坏这种错觉,告诉你真相。
“人们总是想用显见的因果解释我们周围发生的事情,但很多时候这些解释是错误的。比如我们去餐厅吃饭,第二天生病了。很可能会觉得和餐厅吃的东西有关,实际上,可能是我们和病人握了手没洗手。我们应该小心这种大脑武断得出的快速因果关系,因为它们很可能是错的。”他对我说。
“大数据能帮助我们揭示哪些事情将会发生相互关系,譬如知道流感将会扩散到哪里,知道什么时候网上购买机票最便宜。为什么?不知道。很多时候我们不需要知道为什么,知道是什么就足够了。”
舍恩伯格对数字很敏感,或许是因为父亲的职业,“数字让我觉得很舒服。”独处时,他喜欢在脑海里算数学题,沉浸在由数字组成的寂静又富于节奏的空间里。在节目录制结束去机场的路上,他突然问我,“24 乘以17 等于多少?”“那就是24×10 加上24×7,也就是20×7+4×7+240,那就是408,非常简单。”
小时候,舍恩伯格一直对计算机和物理感兴趣。在他眼里,运动的火车被浓缩在物理方程式里,敲打键盘用汇编语言画一顶草帽,这种描述世界的方式让他着迷。
“父亲是小镇上第一个买电脑的人,那时候是1966 年。镇上所有人都认为他疯了,他一定会破产。”他说,那台巨大的老式个人电脑开起来会发出古怪的嗡嗡声,这声音占据了他的整个童年。“在我11 或者12 岁的时候,我太想用它来编程了,那时候只有大学才有计算机,我就去当地的大学报了一门课。大学老师认为我不可能学会,就让我自己玩,于是我就在角落里自学。”1976 年,硅谷还在60 年代的余波中热气腾腾地发酵着新公司,第一台苹果电脑刚刚在大西洋城展示并获得喝彩。那几年,他除了参加物理竞赛,每晚8 点后就坐在家里古老的计算机前琢磨。“我满脑子都想着以后要当个物理学家,或是计算机学家。”
他编出了几个广受好评的程序。比如有一个名为“时间就是金钱”的日历软件,能迅速从软盘读取并显示你一个星期的安排。1986 年,他和朋友顺势成立了一家公司,另一款名为IKARUS 的反病毒软件在1988 年一经推出便成为奥地利最畅销的软件,于是公司的重点转为数据安全。
虽然公司业务蒸蒸日上,父亲却勒令他快点完成法律学业继承家业。他分身乏术,曾想把公司卖给微软,结果没能谈成,他却被另一个人看中。那时候,IKARUS 正在研发一款面向对象的数据库系统,用一种十分简单的图形方式链接信息,在许多方面和今天的HTML 很像。乔布斯希望他能去Next 公司开发类似的系统。
“我想这或许能解释我后来为什么对数据/电脑和人之间的互动关系一直很感兴趣。计算机能把许多东西数据化,这本身就是件了不起的事情。”
“那时候史蒂夫是老板,我就去了palo Alto,和史蒂夫一起工作。有一次他带我去吃饭,我太幼稚了,我犯了史上最愚蠢的错误。我问史蒂夫他编过的第一个程序是什么,却压根不知道他一辈子也没编过一行代码。他很震惊,愣住了,没有说话。于是我们再也没有出去吃过饭。”说起这些往事,他的脸上现出一丝不可思议的表情。
他一边经营着公司,一念着法律学位。因为觉得法律很无聊,他硬是把本来要读7 年的学位压缩到3 年半完成。其间,他还帮助一个朋友的公司干活,很快,他的工作从程序员变成如何帮朋友关掉这个公司。
“一开始我已经从数据中发现了一些端倪。我仔细研究了公司的资产负债表,公司要赚钱,业务必须要非常非常好,我觉得概率不大。”他总结说,“我是个理性的人。”
演讲结束,舍恩伯格松了口气:“我的朋友曾经总结,有人是吸气型人,有人是呼气型人。我就是吸气型人。我并不太爱说话。”
见证数据时代崛起
1992 年,在26岁的时候,舍恩伯格卖了自己的公司,拿到一笔小钱。“今天看来不太多,但在那时候也足够在维也纳市中心买一幢小楼。”他说。
在前途问题上,他和父亲产生了一点小小的分歧。父亲仍希望他继承家业,希望他在法律上继续深造。“我是个顺从的孩子,父亲希望我在西海岸挑一所学校,比如加州大学,容易申请,气候好,还能冲浪。我怀着赌气的心情只报了一所:哈佛。”没想到,他竟然被录取了。收到通知书时,他以为是个朋友开的玩笑。他捏着通知书照着上面的号码打过去:“这是个愚蠢的玩笑。”对方说:“不,这是哈佛。有什么能帮您的吗?”
很久以后,他想到“能不能进哈佛”这也是一个大数据问题。收集到足够多的信息,这个结果或许是能够被预测。
当他进入哈佛后,一切又变了。法律变得有趣起来。他开始明白,和物理方程式类似,法律就是这个世界的镜像。阅读法律,就是阅读社会。
法律让舍恩伯格认识到社会是个复杂系统,并没有简单的因果关系。后来他发现,当大数据时代来临时,大量事物能够被量化,提供了前所未有的窥测和解读这个复杂系统的方式,这让他兴奋不已。
比如,谷歌能够几近完美地给出和基于大量真实病例信息所得到的流感情况一致的结果,而且是实时的;被微软收购的Farecast 可以预测机票价格的波动,让消费者能在最便宜的时候买机票;奥巴马竞选团队分析出最适合奥巴马竞选的电子邮件开头应该写“Hey”;它甚至能够预测人们一天的行踪,英国伯明翰大学的研究团队开发出一种算法,可以精确预测人们在一天内将要去哪里,平均误差仅为20 米。
从哈佛毕业后,舍恩伯格回到了奥地利,在奥地利又申请了博士学位,并顺利在伦敦一所大学获得教职。他父母来伦敦看到他生活幸福,有稳定的女友,眼看着玫瑰人生即将开启。“母亲很高兴,而父亲有点失落。走上学术道路意味着我无法再继承家业了。”他说。谁也没想到的是,当天晚上,父亲死了。第二天,他收拾东西回了家乡的小镇,开始做一个会计律师。
“我所有的事业、学术都远离我而去,我成了我父亲。”
一年后,他卖掉了父亲的公司,艰难地回到学术界,在维也纳大学做助理。到了晚上,人人都去喝酒、寻欢作乐的时候,他在家拼命写文章。“那几年我没有生活,每天工作24 个小时。没有人在维也纳知道我,但在美国,我有了知名度。当哈佛请我回去做教授的时候,没有人相信。”
在他待在哈佛肯尼迪学院任教的10 年里,互联网正在飞速变化。硬盘变得越来越便宜,使用手机竟然能拍照和看电影。
他渐渐发现,数据正在改变互联网的游戏规则,他在1997 年发表的论文《互联网的技术和隐私》里写道:“数据保护从1970 年在欧洲就成了个家喻户晓的词,指的是控制一个人个人数据的权利。”而这种权利正在受到挑战。1998 年,他又写了篇《 互联网隐私和立法:Cookie 是个威胁吗?》他很早就注意到,cookie 在人们浏览网页时会记录每个浏览者的私人信息。
1998 年,谷歌诞生在门罗公园。这家公司以搜索起家,通过cookie 记录一切他们能记录的东西,通过分析搜索者的特点给他们推送个性化广告。它的搜索、广告、翻译、播放音乐、图形搜索、趋势等产品都建立在数据的基础上。
2007 年,美国国会通过了《开放政府法》,2009 年,詹妮弗·帕赫卡创办了一个组织“Code For America”,组织一批技术志愿者通过挖掘利用地方政府的各种数据,从公交车时刻表、报警记录到居民用智能手机提交的信息,解决居民的实际问题,诸如“周围哪些房子空关着”、“孩子应该上哪所中学合适”。
2009 年,谷歌在《自然》上发表一篇论文,揭示他们如何通过用户搜索的词条和疾控中心2003-2008 年间流感数据比较,成功预测2009 年甲型H1N1 流感;Twitter、Facebook 和LinkedIn 通过用户的社交网络图来得知用户喜好;美国最有名的计算机专家埃齐奥尼创立了一个预测系统,他找到一个行业机票预定数据库,根据航线上每一架飞机内每一个座位一年的综合票价记录来预测什么时候买机票最便宜。
2010 年,舍恩伯格打算和《经济学人》的数据编辑肯尼思·库克耶合写一本关于大数据的书。“我们感觉一些有关大数据的重要变化正在进行中。”肯尼思那时刚做了一期特刊《 大数据的冲击》,封面是一个人拿着一把伞口向上的伞站在雨里,用伞尖漏下的水浇花,象征着数据滋养下的商业开始繁荣。
有关“删除”的生活准则
“数据”(Data)在拉丁文里是“已知”的意思,也可以理解为“事实”。
数据化意味着我们要从一切太阳底下的事物中汲取信息,甚至包括我们以前认为和“信息”根本搭不上边的事情。
比方说,一个人所在的位置、引擎的振动、桥梁的承重等等。这就使得我们可以尝试许多以前无法做到的事情,例如根据引擎的散热和振动来预测是否会出现故障。
《大数据时代》一书里写道:“(大数据)对社会的好处将是无穷无尽的,因为大数据在一定程度上将解决迫在眉睫的全球问题,如处理气候变化、根除疾病以及促进善政和经济发展等。”
微软亚太研发集团Windows Azure 首席架构师徐明强讲了个故事:在了解到建筑占地球温室气体排放的30% 以后,微软总部打算在125 幢办公楼里做个试验。他们开发了统一的传感器,能够跟踪取暖器、空调、电扇以及灯光的数据,安放在各处的3 万个传感器,每24 小时能产生5 亿个数据点。收集大量的数据进行分析,他们发现了许多“能耗黑洞”。譬如一座建筑车库里,他们发现一个运行了一年但从不关闭的排气扇,衡量下来,它浪费了66000 美元。
而在另外一栋建筑里,软件提醒那里的冷水系统的气压有点问题。不到5 分钟,工程师们就解决了问题,光这一项,微软每年就能够节省12000 美元。这一套6000 万美元的系统能帮助微软新总部节省40% 的能源。
“量化一切是数据化的核心,大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。”舍恩伯格说。
当亚马逊创始人贝索斯发现算法推荐能促进图书销量增加的时候,他就不再使用公司的书籍评论员,尽管这样的推荐系统有时会让人觉得愚蠢;谷歌的机器翻译团队,工程师们都不会说他们翻译出的语言;微软的机器翻译部门甚至开玩笑,每次一有语言学家离开他们的团队,翻译质量就会变好一点。
舍恩伯格掏出手机,历数他喜欢的大数据应用。“Bing 旅行搜索,谷歌翻译,这是预测飞机晚点概率的服务,”他点给我看,“我的书出了电子版后,亚马逊会反馈给我,《大数据时代》的kindle 版上,人们划线最多的5 句话,我完全没想到,有一句好像是第一章节第三段第一句。那并不是我多么得意的部分。”
舍恩伯格无疑是坚定的大数据推手。他用MOVE 记录自己每天的行走路线、时间、速度和步数;他在23andme 做了“基因体检”;他正在对美国最高法院判例进行大数据研究。他倾向数据基础上的决策。“每次听到有人在我耳边说: ‘相信我,我知道怎么回事’ 我就发慌。”
拍照时,他跳上一驾堆器材的板车,拾起地上的一截绳,似乎在给马车加速,一边挥舞一边念念有词:数据,给我更多数据吧!。
在“头脑风暴”的节目录制现场有嘉宾提出,“棱镜事件”暴露出在大数据时代公民隐私受到的威胁,政府为了尽可能获得恐怖分子或是嫌疑人的信息,会监听公民信息。舍恩伯格反驳说:“但是同样利用大数据分析,原本500万人会被监测,现在可能只是300 个人在被监测。”
他并非赞同政府监控的合理性,他思考这个问题的时间比大多数人都要久。
在越来越多个人数据被记录下后,你时刻暴露在“第三只眼”下,亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,而微博似乎什么都知道。“在你使用服务的时候你就得明白,在网络世界,你获得更好服务的前提就是让渡一部分个人信息。”
所以他在很早以前就确立了一套关于删除的生活准则。
1999 年,一次邮箱事故让他丢失了所有邮件,他觉得世界末日降临了,蹲在地上痛哭,打滚,伤心至极。三天过后,他像什么都没有发生过一样照常生活。从那之后,他就改变了生活方式。
他将邮箱当成日程表,每一个新邮件都是日程,回复完毕就会立刻删除;衣柜里超过2 年没穿的衣服就送人或者处理;拍照片的时候如果觉得不好看,当即就删除。他的继父去世,留下16000 张收藏的照片,最终他只留下了53 张。他为保存照片定了两条规则:1、照片上有认识或可能认识的人;2、照片拍得很漂亮。
他很早就意识到,记录一切是很可怕的事情。“谷歌会变得比你自己还了解你自己。你会遗忘,而它不会。”
“谷歌让我想起英国历史学家乔治·威尔斯(HG Wells)写过的一篇小说《世界脑》,是说所有的人类记忆都进入一个百科全书般的大脑,所有人都从里面获取记忆。谷歌就是那个世界脑。”他说,“我担心的一件事情是,如果我们开始不相信自己的记忆,而去相信外部记忆,比如数字记忆,这意味着,谁控制着电子记忆,谁就控制着历史。我没办法相信,这种控制永远是善意的,你可以通过改变数字记忆改变历史。如果我们持续地信任这种电子记忆,我们的历史将会被抽离。”
童年时代看过的一部电影《银翼杀手》让他印象深刻,片子里,有一个通过“Empathy Test(移情测试)”判断受测者是否是人造人的机器,它会测试在问题刺激下人造人的呼吸、脸红反应、心率、瞳孔收缩,来判断其是否有人类的“移情”能力,或者说,是否具有“人性”。在那部电影里,有一些和人类完全相同的复制人,记忆能被“制造”。
复制人是他脑海里挥之不去的形象。“遗忘是美德,真正重要的东西,会留在这里。”他指指自己的胸口。