谷歌研究院刘骏:未来搜索框将认识你是谁
2009-09-08 腾讯网
Google研究院副院长刘骏
9月8日消息,以“创新服务 融合”为主题的神州数码2009创新年会在京召开,会上Google研究院副院长刘骏表示,未来的搜索将能识别你的身份,例如母亲节想送母亲鲜花,然后上网搜索一束鲜花,搜索引擎能够了解你母亲是谁,然后在你母亲附近找到一个花店之后帮你送过去,这就是将来搜索引擎要做的事情。
以下是Google研究院副院长刘骏演讲实录:
刘骏:今天很高兴跟大家分享Google和云计算,Google是最早互联网上大规模利用云计算平台,有商业成功的例子。刚才董总讲的很好云计算会给我们带来生活上的改变,是一个崭新的数字生活。其实云计算现在已经在我们身边了,在演讲开始之前举一个例子。比如很平常的拍照,很久以前拍照先是照相机然后充胶卷然后成为相册,现在已经过去了,我刚才看记者没有一个是用数码相机的。现在这个模式用数码相机上传到电脑上,然后现在又有了云计算平台你可以直接分享,你可以直接印出相册。
我最近用了一个更先进的相机直接是可以联网的,相机直接按了以后几分钟这个照片就在网上,我用了一段时间发觉它彻底改变了我的生活,这是非常显著用户体验的改善,完全改变了我怎么样使用照相机的习惯,造成的是垃圾照片也特别多。
我们为什么可以实现做到这点?很重要的一点就是互联网的普及,互联网从2000年到现在已经有6.5亿网民,而且是来自全世界各地,我认为最近几十年互联网是最伟大的发明之一,全世界已经有12亿的互联网用户,中国占很大一部分。有了互联网的技术平台以后就会诞生今天的云计算,刚才大家谈到很多云计算的概念,我觉得云计算和互联网不可分割,在某种程度上如果要建立云计算的应用,现在靠的平台是什么?你可以用某一个企业某一个公共云,你借助的渠道一定是互联网,所以从某种程度上来说你依靠的“云”就是互联网。云计算简单说就是把数据存在“云端”也就是存在互联网的某个角落。进入云端很重要的一点就是你的端口,端口要标准化,一切从浏览器开始,国际上有很多新的标准促使我们技术发展到今天。
简单回顾一下为什么发展到现在有云计算的历程,从IT行业来看有几个比较重要的时代变化。最早个人电脑是非常非常重要的划时代的东西,那个时候你如果到商店里希望买计算服务的话一定是说买了这个电脑、买了那个电脑,大家非常重视电脑到底有多快,或者是有多便宜。后来进入了网络时代,那个时候有大批在电脑上的软件,我们用一句话来概括“以软件为中心”,有很多很优秀的软件在个人电脑的平台上。但是大家注意这几年世界上最聪明的软件工程师大部分都不再投入在个人电脑上应用程序,像一些大型的软件这几年没有新的投入,但是在互联网上像FaceBook等等有很多,这就说明IT的人才都走向互联网,我认为这就是云计算的时代,这时候的特征是以服务为主。云计算为什么今天可以做到这点呢?我认为跟在座很多IT同行的努力有关系,CPU性能大幅度提高;内存价格大幅度下降;硬盘价格也大幅度下降。这个情况下使产生云的物理体系基本上形成。
进步的程度可以用简单的数据表示,1升汽油可以绕地球跑500多圈,如果地球都按照这样发展完全是不同的世界,所以作为IT行业我们自己应该感觉很自豪。
谈到“云计算”很重要的一点跟以前有什么不一样的地方,以前经常谈到网络大规模并行处理,云计算到底是什么样?它是以应用为主,我们可以谈一些技术,但是我们应该展示一下云计算到底有什么样的潜力,有什么样的东西我们可以展望。我展示一下Google在这方面有什么突破。世界上云计算最成功的是什么?毫无疑问是搜索,我在中国负责中文的搜索,如果你对中文的搜索有什么不满意的地方,可以跟我提一下。搜索是云计算最早的应用,同时有了搜索以后信息可以找到了,这样造成信息爆炸,所以我觉得搜索和云计算是分不开的。
简单回顾一下搜索历史的发展,最早的时候搜索是很简单的概念,就是一个搜索框给十个结果,有了搜索之后发现信息越来越多了,简单的搜索有些顶不住了,所以有一些垂直搜索的网站就出来了,垂直搜索可以是专门搜索火车票的,也可以是专门搜索图片的。在垂直搜索里面有什么问题?用户到底要到哪个搜索网站去搜索,现在这个时代叫整合搜索时代。举个例子,比如你以前搜《功夫之王》,现在的搜索不是只给你一个结果,告诉你哪些网站有《功夫之王》,而会告诉你在北京什么地方放映,同时会告诉你《功夫之王》票房以及新闻是什么,你还可以再看一下预览片,当然Google不提供预览因为涉及到版权的问题,这就是整合搜索的概念。整合搜索到底难在什么地方呢?以前的网页搜索在数据结构上是相对标准的,现在有了整合搜索你的问题就比较复杂了,因为你的索引是要放一个很不规则的东西在里面,如果把很多物件放在盒子里,如果都是方方整整给你那是很容易,如果给你一些稀奇古怪的东西放起来就很困难,整合搜索就面临这个问题。
为什么说搜索是云计算的服务,我们用Google的搜索做一个例子,大家对搜索了解的话都有一个搜索的索引同时有一个文档服务器,Google有1000多台机器同时工作给你一个结果,这在以前是不可想象的,只有在云计算时代我们才可以做到这点,因为技术的发展我们有了整合搜索,搜索的复杂程度又成倍的往上升,所以对硬件、软件的要求有更大的提升。
很多人认为搜索是很成熟的技术了,我认为也不怎么样,只不过你们的想象力要更复杂一下。随便举个例子将来的搜索应该做到什么程度,不知道谁在搜索框里搜过“送母亲一束鲜花”,如果你这样做你的期望值是什么?也许是一首歌名字叫《送你一束鲜花》,将来在云计算时代做得好的话可以做到什么程度,他可以知道你是谁,同时可以了解你想干什么,可能是母亲节想送母亲鲜花,就给你挑一束鲜花,同时他了解你母亲是谁?然后在你母亲附近找到一个花店然后就帮你送过去,这是将来搜索引擎要做的事,但是毫无疑问有很多挑战,我们还需要继续努力。
云计算最重要的一点就是突破了语言和时间的障碍,举几个例子,比如在搜索的时候现在搜索引擎已经发展到非常快的速度,比如说上网之后几分钟之内就可以搜到。如果有几千万个网页在几分钟内要全部搜索到,这在技术上是非常大的挑战,但是现在已经做到了。有了云计算你的存储能力非常非常大,很重要的一点是可以回顾历史。比如现在“猪流感”大家知道这是什么时候发生的事情,但是你在Google上搜会发现1976年还有更多的“猪流感”信息,那时候还信息,但是Google会整合起来,所以可以看出来1976年“猪流感”已经发生过,1976年还没有互联网,这是通过人工智能把信息拿过来。
现在还可以把文档存在互联网上可以即时共享,大家可以看到这好像是个电子表格,但是其实是一个网页,如果在这上面编辑的话任何人可以同时看到你的变化,同时你可以在上面问问题。在云计算时代把电子表格移到云端,是有很大的变化。
另外云计算对地球的突破是非常非常重要的,举一个例子就是Google的地图,你现在看到的是巴黎的地图,你可以看到卫星照片的实景,可以看到巴黎的埃菲尔铁塔。比如你看到一个人,你把人拖到这里可以从这个角度看到埃菲尔铁塔,Google有三维数据和卫星图结合起来的结果,它告诉你在哪里同时还有一条线,你可以沿着街走,而且角度还不一样。如果你觉得这个三维图看得还是不过瘾,你可以看看网民在这拍了什么照片,你可以看到很多网民在埃菲尔铁塔拍了很多照片,这也不是很稀奇。更稀奇的是这有一个白框,它告诉你这个照片是从哪个角度拍的,如果你想去玩一下埃菲尔铁塔,看看到底感觉怎么样,我们还可以帮助你,清晰度甚至到你可以看到在哪里可以找到停车位。
下面要讲的是语言的问题,比如大家在Google搜“半岛电视台”,搜完以后的结果是阿拉伯语的,什么都看不懂,这是讲阿富汗前段时间选举的事情,不光从西方媒体了解一下,还想从阿拉伯了解一下,看不懂没关系,Google有一个翻译的功能。实际上翻译也是典型的云计算应用,翻译最重要的一点就是数据量,就像小学的时候学英语或者学语文,老师首先教你背书、背单词,机器也是一样。在这里可以看到如果我们每把数据翻一倍翻译的精度就提高,经过几倍这个数据简直是天文数据,现在都是几万亿的文章消化,所以导致搜索翻译的质量非常高。
比如简单的翻译像“超女”的事情,Google的翻译明显要比其他地方翻的好,就是因为数据量很大有云计算的支持。讲一个小笑话,我们简单到北京兜了一圈,看到很有意思的翻译,“数码冲印”翻译成跟印度有关,这个没有运用Google的翻译,下面运用了Google的翻译,但是有时候Google的翻译不可靠,这是“餐厅”,但是翻译的时候我们机器出了问题,就照常放上去。
最后整合搜索还是要移动到手机上,有了云计算摆脱了在机器上的束缚。手机上也有整合搜索,手机上的搜索还是有一些不一样的地方,比如手机打字特别困难,这个时候可以利用一个新的云计算应用,就是语言识别。我刚才讲过机器研发也是云计算典型的应用,但是同样数据量也要大。
我觉得手机是将来云计算一个重要的窗口,特别是有了iPhone,因为iPhone很多是使用Google的服务,黄色的线是一般在手机的应用,有了iPhone以后可以看到互联网在手机上的应用是直线上升,iPhone最大的革命是什么?它有一个全功能的浏览器,全功能的浏览器改变了手机,现在gPhone也提供全功能的浏览器。
下面再讲一下云计算的协议和标准,我觉得云计算很重要的一点是它一定是协议标准化,互联网发展有几个划时代的地方,1995年Netscape引入Javascript;1999年微软引入XMLHTTP。通过互联网发展的过程标准对互联应用是非常重要的,现在新的应用是什么?新的机会在哪里?就是HTML5,它是很重要的标准,因为时间的原因不能具体介绍HTML5,比如说它有直接的图象处理,以前我要打一个框架到照片上,在网页上是做不到的,所以导致你必须做Photoshop做。
云计算归结到底只有两种技术:一个是数据的存储和数据的分析,Google也做了很多方面的努力,Google最大的特点不是说它的容量大或者是可靠性高,很重要一点是它读写的带宽非常大。
第二个是MapReduce,Google也做了革命性的平台,MapReduce把大规模处理分为两步骤。还有很重要的一点就是接入点要标准化,现在的互联网有丰富的应用,但是过去十年当中浏览器上没有什么大的改进,IE6-IE7造成了六年的时间,Google为了促进这个行业的发展我们提供了开元的浏览器叫Chrome,在中国还没有大规模的推,我觉得Chrome进入云计算的窗口是完全公开。
另外一个很重要的窗口就是手机,Google在这方面也致力于公开、开元的平台,这是gPhone。下面讲一下云计算的挑战,最大的挑战就是规模。看一下Google的规模,1997年Google只有几台机器,1999年像样点,到了2000年真正的数据中心开始有了,到了2008年已经远远不够我们必须把数据中心建到发电厂边上去。所以云计算对构架的要求是相当高的。
第二就是安全性的问题,大家都提到安全性的问题,但是也存在一个误解,看一下现在安全的模式,人跟机器,人会把隐私的数据存到电脑上,在座各位有多少人认为电脑是非常非常可靠的,没有木马在里面,当然在座的都是IT的精英。试想普通的用户在现在局面下个人隐私泄漏是极其严重的问题。在云计算的时候把数据放在云端有专业的人士管,在某种程度上缓和了这个问题。
最后我想再三强调作为IT的企业公民,我们有很强的社会责任,特别是在云计算的时代。举一个简单的例子,比如在中国很多搜索引擎都把广告直接插到搜索结果里,也不告诉你这个是广告。像这样的价值观国际上是无法接受的,只有在中国还是可以做到这点。最后想呼吁一下大家在云计算时代要做一个用户为先的企业公民,我就讲到这里。