微软谢伟恩:驾驭大数据-如何实现大数据的应用型绿色数据中心
F1的大数据案例
在我讲PPT之前,我也跟大家稍微分享一个故事。我两个礼拜之前在上海参加了F1赛车比赛,很荣幸能够跟赛车手在一起交流。如果大家看大数据的话,其实在整个F1赛车中表现得淋漓尽致。我不知道大家了了解,在F1方程式赛车上起码有超过一百多个触感器来检测地面的温度、轮胎的压力等等。同时在上海车展上面有一颗卫星在环绕,把整体天气预报情况、把风向、把空气中的温度以及地面温差,直接把这些数据记录下来,这个数据在上海的赛车场以及在英国的总部做非常实时的传递到赛车手那里,我以前没有体会到赛车手的工作那么辛苦。
我们可以思考一下,在你驾驶每小时300公里的情况之下,去聆听这些数据的分析,改变我的引擎压力、轮胎的压力,我要决定什么时候把赛车开到服务站去重新换轮胎,这是大数据几个非常重要的特征。有的时候大家误解,以为大数据就是海量的数据,当然,数据量只是其中的一个部分。不过我想大数据更重要的一个特征,实际上是对数据精确程度的要求,以前有的时候我感觉我是通过一些模拟能够把一些信息或者分析传递出来,大数据一个非常非常重要的一点,就是怎样能够把实时的数据非常精确的数据使用起来,能够用可视化,通过一些强大的分析工具,能够把这样的内容带到商业决策过程中去。
移动化趋势
今天借这个舞台跟大家稍微谈一下微软在大数据领域的看法和体会。首先是针对用户来说,未来的四大趋势,用户变得越来越移动化,这个移动化不仅代表了每个用户身上所带的移动终端,也代表了整个行业,我们针对的客户群体也越来越具有移动性。
社交
除此以外就是社交,在传统IT行业中大家更多的谈到我的数据中心怎样做整合,我的商业应用怎样能够在新环境做起来,去年7月份给我一个非常大的体验,其中一个体验,就是整个社交变得越来越突出,除了这个之外,大家已经非常熟悉云计算这样一个概念。当然,所有的移动化、社交能力以及云计算带给我们的是庞大的数据量,给我们提供非常非常好的一些商业机遇,通过这些非常精准的数据得到有价值的商业分析,能够通过很好的一些视觉化的工具,把这些价值充分的体现出来。
那么到底会对IT产生怎样的冲击?在这个过程中,我们会看到一系列的转变,从虚机、存储、网络管理等方面,这些因素实际起到了一个推进的作用,也起到了一个被推进的角色,在这个过程当中,刚才谈到的四大趋势,对IT来说非常重要的,也引进了一系列新的场景,比如说社交化,现在我们越来越多看到新类型的商业应用,或者B2C的应用、B2C的应用,把社交这样的概念完整地整合在这些应用当中去。
从一个大数据角度,的的确确我们也看到数据的一些复杂性,这个对于IT来说,实际上是一个蛮头痛的事,以前是比较适合管理,比如说架构类型的数据现在要考虑到Hadoop等等,到底我们在这样一个场景当中,怎样去管理、怎样能够真正挖掘数据的价值。
IT消费化
在移动化这个层面上,现在大家也可能听到过我以前在演讲过程中也一直在谈论这样一个趋势,叫做IT的消费者化。IT的消费者化的一个概念,就是说从一个IT人这个角度在看很多消费类型的设备应用融入到我公司内部的架构过程当中,实际上是蛮复杂的,我怎样通过一系列的系统管理能力,通过一系列现在已有的IT消费者的数据更好的跟我企业的挂上钩,这对IT管理者来说又是一个非常大的挑战。
当然,最后一个就是云计算的概念中,虽然给我们更多的机遇,能够让更广泛的数据集为我所用,能够让我的应用造成更多可能性发展的一些趋势。在这样一个环境当中,微软实际上已经在做,那就是身体力行,刚才英特尔的吴总也谈过,在大数据这个领域当中,微软也做了一些事。
去年9月份在北京,做了我们Windows Server 2012的发布,这个操作系统不光能够帮助终端客户按照他自己业务的需求去筹建它的私有云架构,比如说通过Windows Server、通过一些系统管理软件能够提升业务软件的可能性。除了这个之外,微软也推出了Windows Azure,比如说我们的9月份的时候,跟中国电信天翼平台进行合作,他们把门户网站的服务、灾备服务都建立在Windows Server上,这样一个非常整合的云的操作系统,对于客户来说,实际上带来了相当大的价值,能够把你所有的应用、所有的运维场景在线上和线下更好地管理起来。总体来说,云的管理系统能够帮助IT人员解决一系列操作场景。
微软怎么看大数据
刚刚谈了用户的场景以及对IT的挑战,微软在这个场景当中,怎样通过云的操作系统为广大的IT工作者带来便利。因为今天的话题更多跟大数据有关,下面跟大家稍微简单介绍一下微软怎么看大数据,我想谈三个方面。
一个方面,作为一个厂商来说,非常重要的是能够提供一系列技术,帮助我们的客户解决他的实际问题。我现场做一个抽样调查,在座的有多少是从纯互联网公司过来的?不多,很少。实际上绝大多数在座的都是从比较传统的行业过来的,然后在看这个大数据到底对我有什么样的影响力。在这个方面,微软非常关注,从一个数据的角度,实际上是没有主次,或者没有一个等级的,从公司这个角度来看数据管理的话,对公司来说是同样重要的,不光是公有云的数据、私有云的数据、混合云的数据。从微软这个角度出发,怎样能够用最现代化的一个管理软件,或者一种数据库的系统,能够帮助广大的IT者能够在不同的运维场景当中,把数据统一地管理起来,统一地使用起来,这是第一个,这是微软对于整个数据管理的判断。
第二类,就是微软在整个云计算领域当中,非常推崇以应用为核心,因为有的时候大家感觉云计算就是数据中心,我建了一个数据中心,我就是云计算。有的时候也感觉非常彷徨,这个云计算跟互联网到底有什么差别?微软的定义非常简单,非常重要的是去建立一大批在线的应用,能够把互联网的一些资源充分地调动起来。
在这个基础之上,就需要庞大的一些数据集,刚才英特尔的吴总也谈到了这样一个概念,就是怎样把市场上开放的、有偿的数据能够通过Azure这个平台更好的交给广大的应用开发者。中间这块我们已经收集了非常庞大的数据集,不一定是微软自己的,更多的可能是像交通或金融等等,这些数据对于应用开发者来说,实际上是起到非常重要的作用,那就是怎样能够在新的数据环境当中挖掘最新类型的应用。
第三个方面,微软也是非常关注,光有这样存储的能力,或者数据管理的能力,对我们来说只是一个起步,对于大数据最核心的还是它的分析能力,还是它的一些视觉化的能力。再更重要一点,就是说微软非常关注怎样让你现在已有的IT业务能够在新的场景中充分得到应用。
下面一个是对不同的使用者、不同数据的整合和支持。这一张对我来说更重要一些,因为刚刚我提到过公司的一个点是放在怎样通过一系列的手段,能够帮助我们现在已有技术的云马上上手。从公司这个角度,就非常期待怎样能够在已有的技术基础之上,帮助广大的IT开发者在这方面得到更多的推进。
还有第三个方面,实际上也是非常重要的,在大数据环境当中,因为有时候我感觉微软被误解了很多,感觉微软是一个比较封闭的操作环境。实际上我们在整个云的拓展当中,做了一系列跟云开元环境的接触,我做了很长时间的测算,HPC里面已经有蛮多的模块跟开元的环境有非常深刻的接触。在大数据时代,微软有专门的Hadoop在Windows Azure这个场景当中,我们有非常多的第三方针对Hadoop的应用工具,能够在这个平台上做到更好的分析、更好的视觉化的工作。
总体而言,微软对于大数据的战略就是所有的数据我们都要统一的做管理,我们需要把行业当中或者全球范围当中非常有价值的数据带给我们广大的应用开发者。我们会非常侧重在大数据的分析、在大数据的视觉方面,用最简单的手段、用最普及的一些应用,给广大的IT带来更好的使用。下面的时间也有很多微软现有的产品,跟大家做一个分享。
微软产品分享
其中有一个产品,我会稍微多讲一些,那就是PDW,在数据分析上我们看到了一些挑战,就是需要对Hadoop、对Map Reduce等数据语言和数据能力做很多新的学习,我不知道在座的各位大家对Map Reduce到底熟悉了多少,听了百度林总演讲的话,应该有更多更新的认识。对我来说,要花很多的精力,特别是广大传统企业当中不一定会有这样的技术人员。第二种方式,是把像在Hadoop里面的这些数据做一系列的分析。这两种方式都不是最优化的方式。
微软在整个PDW中引入了一个概念,叫PolyBase,它实际上起到Hadoop和传统数据库的桥梁作用。在这些基础之上,我们又在Excel这样庞大的工具里面也做了一系列工作,比如说通过一系列产品的组建,在Excel这样一个组件当中,能够让你非常直接、非常简单的去挖掘一些大数据,通过Excel里面非常强大的数据化的概念,把这些数据非常生动的淋漓尽致的展示在不同类型的消费者面前。
这个过程当中,微软也做了相当多的直接实践,有的时候说光说不练也没用,在这个方面我们也做了很多的实践。跟KLOUT,这是一家多媒体公司,我们做了很多的工作,因为是在观察全球15个搜索引擎,分析在这个上面每天放的一系列评论,给它面对的客户群体做定量的分析和报告。
在这个基础上,它遇到了我刚刚谈的一系列问题,就是说真正用Map Reduce很难,不容易学。然后它还是有一些问题,就是它的数据是多样化的,不光是一个非架构数据,怎么通过同样的分析数据,能够在多样的环境当中把分析带到一个高度,在这个过程中,微软跟KLOUT有了非常好的合作,跟他们的研发团队做了一系列的工作,对它所搜集的数据做了非常好的支持。
总结
稍微总结一下,微软对大数据的看法有三大类,所有数据都需要管理,在管理的过程中,我怎样让IT的开发者用同样的手段去管理数据。另外,我需要把全球更多的数据源带给广大的应用软件开发者。第三方面,就是通过很好的数据搜集,做视觉缓冲分析,在这个过程中,微软做一系列的支持,帮助广大的用户用现在已有的工具去挖掘大数据的一些潜力。
我非常希望、也非常期待在座的各位能够通过今天的一些介绍,更好地对大数据的一些重要性和实用性有更细的理解,也非常希望有很多合作的机会,跟大家一起探讨,能够把大数据真正用起来、真正实践起来。谢谢大家!