程伯群:Hadoop与大数据应用已现端倪行业资讯
在2007到2008年间,国内很少人知道什么是Hadoop,此后至今的四五年里,Hadoop开源社区不断发展,社区人员也在逐步壮大,大数据越来越受到人们的关注。与大数据相关的硬件和软件开始浮出水面,前者例如Hadoop大数据分析一体机,后者则有基于Hadoop生态系统的分布式数据库,除此之外还有行业应用解决方案,如广告推荐系统。
大数据的应用组织则更是广泛,除了淘宝、腾讯、百度、华为这样的国内IT巨头,还有facebook、yahoo这样的国际企业,以及航空行业、电力行业、金融行业、咨询广告类的互联网企业,此外,政府机构也是采用大数据技术的一支重要力量。
程伯群表示,如今数据产生的速度实在是太海量了,以航天行业为例,一天的数据可以达到1P。一些小企业,每天的数据也可以达到1T。
在大数据分析产品采购上,传统企业比较倾向于像IBM、ORACLE这种市场化比较成熟的公司,大型国企一般也是同样选择。而至于数据成本,程先生表示据他所知,IMB的扩1个数据是4万。
程先生表示,由于Hadoop这项技术比较廉价,因此很多外围的文件系统处理工具都是免费的,这成为一种竞争优势,“我们的系统可以跟他们进行无缝对接”,相比较而言,使用ORACLE则需要将整个系统改成商用系统。
在一些技术上,国内企业仍然需要向国外企业学习,程先生就指出“在对接的产品系列上,ORACLE的一套DATE产品系列是两条线,我们有专门的团队在跟踪传统的大厂商,学习他们好的经验。”
在大数据应用的硬件设备上,“ORACLE的大数据机还没有在国内销售。他们以前设计的时候,可以把一些文档放出来,我们没有办法对比性能。从结构来讲,他们提供的很简单,是基于KVN的。从数据处理结构来说,他们分ORACLE数据分析机、数据查询机,数据分析完了以后把数据导入查询机。涉及到大规模的数据迁移,肯定不会快,如果不是一个库里做所有事情的话。ORACLE的传统产品是大机群的,比较好用,但是很贵。”
程先生说,相对于政府机构通常采用软硬一体机,互联网企业则更倾向于用软件,而作为大数据服务提供商则是“帮他们建设这个系统并负责运维”,这可以让企业省出很多开发人员。“很多互联网公司的业务非常繁忙,他们的技术人员都是不足的,我们帮他们做底层系统的运维,也帮他们节省成本。”
关于Hadoop的商业化模式,一个分析师打过一个比方,他说水是免费的,但为什么会有人买瓶装水?他提到了关于商业化模式的问题。
“主要是瓶装水容易取得,而且质量更高。现在大部分开源软件都是散开的,一个社区一个社区的进行维护。它对运维和数据访问比较原始,很多东西不好用。所以开源软件的商用化,有很多公司在做,也有市场。”程先生说。Hadoop大数据技术大会于上周五在北京举行,会议期间我们采访了普泽天玑公司的副总裁程伯群先生,该公司的主要业务是Hadoop与大数据技术,程先生就大数据应用的现状与方法做了一些探讨。
在2007到2008年间,国内很少人知道什么是Hadoop,此后至今的四五年里,Hadoop开源社区不断发展,社区人员也在逐步壮大,大数据越来越受到人们的关注。与大数据相关的硬件和软件开始浮出水面,前者例如Hadoop大数据分析一体机,后者则有基于Hadoop生态系统的分布式数据库,除此之外还有行业应用解决方案,如广告推荐系统。
大数据的应用组织则更是广泛,除了淘宝、腾讯、百度、华为这样的国内IT巨头,还有facebook、yahoo这样的国际企业,以及航空行业、电力行业、金融行业、咨询广告类的互联网企业,此外,政府机构也是采用大数据技术的一支重要力量。
程伯群表示,如今数据产生的速度实在是太海量了,以航天行业为例,一天的数据可以达到1P。一些小企业,每天的数据也可以达到1T。
在大数据分析产品采购上,传统企业比较倾向于像IBM、ORACLE这种市场化比较成熟的公司,大型国企一般也是同样选择。而至于数据成本,程先生表示据他所知,IMB的扩1个数据是4万。
程先生表示,由于Hadoop这项技术比较廉价,因此很多外围的文件系统处理工具都是免费的,这成为一种竞争优势,“我们的系统可以跟他们进行无缝对接”,相比较而言,使用ORACLE则需要将整个系统改成商用系统。
在一些技术上,国内企业仍然需要向国外企业学习,程先生就指出“在对接的产品系列上,ORACLE的一套DATE产品系列是两条线,我们有专门的团队在跟踪传统的大厂商,学习他们好的经验。”
在大数据应用的硬件设备上,“ORACLE的大数据机还没有在国内销售。他们以前设计的时候,可以把一些文档放出来,我们没有办法对比性能。从结构来讲,他们提供的很简单,是基于KVN的。从数据处理结构来说,他们分ORACLE数据分析机、数据查询机,数据分析完了以后把数据导入查询机。涉及到大规模的数据迁移,肯定不会快,如果不是一个库里做所有事情的话。ORACLE的传统产品是大机群的,比较好用,但是很贵。”
程先生说,相对于政府机构通常采用软硬一体机,互联网企业则更倾向于用软件,而作为大数据服务提供商则是“帮他们建设这个系统并负责运维”,这可以让企业省出很多开发人员。“很多互联网公司的业务非常繁忙,他们的技术人员都是不足的,我们帮他们做底层系统的运维,也帮他们节省成本。”
关于Hadoop的商业化模式,一个分析师打过一个比方,他说水是免费的,但为什么会有人买瓶装水?他提到了关于商业化模式的问题。
“主要是瓶装水容易取得,而且质量更高。现在大部分开源软件都是散开的,一个社区一个社区的进行维护。它对运维和数据访问比较原始,很多东西不好用。所以开源软件的商用化,有很多公司在做,也有市场。”程先生说。