数据集或将成为大数据新浪潮
2013-09-24 机房360 编辑:佚名
大数据无疑是当前相当火热的话题,但最近似乎发生了一些变化,人们所关注的焦点似乎正发生着转变,正从数据分析迈向数据集成。
META集团分析师DougLaney认为,大数据有三维属性:容量(volume)、速度(volocity)以及类型(variety)。在此之后,人们又添加了新的属性,即精确性(veracity),缺乏精确性的数据毫无意义与价值性。然而,尽管供应商们尝试各种手段在这热门潮流中捞金,关于大数据的定义却仍然模糊。所以,我们不妨再给它一条“V”描述,也就是“Vague”。
尽管关于大数据的炒作不断,其真实性却是不可置疑的。像开源软件Apache Hadoop分布式文件系统越来越为人们接受。据Hadoop数据分析公司Karmasphere的调查,26%机构已经开始使用它,还有45%的机构正在认真考虑。另一项由Tachaisle在市场中端企业间进行的调查发现,18%的机构正投资大数据,还有25%的机构正计划投资。
预计对于大数据的年投入将于2016年超过36亿美元,这仅仅是来自中端企业的数据。不管真实与否,不可否认的是已经有部分公司认为大数据能成为数据分析有效的、低成本的解决方案。正如数据整合公司Informatica的首席执行官所言,许多大数据公司“正在大力宣传他们自己的技术”。
从分析师的角度看世界,你发现世界很复杂。现在我们有6种分析方法。从传统的数据仓库中获取数据,如Teradata;或从专用分析数据库获取数据,如MCPivotal,Greenplum;或从内存数据库,如SAPHANA获取数据;或从Hadoop获取数据,这是目前最热门的数据技术;此外,还可以从云网服务,如AmazonRedshift。每一个供应商都在竭力宣传自己的优势,让人们相信他们能够胜任所有任务。
但是,数据分析仅仅是大数据项目中的一部分。若要在Hadoop中分析数据,必须将数据载入Hadoop中。若要让那些数据与生产数据同步,又必须将数据从Hadoop中转移另一个系统。忽视了这一关键点,对于任何企业而言都是极不明智的。未来,人们希望集成来自多渠道的数据,并希望在不同的系统中对这些数据进行分析。过去,我们称这种做法为ETL-即抽取(extract),转换(transform)与加载(load)。预计在不久的将来,BDI将成为大数据领域中的新兴热点。
META集团分析师DougLaney认为,大数据有三维属性:容量(volume)、速度(volocity)以及类型(variety)。在此之后,人们又添加了新的属性,即精确性(veracity),缺乏精确性的数据毫无意义与价值性。然而,尽管供应商们尝试各种手段在这热门潮流中捞金,关于大数据的定义却仍然模糊。所以,我们不妨再给它一条“V”描述,也就是“Vague”。
尽管关于大数据的炒作不断,其真实性却是不可置疑的。像开源软件Apache Hadoop分布式文件系统越来越为人们接受。据Hadoop数据分析公司Karmasphere的调查,26%机构已经开始使用它,还有45%的机构正在认真考虑。另一项由Tachaisle在市场中端企业间进行的调查发现,18%的机构正投资大数据,还有25%的机构正计划投资。
预计对于大数据的年投入将于2016年超过36亿美元,这仅仅是来自中端企业的数据。不管真实与否,不可否认的是已经有部分公司认为大数据能成为数据分析有效的、低成本的解决方案。正如数据整合公司Informatica的首席执行官所言,许多大数据公司“正在大力宣传他们自己的技术”。
从分析师的角度看世界,你发现世界很复杂。现在我们有6种分析方法。从传统的数据仓库中获取数据,如Teradata;或从专用分析数据库获取数据,如MCPivotal,Greenplum;或从内存数据库,如SAPHANA获取数据;或从Hadoop获取数据,这是目前最热门的数据技术;此外,还可以从云网服务,如AmazonRedshift。每一个供应商都在竭力宣传自己的优势,让人们相信他们能够胜任所有任务。
但是,数据分析仅仅是大数据项目中的一部分。若要在Hadoop中分析数据,必须将数据载入Hadoop中。若要让那些数据与生产数据同步,又必须将数据从Hadoop中转移另一个系统。忽视了这一关键点,对于任何企业而言都是极不明智的。未来,人们希望集成来自多渠道的数据,并希望在不同的系统中对这些数据进行分析。过去,我们称这种做法为ETL-即抽取(extract),转换(transform)与加载(load)。预计在不久的将来,BDI将成为大数据领域中的新兴热点。