大数据自动化分析和开源行业资讯

2014-08-19    来源:TechTarget中国    编辑:张培颖
现在Apache的开源Storm可能是大数据自动化分析最大的话题了,Storm是一个分布式实时计算系统,按照Storm作者的说法,Storm对于实时计算的意义类似于hadoop对于批处理的意义。

  现在Apache的开源Storm可能是大数据自动化分析最大的话题了,Storm是一个分布式实时计算系统,按照Storm作者的说法,Storm对于实时计算的意义类似于hadoop对于批处理的意义。在2011年Storm开源之前,Hadoop的大红大紫,让整个业界对于大数据的热情高涨。Hadoop的高吞吐,海量数据处理的能力使得人们可以方便地处理海量数据。但是,Hadoop的缺点也和它的优点同样鲜明——延迟大、响应缓慢、运维复杂。不过根据Forrester最近的调查,我们发现商用厂商在开源Storm也有相关的产品和服务提供。

  Storm被广泛应用于实时分析,在线机器学习,持续计算、分布式远程调用等领域。目前Storm已经为一些高调的企业所应用,比如Weather Channel、Spotify和Twitter,但是Forrester的调查中发现,即便如此,这个极为技术性的平台却缺乏更高级的工具以及自动化运行器,而这些则由需要厂商的产品平台来提供。

  在七月份的大数据自动化分析平台报告中,Forrester回顾了主要的七个平台:IBM、Informatica、SAP、Software AG、SQLstream、TIBCO和Vitria,总共评估的项目多达50条,包括业务应用和平台集成、数据源、开发工具、执行能力、合作伙伴以及价格等。

  如果大数据自动化分析这样的词汇让人感到过于前沿化的话,也需要注意的是一些实时的数据可能会成就或者破坏业务。比如,供应链领导商希望利用实时数据响应制造、交付或者召回问题。对于那些依赖市场数据进行决策制定的产业也很有用。

  企业如果要自己制定一个实时的计算系统,要解决很多问题。主要有五方面的问题,低延迟,既然是实时计算系统,延迟一定要低。另外就是高性能,性能如果不够高的话对于机器就是一种浪费。再者是要维持分布式特性,系统都是为应用场景而生的,如果你的应用场景、你的数据和计算单机就能搞定,那么不用考虑这些复杂的问题了。我们所说的是单机搞不定的情况。可扩展。伴随着业务的发展,企业的数据量、计算量可能会越来越大,所以这个系统的可扩展性必须能够保证。最后还要考虑容错的问题,这是分布式系统中通用问题。一个节点不工作了不能影响整体的应用。

  物联网、移动化和一些潜在的事件数据也都可能为这些工具创造更多的需求。这份报告中也提供了一些实际应用大数据自动化分析的公司案例,同时将这些部署主要分成三个比较宽泛的领域:实时可视化业务、检测紧急情况以及自动化瞬时行动。毫无疑问在这份报告中,领导的厂商主要是IBM、Informatica、SAP等,他们的解决方案更为成熟。

  这份报告也指出初创公司,比如DataTorrent和Continuuity的代号为jetStream的产品也已经加入到自动化分析的市场中,但是二者都旨在Hadoop内部运行。此外IBM也提供了自己对于这个领域的评估。

1
3