大数据分析的8大趋势头条相关

2014-11-24    来源:机房360    编辑:litao984lt
大数据技术和实践方案发展得十分迅猛。本文中将为您介绍您需要知道的关于如何在大数据分析领域保持领先的一些趋势。

  Bill Loconzolo是Intuit数据工程副总裁,已然彻底融入数据湖了。而Smarter Remarketer的首席数据科学家Dean Abbott则为云做了一个beeline。大数据和数据分析的领先前沿,包括存储了大量原生格式的数据的数据湖,当然,还包括云计算,都是上述两位所在企业的发展目标。尽管现如今的技术还远未成熟,但一味的等待绝对不应该是企业所应该选取的方案。

  “现实状况是,工具仍然是新兴的,而Hadoop平台的承诺也远未达到企业用户所需要的水平。”Loconzolo说。但大数据和数据分析学科的发展如此迅速,企业需要积极的采用这些新兴技术,否则就会有被淘汰的风险。“在过去,新兴技术可能需要多年的时间才能成熟,”他说。“现在,由于市场的反复驱动,解决方案可能在几个月或几周的时间内就能发展起来。”所以,顶端的新兴技术和趋势,应该在被列入您企业的观察的名单中,或被列入您企业实验室的测试名单中。Computerworld网站采访了一些企业的IT领导人,顾问和行业有影响力的分析师。如下,是他们列出的关于企业需要关注的大数据分析趋势的名单。

  1、在云中的大数据分析

  Hadoop,处理大数据集的一个框架和工具集,最初被设计为工作在物理机器集群。这已然发生了改变。“现在越来越多的技术可用于在云处理数据,”Forrester Research分析师布瑞恩霍普金斯表示。这方面的例子包括亚马逊的Redshift托管BI数据仓库,谷歌的BigQuery数据分析服务,IBM的Bluemix 云平台和亚马逊的Kinesis数据处理服务。“大数据的未来将是企业内部部署与云的混合。”他说。

  Smarter Remarketer是一家基于SaaS的零售分析,细分和营销服务供应商,该公司最近从一个企业内部的Hadoop和MongoDB数据库基础设施迁移到亚马逊的Redshift,一款基于云的数据仓库。这家总部位于印第安纳波利斯的公司收集在线和传统实体零售销售和客户信息的统计数据,以及实时的消费行为数据,并分析这些信息帮助零售商建立有针对性的向消费者发放促销信息。

  Abbott说,对于Smart Remarketer的数据需求而言,Redshift更具成本效益,特别是因为其具有对于结构化数据广泛的报告的能力。作为一款托管服务产品,其具备可扩展性和相对容易使用的特性。“扩展虚拟机要比我们购买物理机来自行实施管理便宜得多,”他说。

  另一方面,加利福尼亚州的Intuit正小心翼翼地朝着云分析迈进,因为他们需要一个安全,稳定和可审计的环境。现在,这家金融软件公司将其全部数据都存储在其私有分析云。“我们正在与亚马逊和Cloudera合作,以研究如何能够跨越公共-私有云两个领域同时保证云分析的高可用性和安全,但迄今仍没有人解决这个问题。”Loconzolo说。然而,对于像Intuit这样的公司而言,迁移到云已成为必然。“这会使我们达到一个临界点,即将所有的数据都迁移到一个私有云,成本会非常高昂。”他说。

  2、Hadoop:新的企业数据操作系统

  分布的分析框架,如MapReduce,分布式资源管理正在逐渐将Hadoop转变为通用的数据操作系统,霍普金斯说。有了这些系统,“你可以将其插到Hadoop作为分布式文件存储系统执行许多不同的数据处理和分析操作。”

  这对企业而言意味着什么?鉴于SQL,MapReduce,内存,数据流处理,图形分析和其他类型的工作负载均能够运行在具有足够性能的Hadoop,更多的企业将使用Hadoop作为企业数据hub。“能够运行许多不同种类的查询和数据操作,Hadoop将成为一个低成本,通用的实现数据分析的工具,”霍普金斯说。

  Intuit公司已经建立起其Hadoop基础。“我们的策略是利用Hadoop分布式文件系统,与MapReduce和Hadoop通力合作,作为一个长期的战略,使所有类型的人员与产品都能够交互作用。”Loconzolo说。

  3、大数据湖

  传统的数据库理论告诉我们,你需要在任何数据进入之前都对数据集进行设计。而数据湖,也被称为企业数据湖或企业数据hub,将可以不必遵循该模型了,普华永道美国咨询业务首席技术专家兼技术总监Chris Curran表示。“我们只需要把这些数据源放到一个大的Hadoop库,而无需提前设计一个数据模型。”他说。相反,其为人们提供了分析数据的工具,以及关于什么数据存在于数据湖的一个高层次的定义。“人们能够建立起关于数据的视图。这是一个很大的增量,能够建设一个大型数据库的有机模式,”Curran说。另一方面,使用该技术的人必须具备高度熟练的技能。

  作为Intuit分析云的一部分,Intuit公司拥有一个数据湖,包括用户点击数据和企业和第三方的数据,Loconzolo说,但重点是使相关人员能够有效地使用这些工具。Loconzolo说,关于在Hadoop中构建数据湖,他的其中一个担心的问题是平台并非真的是企业就绪的。“我们希望其能够具备传统的企业数据库已经具备的相关功能,包括有监测访问控制,加密功能,保证数据安全和从数据源到目的地跟踪数据的功能。”他说。

  4、更多的预测分析

  利用大数据,分析师不仅有更多的能够方便他们的数据工作,而且具备了更多的处理能力来处理大量的多属性的记录,霍普金斯说。传统的机器学习使用基于一个总的数据集的样本来进行统计分析。“现在,分析师们具备了每秒处理非常大的数字记录和数据属性的能力”,增加了可预测的能力,他说。

  大数据和计算能力的结合也让分析师得以能够探索每天的新的行为数据,如网站访问或访客的位置分布。霍普金斯将其称为“稀疏的数据”因为要从中找到您企业所感兴趣的东西,必须通过很多彼此之间并无关联的数据。“试图使用传统的机器学习算法来分析这种类型的数据是不可能的。现在我们可以以成本低廉的方式解决这一计算能力的问题。”他说。“当计算速度和内存不再是关键问题时,你的问题将变得完全不同。”Abbott说。“现在,你可以通过解析逆冲的巨大的计算资源的问题来找到哪些变量是最好的。这真的是游戏规则的一大改变。”

  “为了实现实时分析和预测模型得自相同的Hadoop核心,也就是我们感兴趣的所在。”Loconzolo说。该问题已然被加速了,利用Hadoop长达20倍的时间去回答比较成熟的技术问题。所以Intuit目前正在测试Apache Spark,这是一款大型的数据处理引擎,具有与SQL相关的查询工具,Spark SQL。“Spark具有快速交互查询以及图形服务和数据流处理能力。其将数据保持在Hadoop中,但却能够为我们提供足够的性能,以弥补差距。” Loconzolo说。

  5、Hadoop上的SQL:更快,更好

  如果您是一名足够聪明的编码者和数学专家,你可以把数据存在Hadoop并进行任何分析。这正是Hadoop所带来的承诺, Gartner的分析师Mark Beyer表示。“我需要有人将其变成一种我所熟悉的格式和语言结构,”他说。这就是Hadoop SQL产品应运而生的原因了,虽然任何我们所熟悉的语言均可以实现,Beyer表示。支持类似于SQL查询的工具让那些已经了解SQL的商业用户得以能够在这些数据上应用类似的技术。Hadoop上的SQL “为企业打开了通往Hadoop的大门”霍普金斯说,因为企业不需要进行投资于那些可以用Java,JavaScript和Python编写脚本的高端数据科学家和业务分析师了——而这些数据Hadoop用户传统上都是需要的。

  这些工具其实并没有什么新的东西。Apache Hive提供了一个结构化的结构,类SQL的查询语言早已实现一段时间了。但来自Cloudera、Pivotal Software、IBM和其他供应商的商业化的方案并不仅提供更高的性能,当然这些商业化的方案也在变得越来越快了。这使得技术非常适合“迭代分析”,当一位分析师提出一个问题时,就会立即得到一个答案,然后提出另一个问题。这种类型的工作通常需要建立一个数据仓库。“Hadoop上的SQL并非要取代数据仓库,至少不会很快取代,”霍普金斯说,“但它确实提供了能够替代更昂贵的软件和设备的用于分析某些类型数据的方案。”

  6、更多,更好的NoSQL

  传统的基于SQL关系数据库的替代品,称为NoSQL( “不仅是SQL数据库”的简称),其正在被作为工具迅速普及,用于分析应用程序的特定类型,而且这一势头还将继续增长,Curran说。他估计目前已经有15到20款开源的NoSQL数据库存在了,每一款都有自己的专业化方向。例如,一款具备图形数据库性能的NoSQL产品,如ArangoDB提供了较之关系数据库更快,更直接的方式分析客户或销售人员之间的关系网络。“这些数据库中已经存在了一段时间了,因为其的确满足了一类人的分析所需,”他说。普华永道(PwC)在新兴市场的一个客户已经在商店货架设置了传感器,以监测有什么产品,客户处理需要多长时间,消费者在某些特定货架前会停留多久时间。“这些传感器的数据流将成倍增长,Curran说。“一款NoSQL键值对数据库,如Redis是这方面专用的,因为其高性能,和轻便性。”

  7、深入学习

  深入学习,一套基于机器学习的网络技术,其仍在不断发展,但已然表现出了极大的解决业务问题方面的潜力,霍普金斯说。“深入学习. . .使计算机能够识别大量对于非结构化和二进制数据感兴趣的项目,并推断出的关系,而不需要特定的模型或编程指令,”他说。

  关于深入学习算法研究数据的一个例子来自维基百科了解其自己在加利福尼亚和德克萨斯两州的数据状况。“不需要建模以理解一个州与国家的概念,而在老式的机器学习和新兴的深入学习方法之见也存在很大区别。”霍普金斯说。

  “大数据将利用先进的分析技术,如深入学习,以分类处理非结构化的数据,来以我们才刚刚开始理解的方式帮助我们。”霍普金斯说。例如,其可以用于识别不同种类的数据,如视频中的形状,颜色和对象,甚至在一幅图像中的一只猫,这是谷歌在2012所建立的一个著名的网络。“这种参与理念的认知,先进的分析,意味着其将成为未来的一个重要的趋势,”霍普金斯说。

  8、内存分析

  通过正确的设置使用内存数据库以快速分析处理正越来越受欢迎,而且是非常有益的,Beyer说。事实上,很多企业已经利用混合交易/分析处理(HTAP)允许交易和分析处理驻留在相同的内存数据库中。

  但围绕着HTAP存在着许多过度的渲染,而企业对其也一直过度使用了,Beyer说。对于那些用户需要以同样的方式在白天去查看很多次的相同数据的系统,在数据中并没有显著的变化,这方面的内存无疑是浪费钱。

  虽然你可以比HTAP更快的执行分析,所有的交易都必须驻留在同一数据库中。Beyer说,但问题在于今天的大多数分析工作是把来自许多不同的系统的交易整合在一起。“只是把这些数据放在一个数据库,可以追溯到这个证伪:如果你想使用HTAP来执行您所有的分析,这需要你所有的交易数据都放在一个地方,”他说。“你依然需要整合不同的数据。”

  此外,将内存中的数据库整合意味着还有另一种产品需要管理,确保安全,并找出如何整合和实现规模化。

  对于Intuit,使用了Spark已经减少了他们使用内存数据库的一些冲动。“如果我们能利用Spark基础设施解决70%的问题,那么使用一个内存系统则可以解决100%的问题,我们会在我们的分析云处理这70%的问题。”Loconzolo说。“所以我们将利用其原型,看看其是否准备好,并在现在暂停在存储系统内部。”

  提前一步

  鉴于围绕着大数据和分析有着如此众多的新兴趋势,IT企业需要创造条件,以便让分析师和科学家能够进行数据实验。“你企业需要一种方法来评估原型,并最终将这些技术整合进您企业的业务。” Curran说。

  “IT管理者和实施执行人员不能以技术不成熟为借口,而停止试验。”Beyer说。最初,只有少数人——最熟练的分析师和数据科学家需要进行实验。然后那些高级用户和IT人员也应该共同加入进来,以决定何时为企业的其他部门交付提供新的资源。IT部门不应该试图控制那些想要积极加快实验脚步的分析师。相反,Beyer说,他们需要与分析师通力合作,加快研制这些新的高性能的工具的步伐。”

1
3