Hadoop用户需要企业级存储吗?存储与灾备

2011-05-17    来源:Stor-age.com    编辑:存储时代(编译)
NetApp与EMC已经正式宣布,其市场战舰将转航驶向Apache hadoop市场,该市场为众多Web 2.0部署提供后端。hadoop之所以对存储厂商极具吸引力,是因为一个典型的hadoop集群能够存储数百GB的数据

  NetApp与EMC已经正式宣布,其市场战舰将转航驶向Apache hadoop市场,该市场为众多Web 2.0部署提供后端。hadoop之所以对存储厂商极具吸引力,是因为一个典型的hadoop集群能够存储数百GB的数据,不过,笔者有些担忧的是,hadoop用户会需要企业级存储吗?

  EMC 的Greenplum部门推出了自有的hadoop 全开源社区版和增强型的企业版软件。这些软件将安装至Greenplum HD数据计算设备(Data Computing Appliance),该设备在JBOD配置中使用了SATA硬盘。

  NetApp提出了由SAS连接Engenio RAID阵列共享DAS的理念(Engenio RAID阵列是NetApp从LSI收购而来,现更名为E系列)。NetApp还推出了面向hadoop 集群的E2600低端阵列。

  Informatica CEO James Markarian在EMC Word大会上接受记者采访时表示:“越来越多的企业愿意采用像hadoop这样的新技术,当然,前提是可以从信任的厂商哪里购买。”

  不过,笔者个人对此并不那么乐观。要获得Web 2.0架构所带来的全部益处,企业可能必须为协调应用而采用整个Web 2.0工具包和设计模型。hadoop分布式文件系统(HDFS)设计用于将数据分布在多个节点,以便它在发生节点故障时不出现数据丢失,甚至是数据可用性失效的问题,仍能正常运作。这就使得Web 2.0网站运营者可利用具有低廉的SATA JBOD节点的大型集群储存数据,并以很低的每GB成本进行处理。

  不过,企业存储是基于一个“不容出现错误”的模型,而非“容错”模型。控制器、硬盘甚至是硬盘外部设备都是设计成具有较长的平均无故障时间。当然,这种可靠性也意味着,你为Vplex(或者是Clariion)付出的每GB成本要高于Google为MicroATX主板付出的成本。

  要理解各不相同的企业和Web 2.0模型,可以拿工科学校关于搬鸡蛋的比赛打个比方。该比赛规则要求参赛队伍必须从工程建筑的房顶将一打鸡蛋完好送至地面上煎鸡蛋的团队,然后按照成本、速度和创意来评比每个参赛队的表现。

  企业团队会组建一个升降机,然后将鸡蛋放在超市包裹中,再置于升降机,随着升降机慢慢达到地面。而hadoop团队会买三打鸡蛋和一卷泡泡纸,将每个鸡蛋用泡泡纸包裹起来,然后直接将其扔至地面。只要hadoop团队有三分之一的鸡蛋到达地面后仍为完好,就算完成任务,其成本仅需30到40美元,而企业团队仅在升降机部分就会花费数百美元的成本。

  最后,笔者表示,对于应用团队,hadoop有助于他们处理数据中心日益泛滥的数据。而对于存储团队,他们会着眼于该提议的低成本和低可靠性存储。他们可能会说:“应该继续我们的SAN,这能够提供企业应用需求的‘5个9’可靠性。”hadoop会在Symetrix存储上继续进行,虽然它运作良好,但企业并没获得预期的成本节省,反而需要支付比所需的存储高好几倍的成本。

1
3