当前位置:首页 > 头条相关 > 正文

辨析大数据存储

2014-02-24 赛迪网-中国计算机报 编辑:郭涛

  大数据存储不是一类单独的产品,它有很多实现方式。EMC Isilon存储事业部总经理杨兰江概括说,大数据存储应该具有以下一些特性:海量数据存储能力,可轻松管理PB级乃至数十PB的存储容量;具有全局命名空间,所有应用可以看到统一的文件系统视图;支持标准接口,应用无需修改可直接运行,并提供API接口进行面向对象的管理;读写性能优异,聚合带宽高达数GB乃至数十GB;易于管理维护,无需中断业务即可轻松实现动态扩展;基于开放架构,可以运行于任何开放架构的硬件之上;具有多级数据冗余,支持硬件与软件冗余保护,数据具有高可靠性;采用多级存储备份,可灵活支持SSD、SAS、SATA和磁带库的统一管理。

  通过与中国用户的接触,杨兰江认为,当前中国用户最迫切需要了解的是大数据存储有哪些分类,而在大数据应用方面面临的最大障碍就是如何在众多平台中找到适合自己的解决方案。

  EMC针对不同的应用需求可以提供不同的解决方案:对于能源、媒体、生命科学、医疗影像、GIS、视频监控、HPC应用、某些归档应用等,EMC会首推以Isilon存储为核心的大数据存储解决方案;对于虚拟化以及具有很多小文件的应用,EMC将首推以VNX、XtremIO为核心的大数据存储解决方案;对于大数据分析一类的应用需求,EMC会综合考虑客户的具体需求,推荐Pivotal、Isilon等一体化的解决方案。在此,具体介绍一下EMC用于大数据的横向扩展NAS解决方案——EMC Isilon,其设计目标是简化对大数据存储基础架构的管理,为大数据提供灵活的可扩展平台,进一步提高大数据存储的效率,降低成本。

  EMC Isilon存储解决方案主要包括三部分:EMC Isilon平台节点和加速器,可从单个文件系统进行大数据存储,从而服务于 I/O 密集型应用程序、存储和近线归档;EMC Isilon基础架构软件是一个强大的工具,可帮助用户在大数据环境中保护数据、控制成本并优化存储资源和系统性能;EMC Isilon OneFS操作系统可在集群中跨节点智能地整合文件系统、卷管理器和数据保护功能。

  杨兰江表示,企业用户选择EMC Isilon的理由可以归纳为以下几点。第一,简化管理,增强易用性。与传统NAS相比,无论未来存储容量、性能增加到何种程度,EMC Isilon的安装、管理和扩展都会保持其简单性。第二,强大的可扩展性。EMC Isilon可以满足非结构化数据的存储和分析需求,单个文件系统和卷中每个集群的容量为18TB~15PB。第三,更高的处理效率,更低的成本。EMC Isilon在单个共享存储池中的利用率超过80%,而EMC Isilon SmartPools软件可进一步优化资源,提供自动存储分层,保证存储的高性能、经济性。第四,灵活的互操作性。EMC Isilon支持众多行业标准,简化工作流。它还提供了API可以向客户和ISV提供OneFS控制接口,提供Isilon集群的自动化、协调和资源调配能力。

  EMC Isilon大数据存储解决方案已经在医疗、制造、高校和科研机构中有了许多成功应用。

  方案点评

  EMC Isilon是一个强大但简单的横向扩展NAS方案,适用于希望投资数据管理而不是单纯存储的企业。当初,EMC将收购来的分布式数据仓库软件厂商Greenplum的软件与Isilon存储组合成了EMC最早的大数据解决方案。用户既可以分开选择Greenplum软件或Isilon存储,也可以选择由Greenplum软件和Isilon存储组成的一体机解决方案。现在,Greenplum软件虽然已归Pivotal公司,但EMC是Pivotal的经销商与合作伙伴,Greenplum与Isilon存储的组合方案并不会因此受到影响。

  HDS UCP:统一平台 应用优化

  HDS中国区解决方案与专业服务事业部总监陈戈认为,大数据存储应该是一个解决方案:“大数据解决方案是由基础架构的各部件组成的,包含数据存储、计算和分析,而存储是此架构中的一部分。”

  大数据的存储类型与传统的存储类型有一定区别:在大数据存储中,更多的应用是一次写、多次读,读得更多是大数据存储的一个特点,而在传统的数据存储中,读写是随机的,由于每个应用不同,其读写的比例也是随机的;大数据存储需要具有横向的可扩展性,并可支持多种接口、多种数据访问协议,便于不同数据进入这个大数据平台。

  谈到中国用户在大数据存储应用中最迫切的需求是什么,陈戈认为,中国用户最迫切的需求是如何逐步实现大数据应用,即用户从现有的模式如何过渡到大数据,如何更好地利用大数据进行经营分析。

  大数据的经典定义可以归纳为四个“V”,但企业不可能一步到位实现四个“V”,这需要一个循序渐进的过程。海量的、多种类型的数据是一次性全部载入到大数据中,还是通过现有的平台进行数据初选,再导入到大数据平台中,是两种不同的实现途径。“先通过现有平台进行数据初选,再导入到大数据平台,这种方式更适合于客户逐渐实现大数据,可以缩短用户实现大数据应用的时间。”陈戈表示,“大数据主要是非结构化数据。用户可以使用基于对象数据存储的HCP,利用其独特的元数据采集和智能工具,对非结构化文件数据进行管理,实现智能的自动化,这有助于对数据进行深度分析,帮助客户从单一系统中存储、共享、同步、保护、保存、分析和检索文件数据,减少垃圾数据,进而为大数据分析建立一个良好的基础。”

  谈到用户在大数据应用中遇到的主要障碍,陈戈表示,一方面,应用软件本身的智能程度是否能满足行业应用需求,应用软件是否已经成型,大数据人才是否具备等,是让大数据应用落地的关键;另一方面,如何抽取数据,放在大数据平台中进行相应的计算是另一个关键问题。

  HDS可为所有数据提供单一、可扩展的虚拟化集成平台。HDS推出了“三步”云战略,从基础架构、内容和信息三个层面帮助客户解决目前所遇到的问题。具体来看,通过“基础架构云”,HDS可以帮助客户进行虚拟化和集成管理,实现数据中心的整合;在第二层的“内容云”当中,HDS可以按需提供内容,更可以不受应用限制地进行数据搜索和集成;在第三层的“信息云”中,针对所有数据类型,HDS在其存储平台中融入了分析功能,使客户可以从数据信息中获取洞察力。

  HDS提供的UCP for SAP HANA集成了基于大量数据集的创新和内存分析技术,并提供实时的洞察力,从而使当前的信息驱动型企业可以加快其商业决策的速度。陈戈介绍说,UCP for SAP HANA解决方案结合了HDS刀片服务器技术、企业级存储系统和业内领先的网络组件,在这样一个集成的、高性能的硬件平台上可以快速交付SAP下一代内存计算技术。全球已有超过200家客户在使用HDS和SAP的大数据解决方案。

  方案点评

  其实,HDS的“三步”云战略也可以看成是其大数据战略。HDS借助以UCP为核心的大数据平台,可以帮助企业用户构建从基础架构到内容归档和搜索,直至信息提取和分析的全面、高效的大数据解决方案。HDS的“信息云”直接与大数据相关。UCP是一个集成了计算、存储与网络的一体化平台,它既可以提供像一体机一样的整合性、简单性,又可以提供灵活的选择,连接第三方的设备组件。HDS还通过与包括SAP在内的众多大数据分析类的合作伙伴合作,针对行业定制优质的大数据解决方案。

  HP StoreAll :快速部署 极速搜索

  中国惠普有限公司企业集团存储产品部存储架构师张楠向记者表示,大数据存储是一套解决方案,应该能够对大数据的Volume、Velocity、Variety和Value四个方面提供全面的支持。

  第一,大数据存储要支持海量级的数据存储,比如具有PB级的存储能力。第二,大数据存储要支持更高的存储速度,支持10Gb甚至更高的网络连接。第三,大数据存储要支持数据的多样性,如图片、文本、视频、音频等。第四,大数据最重要的是价值的体现,而为了实现这一点,存储本身应该具备快速、智能的数据检索能力。“在存储的最底层提供最直接、快捷的数据检索。这一过程简单说就是,将上层的数据挖掘工作下移,充分利用存储强大的处理能力和数据识别能力。”张楠举例说,“比如,在秒级的单位内对数据进行极速的搜索, 从几千万甚至上亿个文件中找到目标数据。”

  另外,模糊查询能力也是大数据存储不可缺少的功能。智能的模糊查询将为大数据平台提供更加便捷的存储服务能力,使得存储更像一台智能的高速计算设备。

  目前,很多中国用户在存储厂商的引导下,片面追求存储的大容量和高性能,而忽略了大数据存储本身应该提供的其他额外属性。中国用户在实施大数据的过程中经常遇到的障碍有以下两方面:第一,无法将存储与大数据平台进行对接;第二,无法充分利用大数据存储的价值,也很难将其运用到实际的业务中。张楠表示,究其原因,主要在于有些大数据存储产品没有开放的接口协议,或没有针对用户的大数据场景进行特别优化,也没有用户容易接受的易用的管理方式等。

  惠普在大数据方面可以提供软硬结合的解决方案。惠普在收购Autonomy公司之后,将其软件与惠普的硬件平台进行了整合, 形成了一套完整的大数据解决方案。张楠介绍说,在存储方面,惠普拥有像StoreAll这样的大数据存储平台。借助HP StoreAll硬件平台,用户除了可以实现海量数据的存储和高速数据访问以外,还能实现高级的数据检索功能,对特殊文件进行快速定位。同时,结合HP Autonomy软件的特性,惠普还引入了模糊查询、智能语义库等概念,可以帮助企业用户通过存储底层为上层业务带来所需的大数据业务价值。

  如今,闪存不仅在大数据领域,而且在Tier 1存储市场同样占据着十分重要的地位。对于大数据平台来说,闪存可用来提升存储的存取速度,降低I/O的响应时间等。针对那些I/O压力十分明确的大数据平台, SSD可以发挥其效果, 提升存储的整体性能。但是,SSD并不是万能的。因为大部分的数据都是非结构化的,而非结构化数据对I/O的响应要求远远没有对带宽的需求大,所以,让用户花数倍的价格购买SSD存储在目前来看还是比较困难的。从目前情况看,引入闪存的大数据解决方案还不是很普遍。

  方案点评

  惠普在大数据方面收购了两个软件公司Vertica与Autonomy,然后将它们的软件与原有的硬件平台进行整合,针对结构化和非结构化的数据都可以提供针对性的解决方案。惠普在将大数据软件与存储硬件结合上也进行了尝试,其中一个成功的例子就是HP StoreAll大数据存储平台。HP StoreAll具有以下特点:横向扩展,最大可以扩展到16TB;集成HP Autonomy搜索引擎,可以快速搜索,实现实时大数据的价值;内置对OpenStack的支持,可快速部署;支持文件和对象类型的数据存储。

  NetApp:统一架构 无限扩展

  如今,企业若想获得成功,就必须想方设法应对具有前所未有的复杂性、高性能的海量数据,并尽可能地管理这些数据,从中发掘更大的商业价值。

  对于国内用户来说,无论企业的规模和数据量大小如何,运用大数据的关键在于,企业是否把大数据作为一个真正的工具,去体现企业的差异化,从而提升竞争力。随着越来越智慧的企业信息化的发展,IT不再是束缚企业发展的瓶颈,而是真正地融入了企业自身的业务中。越来越多的公司将大数据成功地运用于企业的商业模式。例如,在欧美,很多企业已经着手将大量资源投放在大数据领域。反观国内,在金融领域,有为数不少的企业通过大数据的分析工具来分析金融的走势,实现风险管理,进行信用卡的追踪等。此外,像零售、制造、电信等行业也已在尝试利用大数据分析工具为企业营销和决策提供支撑。

  无论企业现在是否正在使用大数据工具,企业都应全面地考虑自身未来发展的需求,选择一个厂家的平台与之共同发展,这可以有效避免因数据和应用迁移带来的麻烦。

  在大数据方面,NetApp能够帮助企业实现数据管理,应对业务挑战的极限,将以数据为导向的洞察转化为有效行动。若想将数据转化为商机,仅仅提升管理能力是不够的,需要彻底转变数据和业务之间的联系模式。NetApp可以帮助企业用户持续管理数据,迅速把握意料之外的新商机,永久保存所有数据,并在灵活、开放的存储平台之上打造属于企业自己的大数据解决方案。

  NetApp提供了可高效处理、分析、管理和访问大规模数据的大数据解决方案。NetApp的解决方案组合可划分为分析、带宽和内容三个主要用例,这被称之为大数据的“ABC”基本要素。

  具体来看,分析(Analysis)是指针对极大数据集的高效分析。NetApp分析解决方案就是帮助用户深入了解和利用数字世界,将数据转化为高质量的信息,以及提供关于业务的更深入见解,从而帮助企业做出更好的决策。

  带宽(Bandwidth)是指适用于数据密集型工作负载的性能。此类解决方案着重于为速度非常快的工作负载提供更高的性能。高带宽应用包括高性能计算(能以极快的速度执行复杂的分析)、用于监控和任务规划的高性能视频流、媒体和娱乐领域中的视频剪辑和播放。

  内容(Content)是指无限的安全数据存储。此类解决方案着重于满足可扩展的安全数据存储需求。内容解决方案必须支持存储的无限扩展能力,以便企业可以根据需要存储任意多的数据,并能在需要时找到所需的数据。

  NetApp致力于通过一系列解决方案来提供高性能的运算和大数据的应用。2013年11月,NetApp再次更新了E系列家族产品,推出E2700和E5500。该系列产品采用可轻松扩展的设计,适用于要求99.999%的可靠性且稳定、高性能的工作负载。

  用户在采购大数据存储产品时,需要注意以下五个方面的问题:大数据存储必须具有向上扩展与向外扩展的能力;架构必须是针对工作负载进行优化的,具有实时处理能力;具有整合的数据保护功能;保证7×24小时运行不中断,可在线进行容量扩展,实施数据迁移等;可以实现服务的自动化。

  方案点评

  NetApp的技术优势集中体现在其统一存储平台上,从入门级产品到企业级产品,全部基于同一个体系架构和操作系统,不仅部署和使用方便,而且升级和扩展非常简单。当初,NetApp收购LSI Engenio,其中一个重要的原因就是为了大数据。2013年,NetApp不断更新E系列产品线,推出E2700和E5500等。E5500可以支持高IOPS混合工作负载和数据库、高性能文件系统和带宽密集型流等应用,可确保数据的高可用性、完整性和安全性。

  曙光XData:高度集成 贴近行业

  关于大数据存储,目前业界没有一个通用的定义。曙光信息产业股份有限公司总裁助理兼存储产品线产品总监惠润海从曙光大数据平台和解决方案角度,概括出大数据存储的主要特征。

  首先,大数据存储必须支持全类型数据, 包括结构化、半结构化和非结构数据,实现统一数据支持。

  其次,存储性能上,一方面,大数据存储要支持海量数据,并且要在保证数据可靠性的基础之上,实现容量与性能的线性扩展;另一方面,为了实现大数据的价值,批处理和实时处理两种措施都需要高性能的数据访问获取能力。

  最后,在系统达到一定规模之后,系统的易用性和可管理性也是不可或缺的。

  从应用角度来说,目前中国用户在大数据存储应用中最迫切的需求,是如何真正实现用户数据的价值,如何驱动业务发展,实现决策和运营。“从系统构建层面说,要实现数据高性价比的存储和管理,同时满足数据服务的相关需求。”惠润海表示。

  针对用户对大数据存储的需求, 曙光推出了像大数据一体机这样的全类型数据分析型产品,同时还基于该产品构建了基于行业的解决方案,以帮助用户实现大数据落地。

  “除此之外, 我们还提供了大数据统一数据中心解决方案, 涵盖了像主攻事物处理的DS900、DS800,以及针对文件存储的Parastor等存储产品。我们基于这些存储产品构建了大数据运营管理平台。”惠润海介绍说,“曙光的优势不仅在于可以提供全面的产品支撑,更重要的是能够提供数据生命周期过程服务支持。目前,我们提供的免费维保期限为5年。”

  曙光开发了针对不同行业和应用场景的大数据存储解决方案。以金融行业为例,目前国内四大行的应用系统每年产生的非结构化数据量已达到PB级,结构化数据也以百TB计。面对如此大量的数据,如何存储、管理、利用和盘活它们呢?惠润海认为,只有通过商业智能和高级分析应用解决方案才能将数据的价值最大程度地发挥出来。

  针对金融行业用户的需求,曙光开发的XData大数据解决方案利用优化的大数据处理技术,对文件管理、历史数据查询和数据分析类应用等进行深入研究,为数据爆炸式增长带来的海量数据存储及分析应用提供高可靠的解决方案。

  曙光金融行业XData大数据解决方案采用曙光自主研发的SN-MPP并行数据库,同时结合大数据处理事实标准Hadoop,并充分考虑了多方面的数据收集,加入ETL工具和连接驱动器,提供了类SQL的接口,还和现有金融业务系统进行对接。

  针对金融行业历史数据,XData大数据解决方案在方案设计上主要考虑了数据的安全性、历史数据高效导入、快速访问与分析报表。曙光金融行业大数据解决方案立足于基础平台建设,同时切实贴合金融行业用户需求,提供了优质的软硬一体化解决方案,为用户一揽子解决了部署、业务移植开发等技术难题,帮助用户跨过应用门槛。

  方案点评

  曙光不仅有像Parastor这样的大型并行处理存储系统,而且推出了业内流行的大数据一体机XData,给用户提供了多种选择。XData大数据一体机将软硬件性能最大化,同时降低了整体拥有成本,缩短了项目周期, 减少了项目风险。曙光针对不同行业的特定需求,推出了定制化的大数据解决方案,覆盖金融、电信、交通、医疗、教育、军工、卫星遥感等领域,通过自身大数据平台上丰富的接口,与各行业的应用相集成,提供高效和个性化的数据分析服务,挖掘数据价值。

大家都爱看
查看更多热点新闻