多方观点:看海量存储生态圈何以稳固?
2014-06-20 ZDNet 编辑:刘杰
“数据大爆炸”正对大容量存储技术提出越来越迫切的需求,“海量存储”(Massive Storage)的孕育而生直击大数据和云存储场景,分布式、低成本、易管理是其核心的设计原则,但是在此基础上,海量存储更需要的是分布式软件、KV标准、IP盘和应用缺一不可的生态系统。
摩尔定律的发展下,大多数器件的能力已经得到跨越式发展,计算和存储之间传统的SAS/SATA互联方式已经越来越不能满足弹性伸缩的要求,基于全IP互联架构可以统一数据中心网络,实现计算和存储解耦伸缩能力,使得海量存储系统更容易扩展、管理维护更简单、设备采购成本降低。
其中,支持Key/Value接口和IP协议的驱动器单元是横向扩展存储系统的一个重要趋势。IP接口的好处在于它使得主机和硬盘之间的互联更加简单。IP接口的好处在于可以摈弃复杂的SATA/SAS协议栈, 大幅增强系统的scale-out能力,同时可以充分利用成熟的IP领域的各种技术积累,在故障恢复和收敛上相比于传统的SATA/SAS都会有大幅提升。
在2011年华为优先捕捉到IP接口的硬盘带给存储带来的价值,优先推出了基于IP接口的智能硬盘。 该智能硬盘通过扣板实现IP到SATA/SAS转换, 使得用户可以基于IP接口进行系统设计。
希捷在与华为的合作过程中,也渐渐意识到了IP接口硬盘对于存储的重要性。2013年希捷推出了基于IP接口的Kinetic硬盘,并进行了量产,从硬盘产品形态上彻底颠覆了已使用20余年的SCSI接口与协议标准。
希捷认为,新型IP驱动器将在未来数据中心存储领域,尤其是海量存储领域发挥巨大的作用。此前希捷已经推出代号为Kinetic的IP驱动器,从基于SCSI的SAS/SATA接口时转向转而采用更加简单通用的IP以太网技术来和主机之间传递数据。
而HGST带来的为OpenStack用户开发的以太网接口驱动器,强调不需要针对特定API及架构作出软件修改的前提下,可直接运行OpenStack对象存储以及Ceph与红帽Gluster等。
HGST的以太网驱动器整合了CPU与内存资源,运行Linux系统并能够与现有数据中心基础设施相对接,让应用贴近存储资源层,工作负载直接分布于硬盘驱动器以及闪存驱动器之上,用于下一代大数据处理、分析、搜索查询以及其它需要长期保留活动数据的应用。
在此基础上,来自HGST母公司西部数据(WD)的代表强调,以太网存储驱动器是应对“数字宇宙”的利器,HGST以太网驱动器支撑下西数将围绕着灵活的硬件架构、多样化的软件架构以及附件上大做文章,“多生态系统需要更好的可扩展性、可靠性和经济性,基于以太网的存储设备有完成这个目标的潜力”。
硬盘三巨头之一的东芝则提出,IP驱动器是一个新的市场机会,但是相关标准还不够明晰,基于IP的任何组合方式都是有可能的,目前东芝的策略是将IP驱动器视为一种一体化的硬件,体现在自己面向流媒体服务器的NPEngine硬件引擎上,该引擎可直接将视频内容从SSD分发到IP网络,不需要访问服务器的CPU或内存资源。
东芝认为,IP驱动器的市场要成长就需要构建一套新的生态系统,包括API定义、兼容性测试和连续性等等。“东芝已经为IP驱动器做好了准备,既有NPEngine这样软件定义的方式,又有基于HDD和SSD的混合方式。”
毫无疑问,IP驱动器在大数据时代的出现,能让用户的存储系统部署方式更加灵活,通过IP技术几乎可以实现接近无限的扩展(即现有的EB级存储),不过IP驱动器的持续发展与能否得到用户认可,还需要市场的检验,必需存储驱动器厂商和上游芯片厂商以及系统厂商同时发力。
一众存储驱动器厂商的捧场,为存储系统厂商打造海量存储打下关键基础。此前华为已经发布了基于Key/Value访问机制的EB级存储系统OceanStor UDS海量存储系统,现在支持多家厂商的IP化硬盘。
UDS采用基于ARM架构的低功耗、高密度存储节点,通过对象存储技术、P2P分布式存储引擎技术、集群应用技术等构建海量对象存储基础架构平台,对外提供S3、NFS、CIFS等多种访问接口,以满足不同业务的适配需求。基于UDS可以构建多种解决方案,如海量资源池,网盘,云备份,集中备份等。
来自华为的代表认为,IP化后的海量存储通过采用高性价比的以太网互联,以及提供灵活高效的接口,支撑了系统的全IP化组网、简化分布式软件设计,是海量存储领域未来极具竞争力的新技术趋势。
而制定和推动标准的第三方组织也在海量存储生态圈构建以长期发展中扮演着重要角色。来自SNIA由此引出了CDMI(Cloud Data Management Interface)规范,这项标准利用元数据来体现“数据要求”,在兼容性方面不断扩大以符合新的数据要求和使用实例。它主要针对所谓“后文件系统数据存储”例如公有、私有和混合存储云的趋势。
自2010年正式公布以来,这项标准陆续被云存储厂商、电子科学和学术团体所采用。在小型私有云中CDMI被部署为NAS设备上的一个层,CDMI容器和对象被映射到加载的文件系统目录和文件中,而且CDMI还可以被用于配置通过CDMI数据路径不可用的NAS存储。
除了云之外,CDMI还可以运用于另一个重要的场景,那就是海量存储这样的大规模环境中,在这种情况下横向并行的文件系统客户端之间是负载均衡的,具一组CDMI数据路径服务器提供存储容量,连接一台通用的CDMI元数据服务器。
海量存储是否经得住考验,最终用户说了算。来自凤凰卫视和中国电信的代表分享了自身对海量存储的看法和需求,并从用户角度提出了中肯的建议。“除了价格之外,终端用户十分看重这项技术是否成熟,光纤通道拥有十几年的历史,而IP盘上市仅一年时间,厂商是否能够长期持续地提供支持?”
据悉,凤凰卫视多年前主要采用LTO 6磁带库作为归档介质,曾经有超过2500个LTO 6磁带库用于保存大约3PB数据,每年新增数据量保持在400TB左右,所有库存的媒体数据都是永久性归档并且随机恢复的。
但是,磁带库将无法满足未来15年凤凰卫视的发展需求。凤凰卫视认为,磁带无法有效地在数据归档和数据恢复之间有效分配资源,由于其自身机械特点,必须对所有类型的媒体数据进行连续访问,而且磁带库采用光纤通道接口,会给网络架构带来更高的复杂性,日常需要投入大量的维护精力。更严重的问题是,如果需要找回的内容越少,那么这种介质资产的价值就越小。
他认为,大规模磁盘存储与磁带库相比,具有访问快、访问效率高、接口简化以及维护简化的优点。具体来说,大规模磁盘存储对“全媒体”内容是随机访问的,并且采用原生的IP接口,维护流程也实现了标准化。
(摄于6月12日在北京举行的凤凰卫视与华为全媒体云数据中心峰会)
因此,凤凰卫视从2012年开始为部署磁盘归档解决方案制定计划,在2013年第三季度完成了验证性测试,接下来分别部署了海量存储系统和相关应用。在过去5个月中,凤凰卫视总共归档了460TB数据,计划下一步集成凤凰卫视的云MAM平台,甚至是承担来自香港总部和全球分支机构的归档数据,从香港总部数据中心将数据灾备到远程数据中心,实现从私有云存储到面向媒资行业订购用户的公有云存储。
而作为中国领军的运营商之一,中国电信也在力拓互联网和大数据等业务的时候产生了对海量存储的需求。与凤凰卫视不同的是,中国电信在存储方面的需求更为复杂,存储类型覆盖块存储、文件存储以及对象存储,业务部署周期长且不能满足业务需要,存储资源独立不共享,按照峰值配置导致利用率不均且管理复杂。
因此,中国电信开始建设自己的海量存储和云资源体系。中国电信的业务平台云资源池体系已形成2个集团和24个省级业务平台资源池体系的结合,统筹满足集团、省公司各类平台资源需求;IT基础设施从“分系统建设、独立使用” 逐步向“统一规划建设、集约调配使用”的管理模式转变;全网已集中部署云资源池管理平台,形成“4+2”云数据中心体系,统筹满足云产品资源承载需求。
她认为,当前海量存储资源部署存在很多问题,例如存储建设成本较高,存储利用率不均,扩容压力逐渐向云数据中心传递;各家厂商之间技术不兼容,实现存储虚拟化较为复杂,不利于实现存储资源整合;不同存储技术无法实现统一存储管理和分配,存储配置复杂的问题依然存在。
总的来看,全IP化的存储尚处于初期,标准化的工作对于硬盘商和系统商尤为重要,整个产业链健康仍需完善和发展。随着非结构化数据的爆炸性增长,海量存储必然成为一个重要的技术发展趋势,分布式设计、IP互联化与横向扩展是解决海量存储的关键技术,无共享分布式架构结合广泛应用的IP互联,能够有效的解决大容量横向扩展问题,整个产业链各方正在积极联动,尽快实现产业化、标准化,降低IP海量存储的成本,为客户带来真正的可用价值,是当务之急。