处理海量数据:网络规模存储设计的好处存储与灾备
考虑到这种前所未有的海量存储需求增长的预期,大型企业正在开始部署网络规模的架构:从而能够实现大规模的虚拟化、计算和存储功能。
增加存储的灵活性
网络规模的存储设计的一个基本特征是消除存储架构的瓶颈。一个单一入口点可能成为一个单点故障点,尤其是在云计算的存储需求方面。添加冗余的、昂贵的、高性能的组件,以改善这些瓶颈问题,是目前大多数服务提供商正在努力的方向,但这会非常迅速地增加成本和系统的复杂性。另一方面,一个横向扩展的网络规模系统设计能够使得在更便宜的、低能耗的硬件的所有节点之间分配数据。
因为云供应商要比企业用户管理更多的用户、具有更高的性能要求,因此,其解决诸如数据瓶颈这样的性能问题的意义是相当重大的。虽然大多数企业用户的系统均要求很高的性能,但这些系统通常仅仅只有较少的用户,而这些用户可以通过本地网络直接访问他们的文件。此外,通常企业系统用户在访问时,会发送和保存相对低容量的文件,如文件和电子表格等,他们所使用的存储容量较少、也就降低了性能负载。
而那些在企业环境之外使用云计算的用户会面临非常不同的情景。该系统正在同时被相当数量级的用户通过互联网访问,这无疑将互联网本身变成了一个性能瓶颈。云提供商的存储系统不仅必须扩展到每一位新增的用户,同时还必须跨所有用户确保总体性能。显然,平均来说,云用户的访问次数要比一般的企业用户更为频繁,而且他们会存储比企业用户大得多的文件、音乐、照片和视频。网络规模架构的设计则能够防止由这种传统的旧式存储设置所导致的瓶颈问题。
不受硬件约束
网络规模体系架构的一个重要的区别是:其完全不依赖于硬件设备。由于硬件故障是不可避免的,而传统的设备——存储硬件通常内置专有软件——包括多个昂贵的副本组件,以预测和预防故障。这些额外的硬件提取层在能源消耗方面会使用更高的成本,同时也增加了单一设备层的复杂性。因为较之商品化的服务器,每台设备的实际成本是相当高的。当企业开始研究如何扩展他们的数据中心时,成本费用估算往往就开始扶摇直上。避免这个问题的一种方法是通过使用软件定义的vNAS或在一个管理程序环境使用vSAN;二者均能够提供以网络规模速率构建服务器的方法。
分布式模型
与当前的集中式数据中心趋势不同,构建网络规模存储的最好方法是用一个分布式模型。这是因为现在有诸多的方法能够在软件层提高性能,以中和集中式数据存储方法的性能优势。
由于用户是从世界各地不同地理位置访问云计算服务,服务提供商需要提供遍布世界各地的数据中心服务,以尽量减少加载时间。不过,确保全球同步的访问体验也会涉及到一些挑战。工作负载在企业所在地理区域的数据中心是活跃状态。这种情况造成了一个问题,因为存储在所有地点的所有数据都必须同步。从视图的架构来看,在存储层,而不是向上到应用程序层解决这些问题是相当重要的,否则其会变得更加困难和复杂。
此外,管理全球的可用数据意味着在发生本地灾难事件的情况下,数据中心必须是弹性的。如停电事故,这会使本地服务器场脱机离线。如果一个地方的数据中心或服务器出现故障,全球数据中心必须迅速将数据传输到可用的服务器,以减少停机时间。虽然当然固然有很多解决这些问题的方法,但这些方法都是在应用程序层。试图在数据中心的基础设施的层次结构解决这些问题,而不是在存储层解决,会带来显著的高成本和复杂性等缺点。直接在存储层通过网络规模架构解决这些问题,则提供了显着的效率,时间和成本节约等方面的好处。
建设未来
大数据分析和移动化的到来无疑是预示着廉价的存储需求会不断增加的两大趋势。如果企业继续在他们的数据中心依靠昂贵的、呆板的设备,他们将被迫付出大额支出,发展足够的存储容量,以满足客户的需求。
随着市场需求的变化,网络环境、企业的重点优先事项和预算也应随之进行相应的调整。一个广阔的、刚性的网络环境锁定外部供应商的配置会严重限制该企业灵活应对市场的需求,更谈不上积极根据预期调整能力了。网络规模的存储理念使各大企业得以建立“面向未来”的数据中心。由于硬件和软件的投资是彼此分开的,二者均可以调整到更好的,更合适的选择方案,以最低的成本满足市场需求。
存储的未来
较新的数据存储技术,如超融合基础设施和软件定义的存储预示了未来的需求:网络规模的架构。他们将允许企业能够规模化其庞大的计算环境,与虚拟化组件集成整合。网络规模化的存储设计,消除了硬件造成的瓶颈,提高了敏捷性和速度,也有利于全球数据的可用性,并提供更大的效率,带来了时间和成本的节约。考虑到数据的快速扩散和随之而来的存储需求的增加,网络规模的存储设计是合乎逻辑的选择。