PeakColo借助Data ONTAP 8集群模式加快云部署互联网
Luke Norris——PeakColo 创始人、CEO 兼首席架构师
PeakColo 致力于提供统包云基础架构,这些基础架构专门面向增值经销商 (VAR) 和托管服务提供商 (MSP),包括 Sayers、BitRefinery、Data Fortress、Parsec Data Management 和 Lewan 等行业领导者。
借助我们首屈一指的 WhiteCloud 基础架构即服务 (IaaS) 产品,VAR 或 MSP 可成为完全自有品牌的 VMware vCloud 服务提供商,部署服务只需几个小时,而且可避免原本所需的前期资本投资。
在过去三年时间里,我们的业绩每年增长 100%。我们提供的绝佳的性能、可用性和功能组合推动了这种快速增长并使我们的服务对客户极具吸引力。
通过在 NetApp Data ONTAP 8 集群模式的基础上构建基础架构,我们能够:
实现高达数千次的 IOPS 存储性能 — 无论您需要 1 TB 还是 1 PB 的存储容量
完全达到 SLA 的要求
提供多项先进功能,例如重复数据删除、数据压缩、精简配置和复制
创建安全多租户环境
在本文中,我将介绍如何构建可解决独特难题的敏睿的 IT 基础架构(计算、网络和存储),并说明该基础架构如何为客户以及我们自身提供巨大的优势。我还会介绍我们将满怀兴奋之情在未来部署的一些新技术,例如闪存池、无限卷和并行网络文件系统 (pNFS)。我相信您会发现,无论是在自己的数据中心内部署,还是签约购买云环境中的相关服务,您都能受益于我们采用的多项技术。
基础架构难题
对于典型的 IT 基础架构,计划硬件维护的停机时间可能极其困难。如果数百个租户共享同一基础架构,那么计划停机时间就会变得无法实现。在我们基础架构的前两个迭代中(在 NetApp 解决方案尤其是 Data ONTAP 8 推出之前),SAN 完全是物理架构。尽管我们有多个存储系统,但是存在这样一个问题:对某个特定存储系统进行必需的维护必然会影响多个客户。这使得我们无法完全达到 SLA 的要求。
从配置的角度来看,客户可能要求配置新存储区块(例如 0.5 PB 或 1 PB),但我们无法在不中断客户持续运营的情况下使其上线。
我们在多个客户之间共享 SAN 的能力也非常有限。虽然我们选择了 iSCSI 协议,但是无法在安全多租户环境下支持该协议。此外,我们还必须控制对物理主机的访问,这限制了我们可提供的服务类型,同时也限制了我们可传递给经销商合作伙伴的价值。他们自身也需要能够为自己的客户提供多租户支持,还要确保符合 HIPAA 等规定和 PCI 等标准。
最后,在任何时刻,我们都无法对基础架构上运行的各种工作负载的需求进行有效感知,这是由业务的性质决定的。我们真正需要的是这样一个基础架构:可弹性地满足不同工作负载的高峰需求(例如虚拟桌面基础架构 [VDI] 启动风暴),而且还便于我们对工作负载进行负载平衡来适应更长期的趋势。
云架构设计
我们目前有五个 Type-II SSAE 16/SOC 1 数据中心:四个位于美国,一个位于英国。在云架构的整个设计过程中,带宽和冗余始终是第一要务。主要组件包括:
混合 Internet 连接,用于确保高性能和高可靠性
运营商级别的 Brocade CER 和 VDX 网络组件
基于开放式计算平台的服务器
NetApp FAS3200 系列存储系统,这些系统在集群模式下运行 Data ONTAP 8.1.1
网络
我们所有的数据中心都采用混合 Internet 访问方法。我们对前 16 个 Internet 运营商进行了负载平衡,来提高灵活性、降低成本,并实现最高的性能和可靠性。在美国大陆,延迟时间通常为 40 毫秒甚至更短。
我们在网络中使用运营商级别的 Brocade VDX 和 CER 网络组件:
Brocade CER 1U 路由器,便于我们在三四个运营商之间分配 Internet 访问权限。
Brocade VDX 交换机,便于我们不断扩展网络,而不必担心早先的生成树协议的限制。
云解决方案提供商的需求经常超出企业级硬件的限制。我们之所以选择 Brocade,是因为它可提供一流的模块性和可扩展性,并具有切实可行的未来发展蓝图。
VMware 近期对 Nicira 的收购强调了软件确定的网络 (SDN) 可能会在未来发挥重要作用。Brocade 长期坚持采用 OpenFlow 协议,我们由此确信能够完全利用 SDN 作为标准的成熟技术。
PeakColo 通过正在申请专利的第 2 层流程(用于将客户的第 2 层资源交叉连接到云环境中),进一步扩展了 SDN 的理念。相应的用例是混合云部署 — 企业可能想要保留现有防火墙、AS400、原有存储和磁带或其他物理资源,但是也希望利用 PeakColo 的云组件和服务。
我在近期的一次访谈中更为详细地介绍了我们采用的网络技术。
服务器
在服务器方面,我们使用自己的开放式计算平台服务器,每个服务器带有两个万兆以太网 (10GbE) 网络接口卡 (NIC)。NIC 采用主动-主动配置,传输用户和数据流量。我们使用交叉光纤链路聚合 (LAG) 实现负载平衡,并消除单点故障。目前,我们在五个数据中心共有大约 2,500 个此类服务器。
之所以选择开放式计算平台,是因为它利于我们在整个采购周期内购买多个供应商的服务器,而不会受限于一个供应商。我们购买的服务器带有一组确定的相同组件、部件和驱动程序,而且还能预先安装 VMware®。VMware 和其他所有提供商都支持开放式计算平台,因此我们清楚,部署后的新服务器会像现有服务器一样运行,这是毫无疑问的。
存储
对于存储,PeakColo 只使用 NetApp FAS3240 和 NetApp FAS3270 系统, 并使用 Data ONTAP 8 集群模式将这些系统配置成由四个节点构成的集群。我们目前部署了两个 NetApp 集群,很快就会再部署另外两个。如果您不熟悉集群模式,可阅读上个月刊载的一篇 Tech OnTap® 文章,详细了解相关信息。此外,还可以阅读本期刊载的关于集群模式块性能的文章,以及最近发表的关于集群模式 NAS 性能和扩展性的文章。
我们之所以选择 Data ONTAP 8 集群模式,是因为采用其他任何存储技术都远远不能实现相同水平的可扩展性、灵活性、性能和功能。NetApp 营销人员称该架构具有至能、至久和至极的特性。这样宣称听起来好像颇为大胆,但这项技术确实能给我们带来这些优势。至能体现在存储效率上,而至极体现在扩展性上。由于支持无中断运行,我们可完全达到 SLA 的要求。此外,这种支持还有助于显著延长部署的每个存储系统的使用寿命。我稍后将对此进行详细介绍。
我们的每个客户分别对应于存储集群中一个单独的 Vserver,这是我们多租户环境的关键所在,并且促成了我们的多项主要功能。Vserver 是一种安全的虚拟化存储容器,具有自己的安全管理策略、IP 地址和命名空间。它可包含集群中多个节点上的卷,但与任何特定节点都无关。我们可根据需要移动 Vserver 来执行维护或重新平衡负载,而不会中断这些 Vserver 上运行的工作负载。
我们的每个集群都混合使用 SSD、SAS 和 SATA 磁盘,并且所有节点都采用闪存。客户针对每层所需存储的数量和类型签订合同。每个存储系统使用六个 10GbE 连接(包括冗余集群互连),来提供必要的连接和吞吐量。
虚拟化
作为 vCloud 举措的一部分,VMware 建立了 VMware 服务提供商计划 (VSPP) 框架,支持像我们一样的服务提供商以符合各自业务模式的方式使用和提供 VMware 虚拟化解决方案。我们是最佳 VSPP 合作伙伴。
我们的 WhiteCloud 服务可为客户提供基于 vCloud Director 的完全自有品牌且专用的解决方案。此外,我们还能提供其他虚拟化平台,例如 Hyper-V™ 和 Citrix XenServer,或物理服务器与虚拟服务器的组合。我们能够做到这些,是因为所有服务器(物理和虚拟服务器)都连接回 Vserver 和 NetApp 集群中的专用 VLAN,这为多租户环境提供了必要的支持。鉴于我们提供的性能,许多客户借助我们支持各种 VDI 解决方案,例如 XenDesktop。
PeakColo 获得的运营优势
使用 Data ONTAP 8 集群模式作为架构的基础有助于我们解决基础架构难题,并给我们带来明显的运营优势。
无中断运行
为了向客户交付完全符合 SLA 要求的产品和服务,对 NetApp 集群执行重要操作而不对用户造成中断的能力至关重要。要执行固件和软件升级以及硬件升级和更换等维护活动,可在执行指定操作之前将活动 Vserver 移出集群节点,这样便不会对客户造成中断。如果所有节点都需要升级,该操作将以循环方式执行。对于存储配置,我们可在不造成中断的情况下使新存储上线,还能将客户的数据透明地迁移到这一新存储。
移动活动 Vserver 的功能还提供了一种执行负载平衡的简便方法。借助 OnCommand® System Manager,管理员很容易了解所有 Vserver 的状况,以便做出负载平衡决定。
多租户、功能授权和委派管理
由于通过创建 Vserver 的功能将多租户内置到集群模式中,因此我们能够让客户以更好的方式共享基础架构,在不影响客户隔离的情况下提高基础架构效率。此外,我们可将 Vserver 的管理委派给客户(如果他们需要),并授权他们控制全部 NetApp 功能,包括重复数据删除、数据压缩、精简配置、备份、复制等。
由于我们的客户本身是服务提供商,因此这一点非常重要。我们可为他们提供真正的 IaaS,使其能够完全管控整个基础架构,而不仅仅是托管 IaaS(在这种方式中,我们保留对大多数附加组件的控制权限)。
我们的许多客户本身是 NetApp VAR,因此他们已经知道如何管理 NetApp 存储,并清楚 NetApp 功能组合的价值。我们会为新客户提供一些高强度培训,确保他们了解如何以及何时利用 NetApp 功能。我们可以看到,所有的 NetApp 卷都启用了重复数据删除(一些包含地理空间数据的卷除外,但这些卷可利用数据压缩节省更多空间),总共节省了大约 70% 的空间。这些空间节省意味着 PeakColo 和我们的客户可显著降低成本。
节约现有投资
大多数横向扩展存储都使用专门的基本组件。集群模式的另一项好处是,它与 Data ONTAP 7 以及 Data ONTAP 8 7-模式使用相同的基本组件。我们已有一些系统在运行 7-模式,可将其用途加以转换,将其用于集群模式的集群。完成这一操作的途径是,使用 VMware Storage Motion 等工具将数据从 7-模式系统迁移到现有集群,然后将硬件加入该集群。这意味着如果您现在尚未准备好部署 NetApp 集群,可以先部署 NetApp 7-模式,然后在需要时将其转换成集群模式。
延长存储使用寿命
作为服务提供商,我们希望尽可能延长存储使用寿命,并最大限度地利用基础架构投资。但在以往,客户的性能要求常常会缩短升级周期,导致您必须每两三年更换一次存储系统。
集群模式可帮助我们延长存储硬件的使用寿命。用于构建 NetApp 集群的基本组件不必完全相同,集群节点可以是异构节点。这意味着我们可根据需要向现有集群中添加最新一代的存储节点。随后,我们可将需要最高性能的 Vserver 迁移到新节点,同时保留集群中的原有硬件,作为可提供给客户的另一个存储层。通过这种方式,我们预计可将存储系统的使用寿命延长至五到七年。
PeakColo 客户获得的优势
使用我们的云基础架构,PeakColo 可创建完全自有品牌的 vCloud Director 解决方案,并且部署虚拟 SAN 以及 10 TB 到 500 TB 的存储只需四到八个小时。我们认为这样可在非常短的时间内为客户带来巨大的市场价值。我们的一些 VAR 和 MSP 客户签约购买一个 Vserver,并与他们自己的客户共享这个 Vserver 中的资源。对于另一些 VAR 和 MSP 客户,如果他们自己的客户有 HIPAA 或 PCI 合规性等需求,他们可能会为每个客户部署一个 Vserver。想要提供灾难恢复服务的服务提供商可签约购买多个 PeakColo 数据中心内的 Vserver 服务。
NetApp 集群性能与 NetApp 功能组合的结合将发挥出这两者的全部价值,这是我们能为客户提供的最大优势。即使客户对存储的要求不高(假设只需要 10 TB 存储),我们也能提供极高的 I/O 性能以及重复数据删除和其他存储效率技术,帮助他们真正减少必须购买的存储量。他们还能获得 NetApp Snapshot™ 以及其他所有 NetApp 数据管理和数据保护功能的全部优势。就好像他们购买了属于自己的多节点 NetApp 集群一样。
提供高水平的 I/O 性能是我们的一项主要竞争优势。对我们的产品进行测试或概念验证之后,从未有一个潜在客户流失。我们提供的显著的性能优势令他们深深折服。
即将部署的技术
Data ONTAP 8.1.1 包含多项令人倍感兴奋的新技术,我们目前正在对其进行部署前的调研。
无限卷和 pNFS
NetApp 无限卷技术可提供一种合成卷 — 数据分布在跨越所有集群节点的多个成分卷中。这样能够大大提高可从单个卷提供的吞吐量。我们认为,如果将集群模式的功能与 NFS 4.1 版的 pNFS 功能相结合,可能会引领市场变革,较之 GPFS 和 Lustre 等专门的并行化文件系统,这种结合有助于我们大幅提高速度,同时显著提高可用性。我们可将该价值传递给服务于科学、工程以及 Hadoop 等其他大数据市场中的现有 VAR 和 MSP。优势如下:
简化的基础架构。较之除存储之外还需要许多专用服务器的其他并行文件系统,pNFS 的整个基础架构更为简单。
可管理性。通常,pNFS 包含多个必须单独进行管理的文件服务器。而集群模式便于我们将所有组件作为一个实体进行管理。
无中断运行。NetApp 集群中部署的 pNFS 可像其他任何工作负载一样受益于维护和负载平衡的无中断运行。
我们已经为一个客户部署了 pNFS,目前正在研究将其与无限卷相结合的方法,以便在将来打造全新的高性能服务。
闪存池
作为服务提供商,我们几乎无需控制基础架构上运行的工作负载。由于系统可能不会对卷或 VM 错位问题、启动和登录风暴以及类似事件发出警告,因此便于基础架构更好地应对这些类型意外事件的任何技术都将赢得我们青睐。
我们将 NetApp 闪存池技术视为可能有助于我们更好地应对这些意外事件的重要工具,还把它当作便于我们创建和提供新存储层的又一项增值功能。闪存池是 NetApp 虚拟存储分层 (VST) 技术的一部分,可通过自动调整将热数据集存储在高性能存储上。它便于您创建 NetApp 磁盘聚合,从而能将以往的磁盘驱动器与 SSD 结合使用。随机写入和读取数据将自动缓存到 SSD 上,以便加快性能。
我们目前正在测试闪存池(该技术将高容量 SATA 磁盘与 SSD 结合使用)的性能,希望未来将其作为新的存储层提供给客户。
结论
对于 PeakColo 来说,持续增长意味着要不断提供 VAR 和 MSP 客户需要的性能、可扩展性和功能。我们坚信,我们选择了最佳技术合作伙伴,他们可帮助我们维持增长并适应重要的行业趋势,例如采用基于闪存的存储、软件确定的网络和大数据等。NetApp Data ONTAP 8 集群模式可提供我们所需的功能,不仅帮助我们取得了当前的成就,而且还能解决将来的难题。集群模式的灵活性对于我们这样的云服务提供商非常重要,它让我们获得了远远超出竞争对手的敏睿性。
作者:Luke Norris — PeakColo CEO、创始人兼首席架构师
Luke 于 2006 年创立了 PeakColo,主要负责公司的战略方向和管理。他此前曾担任 SunGard Availability 集成运营中心经理,负责全球超过五百万平方英尺的数据中心空间的全天候运营和管理。凭借在 PeakColo 多年的工作经验,Luke 与他人共同发明了两项技术专利,另有几项专利正在申请中。