NetApp Suncorp案例研究:我们如何构建私有云存储与灾备

2011-05-24    来源:中国IDC产业联盟    
TechOnTap最近对云计算及相关技术给予了极大的关注,其中包括虚拟化、安全多租户、构建和保护共享基础架构的最佳方式等等。本文介绍一个案例研究,在该案例研究中,所有这些要素

  作者:Suncorp企业架构师RossWindsor 与存储部门主管 Jason O"Brien

  TechOnTap最近对云计算及相关技术给予了极大的关注,其中包括虚拟化、安全多租户、构建和保护共享基础架构的最佳方式等等。本文介绍一个案例研究,在该案例研究中,所有这些要素一起构成一个功能完备但仍快速发展的私有云。

  仅在两年前,Suncorp的业务只有7%在互联网上进行,而如今,这个数字已增长到超过 42%。 大规模的 IT 转型使我们可以实现这一变化,这一转型大幅提高了我们部署 IT 基础架构以适应快速变化的业务需求的能力。

  我们为实现IT基础架构标准化而进行的大量工作(包括将80% 的现有存储更换为 NetApp存储;对我们的大多数应用程序进行虚拟化;以及提供简化的基于云的服务)促成了实实在在的 IT 效率改进:

  从七个数据中心整合到只有两个,从而将数据中心空间占用减少80%,并降低电耗和冷却成本。这主要归功于虚拟化和我们的NetApp 多租户架构。

  通过更换传统光纤通道存储以及实现流程标准化和简化,将配置存储所需的时间缩短92%。

  由于NetAppFlexVol?的高效率和精简配置的全面使用,存储利用率提高了 40% 至 50%,存储成本降低了 40%。

  通过对所有客户、财务、定价和索赔有整体的了解,经营利润有所提高。

  这些成就非常显著,而对公司发展同样重要的是我们获得了极大的灵活性,形成了超越IT之上的创新文化。

  在本文中,我们着重介绍私有云的几个关键要素,正是借助于这些要素,我们实现了上述节省并提高了业务灵活性。因为每个IT基础架构本质上都是正在进行的工作,我们希望让您不仅清楚我们目前的现状,还了解我们将来要面对的情况。

  标准化基础架构

  与许多金融服务公司一样,我们扩展的重要方式是合并和收购,因此,当四年前我们决定进行转型时,我们的IT环境中已包含孤岛式应用程序和大量不同的服务器、网络和存储硬件,给我们带来了沉重的负担。我们的第一步是启动尽量实现 IT 基础架构标准化和简化这一持续过程,这在很大程度上意味着我们要更换掉大多数之前购买的基础架构组件。 我们当前基础架构的关键要素(包括安全多租户)如图 1 所示。 (安全多租户将在稍后介绍。)

  物理基础架构的关键要素(包括有助于实现安全多租户的要素)。

  服务器

  我们的服务器环境现在包含两个主要层:在IBM刀片式服务器上运行的x86 层和运行 AIX 的中端层。 总的来说,在一组 1,500 个应用程序中,我们的虚拟化程度达到 85%。 使用 350 台 VMware? ESX 主机及 4,500 台虚拟机的 x86 环境的虚拟化程度达到 95%。 使用 80 个 IBM 逻辑分区 (LPAR) 的 AIX 环境也实现高度虚拟化。

  网络

  我们的所有网络均使用最新CiscoNexus?7000 和 5000 系列数据中心交换机构建。 我们在数据中心间运行自己的多协议标签交换 (MPLS) 网络,允许 VLAN 跨越数据中心。 这使在我们的灾难恢复站点重新启动虚拟机 (VM) 的过程得到简化。

  在每个数据中心内,我们使用10GbE,这使我们无需使用光纤通道电缆和交换机结构,简化了我们的电缆基础架构,并让我们可以利用两个平台上的网络资源,从而节省资金。目前,我们正通过整合LAN 和 IP SAN 流量进一步简化布线。

  存储

  现在,我们部署的存储中至少80%是NetApp 产品。 最初,我们部署了 FAS6070 和 FAS6080 系统来支持核心基础架构。 目前,在我们的生产和灾难恢复设施中,有八个 FAS6000 系列系统。 过去 12 个月中,我们还开始部署 FAS3100 系列。

  我们共有49个NetApp 存储控制器,共计 3.7 PB 可用存储容量, 其中包含很多专门作为文件服务器的存储系统,以及遍布全国的中心站点中的存储系统。

  我们的所有FAS3100系统均使用512 GB 闪存模块,看到因此获得的性能后,我们也对 FAS6000 系统进行了重新配置。 闪存 [10] 通过提供智能缓存(可自动适应工作负载的变化)提高性能。

  这有助于我们支持我们目前部署的虚拟桌面基础架构(VDI)环境(稍后进行讨论),还使我们能显著缩短包含结构化数据的应用程序的延迟。例如,启用闪存后,I/O 频繁的 Oracle? 应用程序的读取延迟已从 11 至 12 毫秒缩短为不到 2 毫秒。

  FAS6000系统上约350TB 存储专用于支持 VMware ESX。 在 NFS 上部署整个 VMware 环境使我们在部署速度和灵活性方面取得了巨大的成功;我们 NFS 上的 VMware 部署是世界上最大的此类部署之一。 由于能够为 VMware 预先配置很大的卷,因此向新环境过渡变得更加简单。

  根据NetApp的建议,我们使用NetApp 多协议功能将大多数应用程序数据存储在同一存储设备上的单独 iSCSI LUN 中。 [1] 部署 SnapManager? for Virtual Infrastructure (SMVI) 时,我们希望能通过将数据写入到 VMDK 文件移动到全 NFS 环境。 SnapDrive? 更新使这一战略成为现实。

  我们的IBMAIXLPAR 环境也在 NFS 上运行,这使之成为世界上最大的此类安装之一。

  精简配置、FlexClone和存储效率

  最初,我们的所有存储卷均使用复杂配置,因为我们担心可管理性问题,但就在18个月之前,我们转为在整个NetApp 存储环境中使用 NetApp 精简配置。 通过精简配置,我们回收了约 1.9 PB 存储。 无论以什么标准而言,这都是巨大的节省,从根本上讲,如果不使用精简配置,过去 18 个月中我们将不得不购买 1.9 PB 存储并为其提供机架、支付电力和冷却费用。

  通过NetAppOperationsManager,我们可以在卷级和聚合体级设置警报。 这些警报会向上报告至我们全国运营中心中的企业管理工具。 我们设置的临界级别低于复杂配置环境中的临界级别。 聚合体的容量使用率达到约 70% 时,我们会停止向其添加新卷,保留剩余容量用于现有卷的自然增长。 我们每月进行容量管理,确保预先配置了足够的存储以满足增长需求。

  我们通过利用NetAppFlexClone?技术,可以在不占用大量额外存储的情况下快速配置测试环境。 FlexClone 使我们可以在数秒内对现有卷进行虚拟克隆,以便用于测试。 这些克隆仅在发生更改时才占用额外存储容量,测试完成后,我们只需释放克隆并立即回收使用的所有增量存储空间。

  我们还转为在整个存储环境中实施NetApp重复数据删除,目前为止已回收约120 TB 容量。 我们预计这个数字将进一步增加,尤其是当我们对 VMware 环境进行重复数据删除时。 我们的目的是在默认情况下,对我们目前正在部署的 VDI 环境执行重复数据删除。 我们希望通过重复数据删除将存储成本再降低 20% 至 30%。

  安全多租户

  在Suncorp,我们在平台级别(Oracle、SQLServer?、MySQL等)实施安全多租户,而不是在各个应用程序级别实施。 我们将特定于平台的卷和 LUN 置于不同的逻辑安全区。

  我们根据需要在特定区域内实施安全多租户,使用NetAppMultiStore?的功能实现我们的特定目标。 此方法的关键要素如图 1 所示。 未来六个月中,我们将在 VMware 环境中部署 Cisco Nexus 1000V 分布式虚拟交换机,在此期间我们将逐步添加其他 SMT 功能(如最近一篇 Tech OnTap? 文章 中所述)。

  我们根据需要为每个区域中的每个平台使用MultiStore虚拟存储系统(vFiler?)。 在我们的灾难恢复站点的相同区域中,有相应的 vFiler 单元。 NetApp SnapMirror? 用于在主数据中心和灾难恢复站点之间复制数据 (我们将在下一部分中介绍关于数据保护和灾难恢复的更多信息)。x86 和 AIX 上的主要应用程序均在此环境中运行,其中包括 VMware、SQL Server、Oracle、SAS 以及我们的 Guidewire ClaimCenter 索赔管理系统。

  对我们而言,通过SMT,我们可以在同一存储上部署多个应用程序,而无需担心安全性问题。SMT还显著简化了管理。如果没有 vFiler 结构,我们将不得不仔细记录每个卷和 LUN 的位置。 vFiler 单元为我们按照逻辑组织这一切,简化了新部署并加快了部署速度,同时允许我们应用特定于平台的策略。 未来几个月中,我们将部署 NetApp Protection Manager 和 NetApp Provisioning Manager,应用策略将变得更加简单。

  存储服务目录

  我们始终坚信需要有一个标准化服务目录,这是实施高效共享基础架构、虚拟化和云部署的前提条件。但是,我们的上一代存储服务目录在实现产品和服务标准化方面未能给予我们足够的帮助。现在,我们的服务目录只包括四项基本内容:

  存储:基本存储容量

  灾难恢复:在灾难恢复设施上进行灾难恢复

  备份:操作数据备份和恢复

  归档:符合法规遵从性的长期存储

  每个类别中,我们都提供铜级、银级和黄金级服务。例如,针对我们的灾难恢复服务,我们提供:

  黄金级:10分钟RPO

  银级:6小时RPO

  铜级:24小时RPO

  这些级别通过将NetApp卷SnapMirror 设定为相应设置实现。 例如,对于结构化数据,我们通常需要黄金级服务,即我们需要每 5 分钟复制一次日志,以实现 10 分钟 RPO。

  我们的备份服务提供NetAppSnapVault?基于磁盘的备份,可以将数据连同指定性能和保留期限的子类别一起备份到单独的数据存储位置,以便用于操作备份和恢复。 目前,我们的所有归档操作均将数据归档到磁带,以满足严格的法规要求。

  此服务目录很适合我们,但我们可能会继续努力对其进行简化,在不影响操作的情况下尽可能减少服务数量。

  云服务

  上一部分中介绍的各种要素(包括带有安全多租户架构的标准化基础架构和定义明确的存储服务目录)建立了一个基准,我们可以通过该基准构建私有云。我们通常定义八个关键要素作为云环境的基础:自动化、服务标准化、自助服务、按需配置、虚拟化、独立于位置的资源集合、快速弹性和安全性。

  实施云之前,我们部署了基于服务的运营模式,其中包含每个基础架构平台的服务目录和服务产品,类似于上一部分中介绍的存储服务目录。其中的一个重要要素是持续促进所有平台和服务产品的标准化,使其更易于实现自动化。

  我们没有购买业务流程产品来实施私有云,而是选择了开发我们自己的业务流程模式,如图2所示。我们创建了 Web 服务机器人作为我们主要合作伙伴提供的一流配置产品的包装器,其中包括 VMware、Cisco、NetApp、IBM、RedHat 和 Microsoft。 它们均连接到公共 Web 服务总线。 我们的业务流程层逻辑上位于 Web 服务总线之上,我们的自助服务门户通过它连接到所需的各种配置服务。

  按一下按钮即可将门户的用户配置到我们的所有环境中。他们可以获得一个资源池,可以轻松地配置到该池和解除配置或者使用云接口请求其他资源。

  当前的产品和服务包括基础架构即服务(IaaS)(将虚拟机与Windows?2008 或 Red Hat Linux? 一起配置)和平台即服务 (PaaS)(包含各种平台,例如 Oracle、Microsoft? SQL Server、MySQL 和 JBoss)。我们还准备部署桌面即服务 (DaaS)。 我们的目标是通过让现有 PC 转为使用 VDI 来延长其寿命。 Suncorp 正在努力创建智能工作环境,重点是让组织中的员工可以随时随地工作。 这些功能将由 VDI 支持。

  我们的VDI产品目前在云外部配置,但我们正在努力将其纳入云中。用户将可以请求虚拟桌面用于生产和测试。 我们将在 NetApp 虚拟存储控制台 (VSC)利用快速克隆功能,以与之前的文章中所述的方式类似的方式提供此功能。 我们的 NetApp 存储中安装的闪存模块使基础架构可以应对 VDI 环境中可能发生的启动风暴和登录风暴。

  我们的最终目标是能够提供架构即服务(AaaS),在架构即服务中,我们可以配置简单的标准化架构,其中所有服务器组件、存储、网络高可用性、灾难恢复、备份和恢复以及归档均实现标准化。这将使云用户可以轻松访问资源,同时确保云始终符合所需的数据保护级别和法规遵从性。

  结论

  此讨论虽然宽泛、不深入,但我们希望它能让您很好地了解Suncorp如何进行云部署以及我们如何过渡到新范式。我们已进行的改变使我们能更快地应对业务变化和市场需求。 成本有所降低,我们提供的业务功能是以前的三倍。 您可以在最近发布的视频以及成功案例 中了解关于 Suncorp 及我们已实现的业务优势的更多信息。

1
3