如何制定虚拟机蔓延管理计划
2016-01-21 TechTarget中国 编辑:王学强
在这个关于虚拟机蔓延控制系列文章的续集当中,Brian Kirsch提出的两种方案能够在释放硬件资源的同时不会影响服务器中的重要数据。
当管理员意识到自己需要处理虚拟机蔓延问题之后,首先应该制定一个详细计划。整个过程的第一步就是清理不再使用的虚拟机,但即便是一台已经被认定处于“蔓延”状态的虚拟机,也曾经为某个特定功能提供服务,并且事实上可能仍然包含某些重要数据,哪怕这些资源当前没有处于活动状态。这种情况为管理员带来了一个难题:如何在不影响相关数据的情况下释放硬件资源?
实现虚拟机蔓延管理的步骤之一是对蔓延虚拟机进行标记,确定具体的操作对象。如果没有对之前的发现进行及时标记,那么就很有可能再次丢失这些数据。对于这个过程来说,VMware 标签是最好的选择。标签不但可以帮助辨别服务器,还能够实现验证检查。标签当中并不仅仅包含服务器名称和所有者等信息,通过添加验证日期,还可以确保即便服务器几年之内都没有被检查过,这些潜在目标也不会被遗漏。标签还可以帮助找出那些本不属于某个组的服务器,但是这个过程相对而言会复杂很多。
虚拟机蔓延管理方式
蔓延虚拟机可以被分为两类:可以被移除的和不能被移除的。对于一台管理员认为可以移除的虚拟机来说,需要遵循某些步骤以确保顺利和安全地完成整个过程。第一步从关闭虚拟机电源开始,观察将会发生哪些事情。我建议在移除之前至少保持虚拟机处于关闭状态30天,尽管90天是最为理想的情况。看起来这是一段很长的时间,但是如果业务部门一个月后决定还是需要使用这台虚拟机,那么移除之后的重新创建或者恢复过程将是十分复杂的。当然,管理员可以说“这太麻烦了”,然后直接移除这台虚拟机,但是用户体验是至关重要的,直接“删除”对于用户来说并不是最好的选择。对于现在不断削减预算和外包的趋势来说,这种糟糕的服务体验会对IT部门造成非常严重的影响。从CPU和内存方面来说,将一台虚拟机保留90天并不是一个非常大的问题,只要电源已经被关闭,并且保证即便在高可用性故障时也不会启动。
而真正的问题在于存储方面,即便是已经关闭电源的虚拟机也会占用大量昂贵的共享存储空间。最简单的解决方案是将虚拟机迁移到更低级的存储当中。如果你想要在低级存储当中预留出部分空间,那么可以使用主机当中的本地磁盘作为通用存储。服务器本地磁盘的价钱十分低廉,在IT部门中都随处可见。这并不是一种完美的解决方案,因为这种方式并不能提供良好的冗余性,但是考虑到这些数据将来也是要被删除的,因此这种方案也能够被接受。
在虚拟机蔓延管理方面一项更为复杂的挑战是虚拟机已经成为一种必要资源,是不可或缺的一部分。这不仅仅是一个单纯的技术问题,而且涉及到“办公室政治”层面, 这是一个很多人都没有意识到的问题。但是并不意味着所有IT员工都需要对“政治”层面所有了解,只需要能够判断哪些需求是不符合规定的。用户绕过虚拟机申请正常流程的原因之一就是避免提交大量书面材料和证明。如果问题虚拟机真的是必须的,那么还是要提交所有书面材料。如果大家在绕开规则的同时依然无法避免提交书面材料这个繁琐过程,那么又能获得哪些好处呢?这种流程可以帮助确保合规性,往往被作为一种防范措施,保证所有用户遵从当前规则。
准备好所有书面材料之后,必须对虚拟机进行评估以确保为它分配了适量的资源。尽管通常只有在申请虚拟机时才会执行这项操作,但是其现在已经成为一件必须完成的任务,毕竟流程发生了变化。起初,用户可以指定所需的硬件资源,只要他们认为是合理的。而现在,管理员必须对虚拟机的资源利用方式进行评估,以确保虚拟机真的需要所分配的那些资源。如果虚拟机没有使用这些资源,那么应该减少为它分配的资源总量,这才是一种更加容易接受的方式。但是这种流程并不是必需的,尽管对于虚拟机蔓延控制来说至关重要。很少有词汇能够像“减少硬件资源分配”这样引起应用程序所有者的担心。对于大多数应用程序所有者来说,这种方式应该是合理、同时足够具有威慑力的,因为他们会担心IT部门可能还会调整其他虚拟机的资源分配情况。
虚拟机蔓延问题和许多人具有的“免费服务器”心理是密不可分的。对于应用程序所有者来说,基础架构资源通常是由其他人进行管理的,因此根本不存在任何限制。而想要重新引入之前的资源限制方案无疑是一种挑战。但是如果我们不这样做,那么将会面对大量被遗弃的虚拟机,这些虚拟机将成为我们追求灵活、敏捷和高效的障碍。