现代网络性能监控工具应具备何种技能?互联网
以前,企业网络工程师不得不为各种连接的服务器、应用程序和终端设备提供网络接入和足够的带宽。从OSI模型角度看,这些工具主要关注于1-4层网络。由于通过一个网络的所有流量和数据流都共享全部的带宽和队列资源,更高的OSI层次多少被忽略了。
慢慢地,网络设备变得越来越复杂,现在网络中不同的数据流都可以被识别出来并区别对待。各种服务质量(QoS)和应用层流程成型技术也可用于实现这个目 标。此外,随着对于关键业务应用程序依赖程度越来越高,网络工程师也迫切需要了解OSI模型的更高层次,这样他们才能发现网络、服务器操作系统、虚拟化软件和应用程序本身所存在的性能问题或其他问题。但是,要想解决这些问题,他们需要借助于一些工具。
在许多场景中,网络性能监控工具已经从较为传统和简单的网络监控软件向前进化。这些监控工具通常使用ICMP的ping和简单网络监控协议(SNMP)的 polling/traps去检查网络状态。更现代的补充功能包括监控、基线化和智能分析应用程序本身的所有状态。最先进的网络监控工具则还能够执行以下 5种功能:
1. 网络与应用程序监控
2. 网络问题分析
3. 应用数据与流拦截分析
4. 虚拟化与操作系统问题检测
5. 问题根源分析
不同的网络性能监控供应商在执行这些任务的粒度各不相同。而且,越精确的任务在实现和管理时会越复杂。因此,一定要准确理解自身组织的需求,之后再恰当地平衡粒度和复杂度。那么,我们接下来继续分析现代网络性能监控工具所具备的5个常用功能。
网络与应用程序监控
正如前面所提到的,现代网络监控工具已经从使用ICMP ping和SNMP协议的网络监控进化为更复杂的工具了。来自网络监控服务器的常规ping命令会发送到各种不同的网络、服务器及其他需要监控的终端设备 上。如果所监控的设备没有响应ping请求,那么监控工具可能会将该设备标记为“宕机”,然后向支持人员发出警报。
SNMP会收集和组织来自支持这种协议的网络与服务器组件的各种不同类型的数据。
对于网络设备而言,这通常意味着要不断地监控特定的设备接口状态和数据吞吐量。此外,它还会监控硬件状态,其中包括电源、风扇和内存使用率等。
有一些网络性能监控工具还能够收集和响应各不同的系统日志(Syslog)消息。系统日志是一种面向基础架构设备日志消息的通用标准。这些消息会被发送和 存储到一个集中的网络监控工具中,经过分析后会在出现系统故障时用于通知支持工程师。
网络监控工具具有全面的监控能力,它不仅能够监控可用性和性能统计数据,甚至能够监控整个应用层。这种监控通常依赖于所配置的软件插件或操作系统设置,将监控数据发送回中央监控服务器。
虚拟化和操作系统问题检测
网络与应用程序之间也一定会出现一些问题。这其中包括虚拟化、服务器操作系统及应用程序所依赖的各种中间件。虚拟机管理程序需要单独监控可能造成应用层性 能下降的问题。负责管理分布式系统之间通信的主操作系统和中间件也有一样的问题。网络性能监控供应商会使用不同的方法去监控这些问题,其中一些还支持更多 的虚拟机管理程序、操作系统和中间件软件。
网络问题分析
除了提供简单的在线/断线状态和使用率信息,网络性能监控产品还能执行更复杂的自动化网络故障修复任务。这其中包括路由协议监控和计划外路由变化警报。此外,有一些产品还能使用智能技术去理解各种WAN技术、虚拟堆叠和QoS特性的工作方式。此外,它们还能设置成在出现问题时自动发送警报,甚至还能够执行 自动修复问题的操作。
应用数据与流的捕捉分析
现代网络性能监控工具的最重要任务就是解析和分析数据与流。在网络中,不同区域可以用不同的方法去捕捉数据包,然后执行自动和/或人工分析。最常见的方法 有:
1. 在所有关键的网络位置上部署分布式数据采集代理。
2. 使用特定路由器/交换机硬件所具有的数据包捕捉功能。
分析数据包并执行更精细的应用分析,这是许多企业组织越来越重视的需求。通过使用深度数据包检测技术,网络管理员就能够分辨出与应用程序关系更密切的通信问题,否则这些问题很难检测到。
网络流采集会整理出数据进出网卡的IP网络统计信息。一旦将这些数据发送到一个集中的服务器并通过网络性能监控流分析工具的分析,网络支持管理员就能够分 辨流量的源信息和目标信息,以及流量在通过网络时会遇到的详细QoS策略。最终,这些数据会被用于识别网络设备之间的配置问题或各个网络路径的拥塞问题。
问题根源分析
在一个网络性能监控工具上整合各种事件数据并进行分析,能够形成一种自动化问题根源分析功能。如果网络中出现一个问题,然后它触发多个组件的事件,那么许 多网络性能监控工具都会使用人工智能技术分析这些事件的关联性,最终确定这个问题的根源。这是其中一个需要配置的复杂功能,因为它要求正确配置所有的设备 和监控系统。例如,如果设备时间没有通过网络时间协议(Network Time Protocol)进行同步,那么事件发现的时间就会出错。这会给问题根源分析引擎的精确度造成负面影响。但是,一旦创建好并采取正确的维护措施,自动化 问题根源分析工具就能够在故障修复方面节省大量的时间。