网管心得:使用指示灯来排除第一层故障网管
众所周知,网络数据在传输遵循OSI七层模型。当网络出现通信故障时,物理层、数据链路层、网络层、传输层、会话层、表示层、应用层等等都可能出现问题。简而言之,网络故障的排除是一项非常庞大的工程。那么如何来简化这项工作呢?其实有经验的网络工程师,已经从中摸索出一套规律。从第一层,即物理层开始,从下往上来排除故障,从第一层到第七层。在这篇文章中,笔者就谈谈如何简单的通过指示等来排除第一层面的故障问题。
一、通过指示灯可以看出哪些问题
在思科的路由器或者交换机中(其他品牌的网络产品也是类似),指示灯往往是一个非常有用的故障排除工具。如路由器或者交换机的接口,都可以通过指示灯来判断起运行是否正常。通常情况下,如果路由器或者交换机等网络设备出现如下问题的话,都会通过指示等表现出来。
如电缆连接间歇性中断问题(可能是水晶头接触不良导致);如电缆连接到了错误的端口上或者说没有连接电缆;如对于当前任务管理员不小心使用了错误的电缆;如收发器出现问题(可能是受到病毒的攻击)等等。这些都是在第一层中比较容易碰到的问题。
通常情况下,交换机或者路由器大部分接口或者NIC 都会有对应的指示灯来显示连接的状况。在思科的说明书中将这种灯叫做链路灯。另外,指示灯不仅仅可以表示连接是否正常,还可以表示这个接口发出或者收到的信息的流量。如一般企业网络中受到病毒攻击的话,流量会爆增。最后在指示灯上反映的结果就是指示灯不断的闪烁。
二、通过指示灯来解决网络故障问题案例分析
案例一:病毒导致接口流量增加
记得有一次笔者接到一个朋友的求助电话。他在一家台资企业做网络管理员。有几天他们公司的网络速度特别慢。查了好久也没有发现原因。他就打电话给我,问我有没有什么好的解决方法,或者是否有检测工具帮他检测一下。我听了他的介绍,他说他们公司以前的网络速度很快。而且最近也没有上大的应用或者说调整网络结构,客户端的数量也没有增加。现在就是网络速度莫名其妙的变慢了。
笔者听了他的介绍后,心中导致有数了。我先让他找到中央交换机,然后查看一下交换机的指示灯的运作情况。是否有几盏灯闪烁的特别厉害。他观察了一下告诉我,相比其他的指示灯来说,确实有两盏灯一直在很高频率的闪烁。笔者就告诉他,很可能就是这两个接口在作怪。这两个接口所连接的终端在不断的向外网发送数据包,占用了企业大部分的网络带宽,从而导致企业网络速度变慢。
故障测试与解决的方法:
遇到以上这种情况,笔者建议先将这些闪烁频率很高的指示灯对应的接口先禁用掉。或者说,将连接在这个接口上的电缆先拔掉。然后检查一下网络速度是否运行正常(有时候可能需要重新启动交换机)。如果恢复正常了的话,那么就说明问题就出在连接这些接口的客户端上。此时网络管理员需要检查这些客户端,对他们进行查毒等措施,看看是否有病毒或者木马。
如果采取了如上措施之后,网络速度还是很慢,那则说明可能是交换机本身的接口问题。或者是网络拓扑设计的不合理(如在同一个交换机接口上通过集线器连接了很多客户端)等等。那么就需要通过其他的工具,如流量分析仪器,进一步查询故障的原因。
案例二:电缆问题导致的网络故障
在实际工作中,一些劣质的电缆往往容易导致比较多的问题。一般来说,使用有问题的电缆或者错误的电缆都可能会导致链路灯指示不正常的连接或者无连接(如电缆中间断掉,即使其两端已经正常连接在各个接口上,但是链路灯仍然不亮,表明无连接)。
故障测试与解决的方法:
通常情况下,电缆的故障还是比较容易辨别与解决的。一个比较简便的方法就是,尝试一根已知的能够正常工作的电缆去替换原来的电缆,看看交换机或者路由器能否正常工作。如果更换电缆后问题解决了,那么就百分之百的可以肯定是电缆问题了。
另外需要注意的一个问题是,需要在正确的地方使用正确的的电缆。这是什么意思呢?电缆一般有交叉线与平行线两种。他们分别适用与不同的情形。如在两个未端系统之间的连接(如PC和路由器之间或者两台交换机之前)旧需要使用一条专门的交叉线。否则的话,他们之间就无法正常的通信。
当链路等工作不怎么正常的情况下,一般需要检查并确认所有的电缆接口都已经连接到了正确的端口上,检查所有的交叉连接都使用了适当的电缆和连接方法。为了保险起见,一般还需要检查所有的交换机或者集线器的端口都已经设置了正确的VLAN或者冲突域。
对于电缆这个问题,笔者还有一个建议。一般在组建网络的时候,最好能够给电缆一定的保护,或者电缆冗余。如在铺线时,最好给电缆外面再套上一根PVC保护管,防止老鼠等咬断电缆。在关键的链路上,如部门级交换机到中央交换机或者路由器之间,最好能够多备一根电缆。以防在原由电缆出现故障的时候,能够马上使用后备的电缆进行工作。
最后需要提醒的一点就是,如果布线不是临时的,而是长久的,那么电缆的质量也需要考虑。最好选择那些正品,而不采用冒牌的网线。因为冒牌的网线在信号的屏蔽上、抗氧化性上等等都会比较差。笔者以前碰到过一个杂牌的网线品牌,其用不到两年,外面的保护层就很脆了。
三、利用指示灯来解决物理层故障的注意事项
在利用指示灯来排除故障的时候,需要注意,有时候这个指示灯也会有误诊的情况出现。如网络运作很正常,但是指示灯却显示网络通信有故障,如频繁的闪烁或者信号灯没亮。为此如果接口的指示等显示当前的连接为无效连接的话,网络管理员如果光比设备的电源并重新启动交换机或者接口卡的话,故障就可能解决了。虽然碰上这种几率很小,但是管理员仍然需要注意有这种情况的存在。
在排除物理故障的是时候,还有一个容易忽略的问题就是设备电源或者电源线的问题。笔者以前就碰到过类似的故障。那时笔者利用两个交换机将企业的两幢办公楼的网络相连。用了一段时间时候发现一个奇怪的问题。就是两幢楼之间的网络会时不时的发生中断问题。后来查询发现,是其中一幢楼的交换机,不知道什么原因老是会突然断电。只要拔掉电源,然后重新插一下就可以了。一次两次还可以通过插拔电源线来解决问题,但是次数多了,也很麻烦。后来笔者干脆就换了一跟电源线,从此问题竟然神奇般的消失了。由于认识的盲点,总以为只要电源通的话,电源线就不会有问题。而现在正式电源线在搞怪。这也给笔者一个教训,在排除网络故障的时候,不能够忽视任何一个细节。