打破传统运维思路:北塔软件与云南电调的给力合作网管
项目背景:
随着电力信息化的不断发展,调度中心的业务系统越来越多。目前云南电力调度中心已建设的系统共计20多套,分布在二次系统安全防护体系的安全1、2、3区。安全1、2区与3区无法实现网络方式的连接。为实现综合一体化监控,云南电调在引入北塔BTIM的同时,在1、2区与3区之间添加数据传输接口,既减轻了运维人员的工作压力,又大大提高了运维效率,实时了解整个系统运行状况不再是天方夜谭。
云南电调需求:
目前云南电调的系统维护中主要存在的问题如下:
一、系统由中心各个科室建设,但是各系统硬件的主要运行维护职责在自动化科;
二、设备复杂,包含了IBM、HP、SUN、DELL、CISCO、H3C等各种厂商的设备,运维人员无法实时掌握各系统设备运行情况,当网络发生故障时也无法定位根源,经常是出了事情四处救火;
三、由于各个安全区中的各系统由不同科室建设,资源管理不统一,这给日常工作和运维管理带来了很大的困扰;对流量和设备负载无法进行第一时间有效统计。
四、部分系统为全省大集中的系统,承担着全省的实时、准实时业务,一旦故障,将给正常调度运行业务带来很大影响。被动救火式的管理让运维人员承受着巨大的压力,工作很辛苦但收效却不显著。
五、主机系统和业务数据库缺乏有效的监控手段。对于数据库空间写满等比较棘手的问题没有有效手段进行监控。
六、系统分布在电力二次安全防护体系的1、2、3区,遵循严格的单向隔离策略,各系统之间也只实现了弱连接,对各系统的运行监视较为困难。
如何维护好这些系统,提早发现、解决问题,成为了运维人员亟需解决的问题。
传统的网络管理软件无法穿越非网络方式连接的隔离装置,为此,2010年10月,云南电力调度中心在引入北塔BTIM综合管理系统的同时,向北塔公司提出了穿越隔离装置的需求,在安全3区实现统一报警,最终达到1、2、3区统一监控的目标。
穿越隔离装置方案实现
众所周知,网管软件的工作原理是通过SNMP、SSH、JDBC等对各种监控对象进行轮询数据采集,如果要使用网管软件一般把网管软件放在网络中的管理VLAN中,保证网管机都通过以上监控协议能访问到所监控的对象进行数据采集。由于云南电力调度存在安全的1、2区和3区网络只能通过经过认证的正向型隔离装置进行连接,所以如果需要进行一体化监控难度十分巨大,因为各种监控协议都基于TCP/IP协议,而隔离装置实现的是非网络方式的连接。所以要实现一体化监控就必须考虑到监控软件如何通过隔离装置传输数据!根据实际情况,我们共部署了2套BTIM的监控软件,一套在安全1、2区,一套在3区,3区的系统同时实现数据汇总展示。并且对1、2区的监控系统,根据南网安全要求规范采用了HTTPS进行展现。
目前云南电力调度中心所使用的隔离装置型号为珠海鸿瑞的HRWALL-85M-II ,该设备目前JAVA版传输软件支持的数据传输方式包:文件传输、多文件传输 、SQL、 XML文件、数据库 整表传输、 增量传输 (需要设置时标字段)。
云南电力调度中心引进的上海北塔公司的BTIM软件系统,工作模式为数据采集器+前端应用程序+后台数据库+后台服务。BTIM 用户端界面采用微软IE浏览器,数据传输采用http与https 协议,Web Server 采用IIS,管理后台基于微软的 .Net 架构,数据库支持SQLServer数据库及 Oracle 数据库,四层结构可以拆分。基于以上分析,结合项目特点,最后确认分2步实现穿越隔离装置:文件传输和数据库传输。
(1)对于实时和准实时数据:考虑到告警数据和每天的报表数据对即时性要求非常高,特别是告警数据,及时告警对于运维人员平时的运维工作十分重要!由于文件传输在隔离装置上的传输速度最快,我们考虑通过文件传输方式来实现。隔离装置可以支持每5秒发送一次文件。并且支持传输完成后删除文件。具体方案为:北塔在1、2区部署的BTIM系统生成告警的同时,生成能多方识别告警的XML文件保存在本地硬盘。这个告警文件夹通过隔离装置设置为传输目录,在3区的BTIM系统通过接收中收到系统的外部告警的XML文件。然后统一发送给客户的短信平台、实现了即时告警。通过隔离装置的文件传输方式我们从产生告警-发送告警文件-系统扫描告警目录读取告警文件-告警展现。测试延迟可以到达10秒以下,效果非常满意。
北塔BTIM系统生成的报表文件同样为HTML网页格式的文件、也可以生成EXCEL的报表文件。我们在3区部署的BTIM系统上通过隔离传输后自动识别1、2区的告警信息的HTML报表文件、直接读取传输过来的报表,实现了报表的统一展示。
(2)对于历史数据和性能数据:北塔后台的数据库由于采用开放性数据库,所以我们考虑到通过数据库的整表传输和整量传输来实现。由于北塔的数据库表做了限制性保护,北塔为此做了二次开发,调整了表结构以支持隔离装置数据插入.
网络拓扑管理提高工作效率
云南电力调度中心目前有大约有150个节点,包含了IBM、HP、SUN、DELL、CISCO、H3C等各种厂商的设备。以前对于这些设备的维护,都需要维护人员登陆至各台设备上,人工查看各类指标,以了解设备的运行状况。这些操作,花费了维护人员大量的精力,并且由于是定时维护,设备的实时运行状况仍不能掌握。通过部署北塔的BTIM软件,实现了实时掌握所有IT设备的运行状况,包括CPU、内存、磁盘、网络端口等使用情况,并且通过真实的网络设备面板图,能够直观的了解网络设备的运行情况。
通过对监视的CPU、内存、磁盘使用情况设定阀值,并在第一时间将报警信息通过短信、邮件、声光等手段提示维护人员,免去了维护人员以往需登陆至每台服务器进行查看的方式,提高了运行维护的效率。
拓扑图上显示了服务器、路由器、交换机等设备,节点之间的连线代表的是真实的线路连接关系,表明了各种IT系统之间的逻辑关系与物理关系。节点和线路的颜色有红、黄、绿三种,代表着对应的状态为紧急、注意、良好。运维人员无需跑到机房查看设备,只要看一眼拓扑图就能做到心中有数了。
全网报表总缆:实现了对于IT系统历史数据的记录和汇总。通过历史数据,还能了解设备以往的运行情况,对掌握设备的健康状况,对系统硬件的调整提供有效数据。
客户收益
通过实施北塔BTIM解决方案,将云南电调的运维人员从繁杂重复的工作中解脱出来。只需在三区部署一个值班管理平台,就可实时了解到1、2、3区所有系统及网络的运行状况,实现一体化监控。基于北塔BTIM解决方案建立的稳定、可靠、高效和安全的IT运维管理综合平台,保证了云南电调的综合监控有效实施。