安全工程师揭秘"5.19":DNS DDoS后的两小时暗战
2009-05-25 搜狐IT
5月19日晚21点左右,中国出现大范围网络故障。江苏、河北、山西、广西、浙江、天津、内蒙古、黑龙江、广东等省份均有网民反映上网遭遇故障,出现打不开网页等问题。据工业和信息化部通信保障局发布的最新公告,确认该事件原因是暴风网站域名解析系统受到网络攻击出现故障,导致电信运营企业的递归域名解析服务器收到大量异常请求而引发拥塞。
网络安全企业绿盟科技,在此事件发生的第一时间,伴随客户度过了惊心动魄的两小时,上演了一场与DNS DDoS搏斗的精险实战。
临危受命
5月19日晚9点半左右,绿盟科技的安全专家小林接到某电信工程师电话, “我们的网络出现重大故障,请马上赶到电信机房”。小林赶到后,运维中心主任召集监控中心网络、系统、业务技术专家开了一个紧急会议,对当前问题做了总结。网络组技术人员反馈:网络设备CPU利用率、数据流量没有异常;系统组技术人员反馈:RADIUS服务器工作正常,宽带客户认证授权正常;业务组人员反馈:城域网大面积出现宽带用户访问网页速度慢、无法上网现象。
重大转机
运维中心现场人员在分析本地城域网故障的同时,与集团公司运维部也进行了汇报交流,反映了本地网遇到的问题,询问骨干网是否出现异常。小林根据来自于总部技术支持中心的技术应急信息以及现场情况对网络故障进行了初步分析。随后对相关安全系统展开检查,突然发现部署在DNS系统网络出口的黑洞安全防护设备有异常告警,DNS系统的网络流量出现激增。针对此异常情况,小林即时启动设备自带的抓包功能进行抓包,然后对获得的数据包进行分析,发现超过50%的DNS解析请求是针对某互联网业务提供商的。随后,运维中心的现场人员对DNS系统进行了核查,发现DNS服务器群处于超负荷运行状态,DNS查询响应延迟非常大。
经与总部沟通确定后,小林向运营商局方人员介绍了故障原因及解决方案,局方人员与集团公司再次进行了紧急沟通,汇报了本地监控发现的DNS服务的异常情况,并与某互联网业务提供商求证该公司的系统是否出现异常情况,该公司负责人反馈系统服务出现异常,目前正忙于相关系统的升级抢修工作。
问题定位后,绿盟科技的技术专家与局方人员共同商讨,即刻确定了应急方案:一是在黑洞上开启模式匹配策略,对指向该互联网业务运营提供商相关域名解析请求进行过滤,减轻对DNS服务器的查询压力;二是在本地DNS服务器上针对该互联网业务运营提供商相关域名设置强解析策略,保障运营商以最小的代价保证绝大部分的应用正常开展。
平息危机
晚上11点,小林和局方运维人员迅速下发应急策略后,DNS系统网络流量从150M飞速下降为10M,DNS查询请求骤然下降70%,DNS系统快速恢复正常,随后用户的互联网接入业务逐渐恢复。
小林等技术专家进行应急支持的同时,华北区域的应急响应人员在也在华北某电信运营商的机房里忙得热火朝天——网络故障分析、数据抓包、数据分析……,再将现场情况向总部进行反馈。总部技术专家分析发现华北电信运营商遇到了与小林所支持的南方电信运营商相同的DNS大流量攻击问题,不过目前的DNS流量还只是处于快速增长阶段,为了防止DNS系统可能出现的瘫痪,总部马上与现场应急响应人员交流现状和制订应急处置方案,并经过与局方运维人员确认后立即启动相应的防护策略。应急策略下发实施后,防止了该地区互联网业务大面积中断的发生。
华东、华南、华北、西北等地省电信运营商陆续与集团公司取得联系,各省市电信运维部门采取紧急策略,对各地的DNS实施应急防护策略,随后DNS服务逐渐恢复正常,互联网业务渐渐恢复。5月20日凌晨全国互联网基本恢复正常运转。
后记
这次事件貌似由DNS的大量查询请求所引起,对DNS服务器形成了一次饱和的DDoS攻击,导致某些运营商的DNS瘫痪。事实上,DDoS攻击广泛存在于互联网中,而针对DNS服务器的DDoS攻击事件更是层出不穷,且形式越来越多样化,主要包括以下几种:利用缓冲期溢出;海量流量堵塞带宽;伪造源IP发送海量DNS查询;源端口53的UDP FLOOD(攻击负载均衡设备);真实协议栈大量查询随机域名引起迭代查询。