百度高级安全工程师吴登辉:Web防火墙大数据分析实践互联网
吴登辉表示,本次分享是站在一个甲方的角度,详细的阐述了利用大数据安全分析技术对百度Web防火墙的海量日志包括访问日志和拦截日志进行多角度分析,带大家感知未知Web攻击,并为其他安全产品提供情报支持。
安全运维体系里最常见的四大痛点
透过百度的安全体系建设,安全建设之困主要有主动漏洞发现、WAF和IPS做的攻击阻断、IDS做的攻击检测、XSRC或者Wooyun做的漏洞报告四方面的痛点。
主动漏洞发现。主动漏洞发现扫描器到底能发现多少个漏洞,这是个未知答案。因为存在身份认证和扫描器URL不全问题。对于一些需要身份认证的扫描页面,假如用户是一条删除记录的操作,扫描很可能给线上业务带来伤害。如果在公司用扫描器时,带上身份认证进行登录的形式,很有可能造成线上数据一团糟。 扫描器UIL为什么不全,是因为有很多URL不一定爬虫能够爬到,是受限于爬虫的。
攻击阻断。不要以为发布WAF和IPS就不备受攻击,使用WAF不是百分之百解决你的问题,它只是使你的黑客攻击更加困难了而已。黑客只要想攻击,他还是有办法的。
攻击检测。传统的攻击检测是上了一台设备,做了攻击检测,运维人员应都有感受。当Web黑客用扫描器时,如遇某种情况,扫描器会触发一千多条报警,面临运维人员每天面临这样几千条报警,放弃是必然。
漏洞报告。感觉利用XSRC能够能够拦截到攻击,不被发现。真实情况是在被黑以后,黑客怕被警察抓,就在黑完之后,在Wooyun上发报告,以显示自己是一个白帽子。但是他在你网站上做了什么事情,并无人知晓。
从入侵检测角度谈大数据安全
了解综上这些甲方苦逼运维人员的痛苦之后,我们从从一个入侵检测角度来谈大数据安全。吴登辉表示,入侵检测并不是针对一条报警,画一个攻击图,说哪个IP在哪个地方攻击你,展示在大屏幕上里,这样做并没有实际意义。而是通过从海量数据中发现一些传统设备发现不了的问题,同时解决某些问题,如解决海量报警的问题。下面将从入侵监测角度从数据采集、数据分析、基础架构、数据分析实践四方面谈大数据安全。
数据采集。数据采集也要讲究方法,如把所有系统的数据全部采集过来那是采集狂魔。如只采集系统已有的数据放在集群上是采集懒人。安全数据采集是要有针对性的采集数据,甚至需要开发特定的采集探针,有效的数据会保证你最后的分析事半功倍。
按攻击树和Cyber kill Chain采集数据
可按照攻击树和Cyber kill Chain来采集数据,构建攻击场景。黑客到底有多少攻击手法,来攻击我们,在这条攻击路径上的所有日志,都可以采集来。
数据分析。通过机器学习发现异常,但异常的结果会比较多。其次要人工标定分析,人工标定分析就可以产出一个规则情报,之后将规则情报反馈给分析系统,会产生更多的信息。这个流程其实是一个闭环的,情报是通过我们学习发现异常里面出现的,并且通过分析师分析得出。最终规则情报是反馈给现有分析系统。
基础架构。如上图,大数据有很多种系统架构,吴登辉表示,真正的系统架构应该是可以实现交互式搜索,情报易集成可动态配置,支持机器学习模型训练以及支持实时模型调用。
分析实践。为了发现绕过Web防火墙的攻击行为,并提取攻击情报,包括扫描器payload恶意攻击IP等。需要从HTTP请求的各个角度,PATH, QUERY, UA, SESSION等多个维度进行分析。并采用基于统计、机器学习,对PATH,QUERY,SESSION等建立模型的分析方法。包括:参数分布,请求频率,SESSION请求宽度,404比例等。分析实践有QUERY模型、PATH模型和SESSION模型。
实践的效果
吴登辉在分享接近尾声时,分享了实践效果。他说到:“日输入数据是3T多,这边是保守的数据,这是去年一开始3T,现在已经接了安全网的数据,其实是不止3T的。产出的异常,就是3T日志里面异常是十几兆,经过进一步剥离发现是千条。WAF总共50条规则,给WAF增加了十几条规则。同时又改善了WAF十几条规则,也就是说你可以认为WAF大部分规则都被我们这个系统调整过。另外一个发现众多绕过WAF的Webshell,发现很多有趣的payload”。
讲师简介:
吴登辉,百度高级安全工程师。历经安全运维,安全测试,安全开发。对企业安全体系建设,以及安全大数据分析具有较为深入的了解。曾就职于华为,负责二进制方面的漏洞挖掘工作。入职百度后,曾负责web安全测试、移动app安全评估以及一些安全规范安全体系的建立等,也参与了百度安全中心的建立。目前,主要负责web日志的安全分析。