大数据及数据公开将有助于应对雾霾天 - IDC产业联盟网（idcun.com）

大数据及数据公开将有助于应对雾霾天行业资讯

2013-01-25 来源：中国青年报编辑：佚名

如果想通过图表看出污染源在哪儿，停驶车辆有什么样的效果，还得耐心等待，因为我们目前第一步还没有迈出——数据公开。

　　2013年刚刚过去的两三周里，中国的许多城市经历了一场被动的“战争”——全民应对雾霾天气。在北京，政府不得不以工地停工、公车停驶、工厂停产等种种措施，尽力减少各种污染物的排放。“雾霾”在这段不短的时间里成了公众热议的焦点，但是“十面霾伏”的敌人来自何方，最高时将近1000微克/立方米的空气指数究竟是怎么产生的，对大多数公众来说，一直是个模糊概念。

　　环保部门分析，首先，污染物排放量大，燃煤、机动车、工业扬尘，这些污染源排放量大，是造成空气严重污染的根本原因;其次，扩散条件不利;第三，区域污染和本地污染“贡献”叠加，PM2.5污染区域性及相关联区域污染相互传输，是重污染形成过程的重要因素。

　　那么，燃煤、机动车、工业污染和扬尘究竟各自“贡献”了多少PM2.5、PM10?是否能够有更准确的数字?因为目前的数字都是大致而已，而且不同的研究机构发布的也各不相同。

　　“大数据”无疑是近来较热的一个词。各种各类有关计算机、信息技术的论坛、讲座上，大数据都是被提及最高的词语之一。在不久前举行的“2012中国计算机大会”上，“大数据”是出现频率最高的一个词，几乎每个主讲者、每场论坛，都谈到了这几个字。

　　围绕大数据的图书，也借势出现。与内容相呼应，这些书都厚似砖头，数据量很大。涂子沛的《大数据》一书，在其中算是通俗易懂的。作者在美国留学之前，在国内的省市县几级政府工作过，到了美国之后，做过职业程序员，现在是美国一家公司数据中心的主任，这种人生工作履历，使他把技术、社会相互促进交替上升的过程叙述得清晰明白。书中涉及的数据应用实例，信息充分，图表直观。让人与北京空气污染联系起来的，是美国通过数据分析，让交通事故死亡下降的例子。

　　2011年7月26日，《纽约时报》刊登了一篇文章，里面有这么一段话：“截至2010年，中国拥有7800万辆机动车，大概相当于美国的三分之一。但是根据中国警察部门的报告，2010年有7万人死于交通事故，是美国的两倍，真实的数据可能还要高得多。两国的交通安全专家认为：美国的数据非常可靠，统计了每一宗死亡案例，但中国的地方警察部门存在少报、瞒报的问题，只有一部分交通死亡的数据最终进入了官方的报告。”

　　美国是汽车大国，从1960年到1965年，交通事故死亡人数每年以近30%的速度上升，1966年突破了5万，成为当时关注的焦点。有人甚至预测，到1975年，这一数字会达到10万，但事实上，这个预测没有成为现实。功劳是美国交通安全管理局(NHTSA)的循“数”管理。这个管理办法起源于1966年，在突破交通事故5万人之后，他们建立了“交通事故死亡分析报告系统”，交通管理局也因此成为美国政府最早开始大规模收集数据的部门之一。

如今，2009年美国交通死亡的相关数据在管理局的网站上就可以查到。有各种数据对比表格，比如某一天，某个时间段，是因为单车事故，还是多车相撞，清清楚楚，尤其是酒后驾驶的数字，加黑处理更直观。在天气和路况对比表格中，可以查到雨天晚上有灯光时或者雪天黎明时、正常天气晚上无灯光时，诸如此类情况下的交通死亡数字。

　　一年一个地区的数据杂乱无章，但是跨年度、跨地区的数据越来越多，规律就浮出水面。于是改变某些地点的坡度，加大安全带佩戴检查力度，循“数”管理。同时，NHTSA还将数据公开，仁者见仁，提出多种交通管理新办法。

　　在《大数据》一书中，类似这种社会应用提高社会管理水平的例子，比如如何降低纽约地铁内的犯罪率，医保制度如何更完善等还有很多。此外，也有沃尔玛为什么会将尿布和啤酒捆绑销售、每次飓风来临之前为何要加大一种小甜品的仓储等商业销售案例。当然还有奥巴马利用数据分析有效争取选票，两次竞选成功的数据功劳。

　　美国数据治国基础源于《信息自由法》，这部长达十几年，经过几方人士不断妥协、抗争、再力争才通过的法律。公民有了知情权、政府有了公开信息的义务，数据才变得像资源一样被开采并且能够被利用，否则，数据分散、隐藏在各个地方，之后的挖掘、可视化、应用都是瞎扯。

　　由此看来，依靠大数据分析北京或其他城市空气污染的形成及对策，任重道远。

　　首先，就是数据的来源。高耗能企业的生产规模、排放量这些数据是否层层上报，准确统计?掌握此数据的部门是否能向社会公开?北京500万辆汽车所加汽油到底有哪些成分，产生的尾气对空气污染指数的“贡献”率到底多大?

　　目前似乎这些都还做不到。中共中央政治局常委、国务院副总理李克强在谈到北方地区大面积空气污染严重时，强调必须有所作为，同时公开、透明并及时向公众公开了PM2.5的数据，提醒公众有污染，损健康，要加强自我防护。要树立全民意识，需要全民参与，共同治理。

　　确实，从1月10日开始，北京出现持续重度污染天气之后，“环保北京”、“气象北京”、“北京环境监测”、“平安北京”等政府官方微博第一时间发布相关信息。虽然这些只是提示性的信息，也算走出了一小步。

　　不过，更进一步的信息，比如按照《北京市重污染日应急方案》，污染最严重的区县停驶30%公车，到底有多少公车停驶，相关部门都一直没能给出确切的数字。

　　大数据收集、挖掘、应用是技术问题，而数据公开与否就是态度问题了。

　　翻看着北京极重度污染几天中官方发布的各种干巴巴的污染指数，很羡慕《大数据》一书中的几个图表，一个是1850年代，南丁格尔这名英国的战地护士，在考察了在克里米亚战争中英国士兵死亡情况后，作出的简单图表，清晰地反映出“战斗死亡”和“非战斗死亡”的悬殊对比，由于医疗卫生条件恶劣导致死亡人数大大超出直接阵亡人数，这张图表直接促成了英国政府建立野战医院的决定。

　　还有一张出现在2010年2月1日《华盛顿邮报》上，当时，奥巴马宣布了联邦政府新的年度预算。《华盛顿邮报》利用可视化技术，制作了图表，用线条的粗细表明各项收支金额的大小，左右两列表示收支，钱从个人所得税、企业所得税、消费税还是遗产税来，向哪里去，是用于国防、社会保障、医疗还是债务利息支出，一目了然。

　　2012年2月，《纽约时报》又用“圈圈”对2013年联邦政府的预算进行了可视化展示。他们用圆形的大小表示金额的多少，颜色表示增减，绿色代表增加，红色代表缩减，变化额度越大，颜色越深。

　　这些直观的图表是大数据可视化的结果，如果想通过图表看出污染源在哪儿，停驶车辆有什么样的效果，还得耐心等待，因为我们目前第一步还没有迈出——数据公开。