统计大数据面临大挑战 行业资讯

2015-12-02    来源:中国信息报    编辑:赵志强
大数据具有数据体量巨大、数据类型繁多、价值密度低、处理速度快的特点。在带来各种光鲜机遇的同时,大数据也带来了新的挑战,尤其是关系国计民生的统计大数据,如应用不慎,

  大数据具有数据体量巨大、数据类型繁多、价值密度低、处理速度快的特点。在带来各种光鲜机遇的同时,大数据也带来了新的挑战,尤其是关系国计民生的统计大数据,如应用不慎,达摩克利斯之剑可能随时落下。

  面临的挑战

  在大数据被讨论得最热火朝天时,“棱镜门”为全世界敲响了警钟。但多数人忽视了一个关键问题,正是有了大数据,才让“棱镜”项目得以顺利实施,大数据技术在带来机遇的同时,带来很多问题。

  巨大体量使得信息管理成本陡增。海量数据的管理是每一个大数据管理者的极大挑战。在互联网上,大数据是非常容易被发现的目标,已成为网络黑客攻击的首选对象。大量数据的集中存储增加了泄露风险,黑客的一次攻击成功就能获得比以往更多的数据,黑客的攻击收益远远大于进攻成本。在大数据时代,数据加工和存储链条上的时空先后顺序已被模糊,可扩展的数据联系使得安全防护更加困难。

  在国家统计局联网直报平台上,有企业一套表、采购经理调查、工业生产者价格调查等网上直报项目,数以万计的被调查单位的数据汇聚在一起,是实实在在的统计大数据,这里面蕴藏着更复杂、更敏感、价值巨大的信息。从微观角度来看,被调查单位的指标直接反映了自身生产经营状况;从宏观角度来看,如果通过专业人员分析,透过这些数据更可以对经济运行状况和未来走势一探端倪。目前,网上直报项目的登陆账号多为被调查单位的法人代码,默认密码一般为法人代码,初次登陆后一般修改为“12356”、“11111111”等过于简单的密码,这些数据在某种程度上会引来潜在攻击者。

  类型繁多加大了信息有效性验证难度。大数据时代,由于不再拘泥于特定的数据收集模式,数据来自于多维空间,各种非结构化的数据与结构化的数据混杂在一起。太多无用的信息造成信息不足或信息不匹配,如何从海量的数据中去伪存真,提取需要的数据,是每一个大数据应用者面临的挑战。

  日常统计调查工作收集了大量统计数据,通常可以依托算法处理得出走势和预测。但是,如果被调查单位上报的数据存在人为失误,或者在收集数据的过程中出现了偶然的非人为失误,导致数据本身出现了问题,通过数据分析得出的结果也将不尽准确。

  低密度价值分布使得安全防御边界有所扩展。第一,大量的数据汇集,包括大量的企业运营数据、个人隐私和各种行为的细节记录,数据的集中存储增加了泄露风险。第二,一些敏感数据的所有权和使用权并没有被明确界定,很多基于大数据的分析都未考虑到其中涉及的个体隐私问题。第三,大数据对数据完整性、可用性和秘密性带来挑战,在防止数据丢失、被盗取、被滥用和被破坏上存在一定的技术难度,传统的安全工具不再像以前那么有用。

  统计调查工作涉及了大量企业、家庭和个人的隐私数据,如企业投资方向、人员信息、家庭收入、日常支出、消费记录等。《统计法》第九条明确规定:“统计机构和统计人员对在统计工作中知悉的国家秘密、商业秘密和个人信息,应当予以保密。”而在大数据时代,任何人都可以是信息的提供者和维护者,这种由先天的结构性导入设计所带来的变化,要采取必要的技术手段实现隐私保密。

  快速处理要求使得独立决策的比例显著降低。大数据时代,对事物因果关系的关注,转变为对事物相关关系的关注。大数据系统是一种辅助决策系统,事实上,大数据分析日益成为一项重要的业务决策流程。

  宏观经济失衡的发生,会给国民经济发展造成巨大损失,并引起经济大起大落、强烈波动。国家统计局发布的经济预警指数包括工业生产指数、固定资产投资、城镇居民人均可支配收入、居民消费价格指数等十余个指标。在经济运行过程中,如何快速准确地对经济的发展变化情况进行预测,在失衡发生前发出警报,事先采取措施加以调节,避免不良后果,是检验统计大数据运用效果最直接的体现。

  应对的策略

  通过安全评估体系确保统计大数据安全。一是打造一支可靠的专业团队。大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂技术、懂管理、懂指挥的统计大数据建设专业团队,为统计大数据管理人才提供保障。二是使用基于威胁特征建立实时匹配检测,基于统一的时间源消除高级可持续攻击(APT)的可能性,精确控制大数据设计规模,削弱黑客可以利用的空间。三是建立安全评估体系,对于不同安全域要进行准确评估,加强保护关键信息索引,做好重要数据多重灾难备份工作,应对大数据的灾难性损毁。

  通过有效性验证确保统计大数据可靠。固定的传播渠道所发布的数据往往有其针对性和倾向性,甚至带有误导性,这时就需要数据使用者具备一定的甄别能力,才能真正充分利用大数据实现自身价值。一是通过研究相关的算法,确保数据有效性,尽可能使数据类型具体化,增加对数据更细粒度的了解,缩小数据的聚焦范围,定义数据的相关参数,对数据进行精细筛选。二是进一步健全特征库,加强数据的交叉验证,通过逻辑冲突去伪存真。

  通过确立权限边界确保统计大数据隐私。一是在流程设计上,一定要将数据分散存储,任何一个存储单元被黑客攻破,都不可能拿到数据的全集。同时,使用过滤器监控,一旦发现数据离开了用户的网络,就自动阻止数据的再次传输。二是确立权限管理边界,构建一体化的数据安全管理体系。使用加密手段把数据使用与数据保管分离,把密钥与要保护的数据隔离开,通过USBKEY等硬件辅助对敏感数据的调用启动身份验证机制,定义产生、存储、备份、恢复等密钥管理生命周期,实现对数据的动态加密管理。

  通过科学建模实现统计大数据快速预警。大数据分析技术经过这几年的发展,已经形成了一些比较成熟稳定的模型算法,常见的模型算法有关联规则分析(Apriori)、决策树、神经网络、K-MEANS聚类等。这些算法模型有的适合预测趋势和行为,有的适合关联分析,有的适合聚类分析。每种模型算法都有其优劣性,我们可以针对不同的需求,选择合适的算法模型进行统计大数据分析挖掘,从而利用实时数据进行快速、精准的经济预警。

1
3