巨头忙于兜售“大数据” 行业资讯
Facebook,谷歌或是IBM等一些技术公司,正忙于兜售“大数据”那足以改变世界的能力。大数据源于移动设备,网页搜索,公民科学研究,以及网络传感器。在此前都没有如此巨大且涵盖面如此之广的数据供应,这其中甚至能包括网购动态或癌症研究。然而,谈到数据时一些科学家仍不免小心翼翼,因为更大并不意味着更好。
当信息从不同的资源上被截取时,通常会造成信息环境的缺失,从而导致不可靠的分析结果。举例来说,从谷歌2008年启用谷歌流感趋势(Google Flu Trends,GFT)服务以来,其在精确预测流感等级上时常会遇到困难。一个调研小组于本周五,在《自然》杂志的《政治论坛》版面发布了日志,详细说明了大数据工具的不足,以及它所拥有的巨大潜力。
谷歌所设计的流感数据整合器,根据谷歌搜索,与流感相关活动相匹配的内容,提供全球范围内流感情况的实时监控。尽管有一些成就,但在过去两年中,GFT在美国有过高预测流感峰值的情况。据来自于休斯顿大学,东北大学,哈佛大学的研究者所言,GFT在12-13季度对流感流行趋势的预测,做的同11-12季度一样糟,误差都超过了百分之五十。此外,从2012年八月至2013年九月,在总共108周的时间里,GFT有100周的时间都过高估计了流感的流行。
《自然》杂志在2013年二月的新闻中报道,GFT预测类流感病例的求诊次数,比美国疾病控制预防中心(Centers for Disease Control and Prevention (CDC))基于若干实验室的检测报告所作出的预测数量要高出两倍。
《自然》杂志报导,谷歌的软件所依靠的是“谷歌搜索引擎对于键入搜索栏的,与流感相关的搜索的数据挖掘记录,结合电脑建模。”。尽管这周为《政治论坛》撰稿的研究人员列举了许多GFT存在的瑕疵,但是《自然》杂志却指出GFT的整体工作”几乎与CDC自身的监控数据在时间上是匹配的-然而它比CDC所能传递数据的的时间要快上好几天。“
谷歌于去年十月一项研究,自我推断出了在2012-2013的美国流感季中,GFT对于流感的算法(就像最近他们所启用的谷歌登革热趋势(Google Dengue Trends)一样),容易受到媒体覆盖范围提高的影响“。“我们每年都要回顾流感趋势的模型,从而决定如何进行改进-我们的上一次更新是在先于2013-2014流感季度前的2013年10月。”根据一位谷歌发言人的说法。”我们非常希望得到如何改进GFT以便让它帮助我们更好地预测流感等级的反馈。
《政治论坛》的研究人员发现,增长的与流感相关的在线资源的传输也会成为这个问题中值得考虑的因素,不过他们质疑“上个流感季因媒体刺激而引起的恐慌”是否完全解释了“为何GFT在超过两年的时间里都有很大预测误差。而更为可能的凶手,是谷歌的搜索算法本身所做出的改变。
这就是研究人员们争论的核心,他们争论于这两者谁对于GFT所犯错误来说贡献更大:算法动态 和 “大数据沙文主义”
GFT的突出特殊搜索内容的特别方法,在GFT完全没有预测到2009年蔓延全国的非季节性流感A-H1N1(甲型流感病毒H1N1亚型)后,证明了自己的失败。“研究人员说道,”总的来说,GFT的最初版本是一部分用作流感探测器,一部分用作冬季探测器。“
大数据沙文主义就是“经常性地隐含假定,大数据是对于传统数据收集和分析的替代,而不是补充。”,研究人员提醒,许多大数据工程的错误,都是因为他们的设计并不科学,无法产生有效可靠并对科学分析负责的数据。而它他们依靠的数据往往来自于智能手机,搜索结果,社交网络等资源,而不是细心参诊的病人和科学仪器。
其它的一些研究已经显示了大数据的价值,但研究人员意识到,”我们还不能达到完全替代传统方法和理论的地步。”
他们提醒”将GFT及其它的近实时的健康数据结合的话,可以充分发挥其价值。“举例来说,将GFT和延迟的CDC数据结合,并动态地重新校正GFT,我们就可以充分地提升GFT的表现,或是单独地提升CDC的表现.”又比如,在非常地方的层面上呈现流感的流行趋势这种CDC数据无法表现的很好的领域,大数据可以成为更好的了解未知事物的有效工具,。
根据研究人员所说,大数据工程也可以通过提升它者复制自身的能力,来获得更加透明的利益。像谷歌,推特,Facebook这样的平台经常会重新设计他们的软件。而仅依据一次数据收集所做的研究,是否能通过收集其更早期或更晚期的数据来进行重做,仍是一个待解决的问题。