从比特搬运工到大数据运营者行业资讯

2014-01-09    来源:人民邮电报    编辑:工业和信息化部电
有人说,大数据就像20世纪的石油那样,是一种战略资源。但20世纪之前的历史长河中,石油根本不是战略资源,甚至连一般性的资源也算不上。改变石油命运的,是100多年前内燃机的发

  走进“第四个”大数据时代

  现在所说的大数据,都是指“数字化”的信息。如果把“数据巨大”、“类型繁多”、“单位价值下降”和“处理及时”的非数字化的信息也认为是大数据,就会发现在人类历史上已经多次经历过 “大数据”时代,而且每一次“大数据”时代,都导致人类社会的巨大变革。

  第一次是语言的发明。语言可以让思想交流融合,让分工合作成为可能。但随着“语言大数据”的发展和应用,语言作为唯一载体的缺点开始显现。第一,地理范围有限,经常仅在部落内传递;第二,对象范围有限;第三,信息容易失真;第四,信息容易失传。于是,弥补“语言大数据”缺陷的新信息技术——“文字大数据”时代开始出现和繁荣。

  相对语言,无论是图形文字、声音文字还是数学符号,可以承载的信息量和信息类型更多,传播范围可以更广、更加准确和更加便于传承。有了文字,无法长久保存和必须同步传播的口头信息,变成了“永久性”、可异步存储的符号记录。

  文字(包括数学符号)的产生和传播,使生产力又一次得到了飞跃,并且催生了历法、兵法、法律和礼仪等,加速了贸易的发展,人类又一次被淹没在了“大数据”的洪流中。文字是“大数据”的载体,但文字的载体是乌龟壳、羊皮和竹简,以及后来发明的纸张等,相对仍然比较昂贵。另外,这些类型的书籍需要靠人工抄写或雕刻,费时费力而且常会出现错误,因此书籍仍然难以平民化,“文字大数据”传播的范围仍然很有限。

  于是让信息可以用“工业化”的方式存储和传播的印刷术出现了。印刷术结束了手稿时代,让文化广为传播,再次扩充了信息的数量和组织,“大数据”时代又一次来临。印刷术导致书籍和知识“泛滥”,直接引发了人类社会的巨大变革。

  随着工业革命的推进,产生了更大量和更多类型的数据处理需求,导致了信息采集、保存和处理作为独立的一个行业——“信息产业”的出现和繁荣。电力革命后,整个社会经济活动的重点,从材料的使用转移到了对“大数据”的使用,企业也在纷纷取消内部动力生产部门的同时增加了信息处理部门。而近年来随着智能手机、平板电脑、个人电脑、数码相机、数字摄像机、POS机以及各种各样的传感器等终端逐步接入互联网,气候、天文、地质、生物、基因、军事、商业和医疗等行业数据的普遍数字化和网络化,以及博客、播客、微博、社会化网络等的爆发式增长,数据越来越“大”,人类又一次遭遇了“大数据”时代。与此同时,随着移动互联网和社交网络的飞速发展,单位信息的价值快速下降,人类被淹没在了“信息垃圾”之中。

  这次的大数据时代中,信息的产生、传递和保存不仅“工业化”了,而且“数字化”和“自动化”了,人类社会发展的核心驱动力,也从之前的“动力驱动”转变为“数据驱动”。垃圾是放错地方的宝物,因此必须诞生革命性的技术手段,将这个时代的“信息垃圾”换一个地方,换一种方式提供给我们。

  历史上的每次“大数据”时代,对人类社会的影响都是革命性的,这次也必将会是颠覆性的。

  云计算是大数据的“内燃机”

  数据早已有之,但一直以来是信息化的“副产品”,非战略性资源,直到云计算的发明。云计算让大数据应用平民化,在大数据应用在经济上变得可行。云计算之于大数据,就像内燃机之于石油。如果不是基于云计算的数据处理,数据再大也不是大数据,只是“数据大”。

  20世纪,因为内燃机的发明,石油上位成了战略资源。从在战争中偶尔使用石油,发展到了为了石油而战争。内燃机之于石油,就像WWW之于TCP/IP、App Store之于智能手机、大数据之于云计算一样,都是后者的“Killer App”。

  上世纪70年代初,计算机的发展应用产生的“大数据”(相对那个年代的人,那个年代的工具)需要管理,于是数据库管理技术诞生,业界开始了专业化开采数据资源的工作。当然早期的数据管理工具比较“原始”(相对现在),只擅长对付 “结构化”的数据资源。

  资源的价值大小,很多时候取决于开采工具的经济性。人们希望找到更先进的工具,能够管理更复杂的数据类型,从数据中提炼出更多的应用价值,就像历史上内燃机曾经把石油的用途从照明扩展到动力世界那样。

  2006年前后,业界领先的企业发明了一种叫云计算的新工具,不仅可以开采新型的数据资源(非结构化数据),而且还发掘出了一些重要的新用途(如精准营销、趋势预测等)。最重要的,这种工具的成本还很低。于是业界都梦想着,用云计算这个新工具,也去淘大数据的金。

  全球云计算已发展到了理性务实的落地阶段,而大数据还处于炒作阶段。大数据技术还不成熟,技术解决方案还以定制为主,通用型解决方案尚不多见。大数据源还以内部和结构化为主,未发展到内外结合、结构化与非结构化结合的阶段。

  从应用看,当前的大数据应用以渐进改善型业务为主,以程序化营销和个人大数据应用最为成功,其他“革命型”应用尚不多见。大数据应用在全球的发展,已形成了“互联网公司领导、开源社区扩散和ICT制造商产品化”的三阶段或三层次现象。

  电信业需实现数据资产化

  电信运营商拥有海量数据。电信网的数据流量已超过了全部流量的99%,另外电信运营商还拥有海量的用户数据、信令数据、日志数据、流量数据、位置数据等。电信业发展大数据,机遇和挑战并存。

  与互联网企业相比,电信业大数据资源在真实性和广度方面优势明显,拥有真实的用户身份锚点(姓名、电话等)、用户账户信息和用户行为信息。而作为比特管道的电信公司只能在“路边”看用户的流量去了哪里,哪家网店的流量多大,剩下的就是政策不允许知道的了,因此电信业的大数据也是粗粒度的。

  但二者的这种比较优势是动态变化的,互联网企业正在通过抢占更多入口、向基础设施渗透和建立大数据联盟等策略获取更多数据,以弥补自己的短板。

  全球领先电信运营商的大数据应用,目前主要是对内优化业务,对外合作提供服务或提供商业的数据服务,并以位置服务居多。中国的电信运营商也纷纷效仿,但目前还是以内部优化为主,偶有外部合作,与国外相比还差一个量级。

  电信业发展大数据时,微观层面存在以下短板:一是网络强而自身IT设施发展滞后,尤其是大数据需要依赖的云计算基础设施尚不完善;二是电信业的传统产业链是一个开环,研发等要靠外部力量,而互联网公司的大数据应用自身就是闭环;三是电信运营商的海量数据目前还分散在很多部门和地区,缺乏整合,是“数据大”而不是大数据;四是人才缺乏,尤其是IT人才和高端人才;五是隐私保护政策限制,政府和社会对电信运营商的数据隐私保护要求,一直以来就高于互联网企业,是不对称的“管制”。

  电信业发展大数据也意味着,首先需从追求精确、高可靠性等传统观念转向追求效率和成本,即所谓的“去电信化”。在通信资源昂贵而稀缺的时代,电信业以提高通信资源利用率为核心目标,创造了繁荣,也创造出了“电信级”的概念。ATM、软交换、NGN、IMS、IP 电信网等技术或概念,都以资源稀缺为前提的,它们都忘记了摩尔定律的存在,导致处境尴尬。相反,不以浪费资源“为耻”的IP、以太网、Web技术,却因为摩尔定律而大行其道,因为它们更简单,更有效率(即便是看似存在资源浪费的现象)。

  其次,大数据需要电信业的思维革命。大数据强调的是从“流程电子化”转向“数据资产化”,之前是信息化为传统的流程和管理服务,现在是以数据资产为核心重构传统的流程和管理。电信业如何从重资产公司,转型成轻资产的大数据公司,尚需进一步探索。

  第三,电信公司需要以互联网开放、共享和合作的思维发展大数据业务。第一阶段需要做好内部数据的整合和应用工作,将“数据大”发展到以自用为主的大数据应用;第二阶段与其他企业的大数据源互通有无,两两或多方合作共享,让数据的交换和合作产生更大价值;第三阶段,争取从大数据的比特搬运工,成长为大数据的运营者和服务者。

  (大数据百科)大数据的发展历程

  一直以来,不断增多的数据都是一项挑战。19世纪末,人口普查员不知道如何统计和分类快速增长的美国人口。1890年的人口普查活动促使美国统计学家赫尔曼.霍尔瑞斯发明了电动读卡器,由此开创了数据处理的新纪元,这项技术也成为IBM发展的基础。

  大规模的数据信息的价值早在二战时期就被美国军方认识到了,在战争中进行了大规模的数据搜集。在大数据处理和存储技术方面,起初主要是为了满足军事方面的需求。后来随着互联网技术和超级计算机的出现,新的大数据处理问题陆续出现,例如数据集通常大大超出了主存储器、本地磁盘,甚至远程磁盘的承载能力。“9.11事件后,美国政府就开始涉足大数据挖掘领域,组建了用于筛选通信、犯罪、教育、金融、医疗和旅行等记录来识别可疑人员的大数据库。之后又呼吁统一组建一个基于“网络的信息共享系统”应对大规模数据问题。

  总的来看,对大规模信息的处理需求从根本上拉动了大数据相关技术的发展,虽然起初对大数据技术的推动力主要源于国家安全方面,例如大数据的存储和处理技术、以及大数据分析算法的研发,但最终这些技术开始广泛应用于教育、金融、医疗等各个行业。

1
3