大数据资源合理利用亟须各方努力行业资讯
大数据作为继云计算、物联网之后IT行业又一大颠覆性技术革命,很多人对它并不陌生,然而大数据是否等同于海量数据,是否得到了有效地管理和利用,第三方互联网数据服务提供商缔元信CEO秦雯对此表示,行业中对大数据的认知有些混乱,大数据有待被重新认识和合理利用。
近年来,我国大数据产业已初具规模,被广泛应用于各行各业,然而人们对于大数据的认识还存在歧义,这对于大数据产业的跨越式发展十分不利。这些认识偏差主要体现于以下几个方面,首先,数据中心并不是大数据公司,数据中心涵盖所有互联网业务的网络基础设施,大数据只是其支撑业务的一部分。其次,云计算不等于大数据。很多云计算公司认为自己是大数据公司,海量数据的处理固然凭借云计算得以实现,但云计算只是大数据的系统基础设施。
再次,并不是所有数字化信息一定能产生大数据。秦雯认为,大数据是数字化信息的生产和被消费的过程数据。并且,大数据并不等同于海量数据,样本的数量和分析结果的准确性并不一定存在相关关系。美国东北大学与哈佛大学的研究人员发现,海量数据与经过严谨科学试验和采样设计得到的数据之间存在很大的不同。首先,大未必全,其次,大则可能鱼龙混杂。海量数据和事件之间甚至会出现伪相关关系,例如Google曾在研究搜索“流感”与流感爆发的某种相关关系时严重高估了流感病例的数量,因为搜索“流感”的人除了感冒患者之外还有对媒体报道的跟风搜索者。因此缺少清洗的数据并不是大数据,归根结底,还需要对数据进行模式分析,海量数据才能变成大数据。
大数据在数据资源的合理利用上存在不少实操上的问题。在搜集数据的环节,企业存在对数据的认知和业务脱节的现象。在管理数据的环节,企业的内部、外部数据存在孤岛现象。易传媒副总裁高照对此表示,一个大型企业里不同的数据分属于不同的部门,CRM部门、市场部门等都有自己的数据,市场部门内的小组还可能有自己的数据,产品的制造、零售、社会化营销过程中也有自己的数据。由于每一个数据来源不同,对应的产品不同,要把所有的数据综合在一起,很难建立一个完整的画像。在企业外部,一些分属于不同行业的企业之间事实上已经存在数据流动或置换的意愿。在应用数据的环节,很多的企业盛行长官意志,领导人急功近利,追求速效。
与此同时,大数据的应用在生态环境方面面临的问题主要有四点,政府在其中没有起到应有的作用。第一个问题涉及公共数据,第二是用户隐私,第三是数据开放,第四是技术伦理。在公共数据方面,很多人认为政府在中国拥有最多的数据,然而值得注意的是,政府在业务上的数据绝大部分都是统计数据。此外,由于中国全社会没有养成数据培育和数据管理的习惯,数据质量存在很大的问题,政府部门也不例外。并且许多官方数据存在缺位现象,中国的IP地址数和IP地址分布情况在市场上流行的是民间整理的资料,然而这件事应当由政府来做,并且作为公共数据开放出来。在技术伦理方面,很多企业深受其害的广告虚假点击问题突出,而大数据的技术应用需要讲究商业道德和伦理,如果这个问题不解决,大数据在中国落地将永远是泡沫。
秦雯强调,大数据应用的前提是可用和有用,可用是指具备系统化、标准化、实时更新的数据管理平台,有用是指业务的互联网化、具有科学的管理决策理念,在此前提下企业才能形成从搜集数据到管理数据,到应用数据的闭环。但是,在上述这三个环节中都存在着现实上的问题。