当前位置:首页 > 行业资讯 > 正文

大数据时代的尿布啤酒

2012-11-30 IDCUN 编辑:宋家雨

  自“啤酒和尿布”的故事之后,再没有见到有关数据挖掘的精彩案例。大数据时代,让我们对又数据分析、数据挖掘充满了期待。

  最为接近“啤酒和尿布”的有这样几个案例。一个来自华尔街,挖掘的数据是全球3.4亿微博账号的留言,用于分析民众的情绪,据此决定股票买卖。因人们高兴的时候会买入股票,焦虑的时候会抛售股票。一个季度获利到达了7%。另一案例来自淘宝网,根据中小企业在淘宝网健康和诚信状况,决定是否为其提供无担保的贷款,据称其坏账率低于大型国有银行;奥巴马的总统竞选也使用了大数据业务,通过挖掘社交网络和微博,建立选民档案,争取选民投票。

  大数据时代这些新的数据应用很有故事性,但这些数据是怎么挖掘的,采用了什么软件,很遗憾,这些都是保密的。上面一个案例,华尔街的更像是一个编造出来的故事,至于淘宝的案例,根本不用进行所谓大数据挖掘,秃子头上的虱子,明白的事情。

  大数据应用不限于互联网应用,与之相比,行业应用领域也有大量的数据。以市政交通摄像头的数据为例,如何通过对大数据的挖掘,对智能交通提供帮助,这就是一个有价值的课题。总之,有数据的地方,特别是海量数据,就需要大数据应用。

  进行大数据应用有很多困难。在11月27日举行的浪潮云海大数据一体机发布会上,浪潮集团系统软件总监、云计算产品部总经理张东列举了其中的几个,一是数据存储和处理的成本,在数据仓库时代,1GB数据的存储和处理成本是1万元,对于大数据而言,这样的成本显然太高,因为大数据属于低密度价值。二是数据处理的响应时间。Hadoop MapReduce无法用于实时性要求高的数据处理,仍然需要采用数据库软件。此外,如何发挥Scale up和Scale out的方法,应对性能处理的需要,如何针对结构化数据和非结构化数据的特点,进行多维度的综合分析,这都是大数据应用面临的课题。


数据存储和处理的成本

数据处理响应时间

Scale up、Scale out和多维度综合分析

  非常难得的是,浪潮也给出了自己的答案,就是云海大数据一体机。一个集成了计算单元、存储单元、通讯单元、管理单元的设备,能够覆盖数据的存储、处理、展现等所有技术环节。云海大数据一体机有4款产品SDA-1~4,区别在于针对不同的应用,分别处理在线交易/图形渲染等密集型数据处理、通用数据、海量并发轻量级应用以及高安全性和保密性数据应用。在此,浪潮采用了硬件加速技术,设计了专门的FPGA模块固化特定算法,并集成多级缓存,数据排序性能提高了50%以上;开发了动态调整任务执行模块,有效减少了慢任务数量,任务执行时间平均缩短16%;浪潮引入Reed-Solomon算法,优化分布式散列数据布局,解决了副本数量和存储效率的矛盾,所设计的两副本加编码的方式相对三副本可实现30%空间节省。



4款云海大数据一体机SDA-1~4 产品

云海大数据一体机4款产品规格和参数

  运用这些云海大数据一体机是否可以带来我们所期待的大数据应用,改善和提高管理和应用水平,造福于民?对此,有人指出,大数据应用只有硬件还不成,关键在于软件,而这恰恰是短板。

  对于啤酒和尿布的故事,我甚至怀疑其是否是软件分析的结果。感觉更像是人的判断,否则,啤酒尿布之后,为什么没有看到更精彩的分析?但无论如何,数据挖掘充满了价值。在大数据时代,互联网企业在应用上已经领先了半步,期待行业大数据应用也能够有更加精彩的表现。

大家都爱看
查看更多热点新闻