大数据管理：PB、EB级数据存储和分析

2012-06-27 中关村在线

　　供应商在每发布一款产品时都往往会有这样一种偏好，将其产品和最新的一些热炒的话题结合起来。而这次，厂商们又开始在每项产品中增加“大数据”的概念。如果你是一位存储管理员的话，你或许会在管理你自己环境中的大数据时遇到困惑。供应商口中的大数据存储和大数据分析非常相似，因此你很容易理解成这两者是相关的——大数据存储是用于大数据分析的。然而，到目前为止这是两种截然不同的计算机技术领域：一项致力于研发可以扩展至PB甚至EB级别的数据存储平台（大数据存储）；另一项则关注在最短时间内处理大量不同类型的数据集（大数据分析）。

　　不过，在这些快速变化的趋势之中有至少两个结点，是存储管理员需要越为重视的。其一，大数据分析流程和传统的数据仓库的方式完全不同，其已经变成了业务部门级别和数据中心级别的关键应用。这也是存储管理员的切入点。随着基础平台（分布式计算或其它架构）变得业务关键化，用户群较以往更加地依赖这一平台，这也使得其成为企业安全性、数据保护和数据管理策略的关键课题。

　　其二，通常用于数据分析平台的分布式计算平台内的存储不是你以往面对的网络附加存储（NAS）和存储区域网络（SAN）——其通常是内置的直连存储（NAS）以及组成集群的分布式计算节点。这使得管理大数据变得更为复杂，因为你无法像以前那样对这些数据部署安全、保护和保存流程。然而，执行这些流程策略的必要性被集成在管理分布式计算集群之中，并且改变了计算和存储层交互的方式。

　　在我们一系列管理企业的大数据专题的第一篇文稿中，我们将关注在大数据分析和传统的数据仓库的不同之处，并且引入分布式计算集群作为大数据分析的基础。下一步，我们将着眼于分布式计算中的存储，并且进一步观察分布式计算如何创建并使用存储层。然后，我们将检验一个三段式的存储模型，其中在分布式计算的存储层中包含了NAS和SAN。最后，我们通过使用一些同样的判断因素——这些因素你作为存储管理员在评估存储阵列中同样会用到——来对分布式计算作为一个存储设备进行评估。

　　区别大数据分析和传统的数据仓库的不同

　　大数据分析中包含了各种快速成长中的技术。因此，简单用某一种技术尝试对其定义，比如分布式计算，会比较困难。不过，这些定义大数据分析的通用性技术可以用如下特征阐述：

　　对于传统数据仓库处理流程效率和扩展性方面限制的感知。将数据，不论是结构化还是非结构化数据从多个数据源汇聚的能力。以及认识到数据的及时性是扩展非结构化数据源的关键，其中包括移动设备，RFID，网络和不断增长的自动化感知技术。

　　传统的数据仓库系统通常从现有的关系型数据库中抓取数据。然而，据估计超过80%的企业数据是非结构化的，即无法关系型数据库管理系统（RDBMS），比如DB2和Oracle完成的数据。一般而言，处于此次讨论的目的，非结构化数据可以看成所有无法简单转化到结构化关系型数据库中的所有数据。而企业现在希望从这些非结构化数据类型中抽取有价值的信息，包括：

　　邮件和其它形式的电子通讯记录

　　网站上的资料，包括点击量和社交媒体相关的内容

　　数字视频和音频

　　设备产生的数据（RFID，GPS，传感器产生的数据，日志文件等）以及物联网

　　在大数据分析的情况下，查看远多于RDBMS的数据类型十分必要——这代表了各种重要的新信息源。并且随着每年非结构化数据存储总量较结构化数据增长率高出10到50倍，从业务角度看这些数据也变得更为重要。

　　为什么需要更新的技术？

　　从大数据分析角度看，业务主管的挑战在于从各种数据源获取信息，并执行分析流程以打开信息的价值。传统数据仓库技术并不是设计在很短的时间内（5秒钟甚至更少）用于处理海量的非结构化数据，因此市场上产生了管理大数据的需求。

　　进入分布式计算集群。分布式计算集群的观念出现了数十年，不过绝大部分时间都处在IT的边缘化地带。在2004年，Google出版了一张名为MapReduce的流程，应用了这一结构。在MapReduce流程中，查询被分割并分布在并行结点上同时处理（Map步骤）。其结果在随后被收集并传输（Reduce步骤）。由于Google如此之成功，很多人想要复制这一方法。MapReduce源自一个Google拥有的开源Apache框架，称为分布式计算（Hadoop）。