分析Hadoop妙计 应对2013大数据时代绿色数据中心
随着网络、存储和整合服务的迅猛崛起,Hadoop成为企业和扩展至更大规模的首选平台,且对大数据批量处理已经获得长足发展。Hadoop 是一个用于在可扩展的服务器集群上存储和处理大量多元化数据的开源框架。Hadoop以一种可靠、高效、可伸缩的方式对大量数据进行分布式处理,且依赖于社区服务器,因此成本较低,适用于任何人或企业。
IDC调研预测,2020年全球的数据信息使用量将会增长44倍,达到35.2ZB(1ZB=10亿TB)。如Facebook、Twitter、微博等新兴社交平台的海量数据,以及视频通讯、医疗影像、地理信息和监控录像等视频内容也会以数十亿计的极具增长,加之传感器、RFID阅读器、导航终端等非传统IT设备和移动设备,都将产生非结构化数据。对于大量结构和非结构化数据,企业、个人用户又将如何应对?或用什么来应对?
随着网络、存储和整合服务的迅猛崛起,Hadoop成为企业和扩展至更大规模的首选平台,且对大数据批量处理已经获得长足发展。Hadoop 是一个用于在可扩展的服务器集群上存储和处理大量多元化数据的开源框架。Hadoop以一种可靠、高效、可伸缩的方式对大量数据进行分布式处理,且依赖于社区服务器,因此成本较低,适用于任何人或企业。
Hadoop由多元素构成,主要有Hadoop Distributed File System(HDFS)和NameNode,前者就像一个传统分级系统,可以创建、删除、移动或重命名文件等;后者则是在HDFS实例中的单独机器上运行的软件,负责管理文件系统名称空间和控制外部客户机访问。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序,且具备高可靠性、高扩展性、高效性和高容错性。
Hadoop在实时应用程序中应用较多。可以在可用的计算机集簇见分配数据并完成计算任务,且可实现实时数据分析。Hadoop完全基于成本效益而构建的海量数据集分析,因此,这种实时应用平台中将会更多地采用Hadoop。
Hadoop较其他大数据分析平台优势明显。与MongoDB、Cassandra、Couchbase和其他NoSQL具有显著区别。与相互割裂的处理方式不同的是,Hadoop提供了统一海量的API(包括MapReduce、查询语言和数据库访问,而且更易于整合各种领先的分析和搜索平台),能够与现有的生态系统扩展提供更为丰富的服务。
Hadoop支持多语言编写框架。带有Java语言编写框架,适合运行在Linux系统平台,同样可以使用其他语言编写,比如C++。Hadoop结构化查询语言技能和人才的积累,将驱动对SQL的支持,比如HiveQL和DrQL,就是其中可以帮助Hadoop访问大规模SQL社区的工具。
HBase成为大文件主流平台,是Hadoop的开源、非关系型分布式数据模型。这些二进制大型对象包括图片、音频等多媒体对象,它们要求有支持快速检索的大型数据仓库。
硬件会针对Hadoop进行优化。Hadoop不仅仅是一个强大分布式数据处理平台,而且在企业数据中心也会根据Hadoop进行部署、整合方面的硬件优化。如近日,英特尔在美国推出Distribution for Apache Hadoop软件,旨在提供业内领先的性能和安全特性。
英特尔正式交付在Apache Hadoop之上构建的创新开放平台,它能够与大数据分析的快速演进保持同步。Intel Distribution在英特尔至强处理器内置安全特性的支持下,率先提供了全加密功能,再结合Hadoop分布式文件系统基于芯片的加密支持,企业用户现可以在不影响性能的前提下更为安全地分析数据集。
英特尔至强处理器平台对网络和I/O技术所做的优化,也有助于实现更高的分析性能。以往分析1TB数据需要4个多小时才能完全处理完毕,现在凭借英特尔硬件与Intel Distribution软件的强有力组合,仅需7分钟1即可完成。
Intel Manager for Apache Hadoop软件还简化了系统管理员部署新应用时对于集群的部署、配置和监控。采用Intel Active Tuner来优化Apache Hadoop软件的性能时,可通过自动化的配置实现最充分的性能调优。而在此前,这类工作要求系统管理员必须了解每个应用对系统资源的使用情况以及Hadoop的配置和性能指标。
2013年大数据时代帷幕已拉开,面临数十亿计数据、信息日益剧增,除了Hadoop平台是企业、用户首选之外,相信会有更多服务器/存储和软件厂商推出更多优化性数据解决方案。