Spark太火 大数据训练营AMPCamp都来中国了
2015-06-09 TechTarget中国 编辑:唐琼瑶
Spark火遍IT业界已是不可置疑的事实。作为Apache一大开源项目,这款大数据处理引擎文能连接车辆与物联网,武能识别隐秘的洗钱行为。
Spark的魅力
Apache Spark脱胎于加州伯克利大学AMPLab实验室团队。自诞生伊始,Spark就与MapReduce进行比较,MapReduce是Hadoop最初的数据处理引擎,因对大数据集的分布式处理能力而广受关注,但在效率方面饱受诟病。MapReduce以批处理方式进行计算,无法很好地应对流处理模式(比如物联网项目)。而且,MapReduce没有内存计算的选项,每次计算后都要将结果写入外部存储,这使得迭代式的任务相当耗时。
因此,Apache Spark近些年发展迅猛,在全球23个国家50个城市拥有66个小组,会员人数超过21000。作为Spark的创建方,AMPLab开发了基于内存计算的Spark、Tachyon、GraphX、SparkR等大数据处理框架和技术,凭借超强的数据处理速度、对复杂数据的实时分析能力及高易用性,受到业界追捧。
在中国,大数据方兴未艾。Wikibon的调研数据显示,大数据正逐渐成为全球IT支出的全新增长点。中国也得益于人口和行业的规模,以及正在迅速拓展的数字经济,正在成为大数据技术应用的高地。
大数据金牌训练营AMPCamp移师中国
为了帮助研发和应用大数据技术的中国开发者与企业技术人员深入了解这些开源大数据技术的精髓与应用优势,让他们能够更好地参与到相关技术创新与实践的进程中来,在美国连续举办了五届的大数据金牌训练营AMPCamp移师中国。
在上海举办的首届AMPCamp@China训练营的成功离不开英特尔的支持。实际上,英特尔除了拥有业界无可匹敌的硬件,在软件领域的表现也可圈可点。2012年,英特尔就和美国加州伯克利大学进行了很紧密的合作,围绕Apache Spark软件开展了技术开发、代码优化、应用拓展等多个维度的紧密合作,并且在Spark社区贡献代码量排名全球第三。
英特尔大数据首席架构师戴金权表示,英特尔大数据团队主要投入到大数据开源社区的核心项目上。从Spark、Hadoop、Hbase到Hive等,今天英特尔全球有超过22位员工作为项目核心committer,领导社区进行开源项目开发。
戴金权补充,英特尔一直致力于帮助合作伙伴和用户在开放架构的大数据平台上开发多样化、差异化的应用。向各个行业的用户提供大数据实践层面的技术支持,积极参与到大数据领域的人才培养事业中。
他说:“我们英特尔将进一步拓展和深化与开源社区、产业界、学术界的合作,所有基于开放架构的主流大数据软件技术,特别是开源技术,都是我们提供平台优化和技术支持的目标。”
与国内学界在大数据方面的合作
Intel除了公司内开展诸多大数据技术与系统研发外,还与国内学界开展了大数据技术合作研究,其中合作最早的学校之一是南京大学PASA大数据实验室。
作为国内最早开展大数据技术研究和教学的课题组之一,南京大学PASA大数据实验室近六年来在大数据技术领域开展了一系列系统深入的研究开发工作,积累了系统的研究和技术基础。南京大学PASA大数据实验室学术带头人黄宜华教授告诉TechTarget中国:“我们的重点是围绕大数据处理技术与系统工具平台研究,主要覆盖分布式存储、并行化计算与并行化分析算法三个层面。”
从2010年开始与英特尔合作,南京大学PASA大数据实验室进行了Hadoop性能优化、基于Intel Xeon Phi众核处理器的并行化算法研究、大规模中文文本语义分析技术研究、Spark和Tachyon性能优化研究、以及分布式文件系统性能评测技术与工具研究工作。
2014年,南大大学PASA大数据实验室成功申请获得由英特尔中国研究院和CSDN联合发布的基于Spark的分布式矩阵运算库研究项目,研究实现了全球第一个基于Spark的分布式矩阵运算库,项目成果已经开源到社区。
黄宜华教授表示,Intel不仅是一个在处理器和硬件方面世界领先的企业,在软件方面也是一个技术力量雄厚的企业。尤其是,基于在硬件和体系结构层面的技术优势,英特尔在大数据系统的性能优化方面具有独特的技术优势。
除了合作研究工作以外Intel还资助南京大学开展了大数据技术教学和课程建设方面的工作,携手大数据技术教学与人才培养,以进一步推动大数据技术及其应用的发展。
Spark还能如何提升?
如今,众多IT界大佬都将Spark加入到了自己的Hadoop发行版里,期望其能成为通用的大数据技术。但也有专家认为Spark还有需要完善的地方,例如内存计算稳定性问题。
戴金权表示,英特尔利用开放架构的潜能,使大数据技术能够真正转化成为各行各业解析数据价值。也期望用户对大数据技术的更多采纳和应用能够反过来驱动大数据技术创新生态系统的加速发展。