在开源模式下云计算大数据的现状浅析云和虚拟化
“开源”模式带来的好处很多,其中最吸引人的就是可以帮助企业降低成本。另外,开源模式消除了供应商的限制和壁垒,并且可让技术变得更加协作,合作者会不断更新开源软件,使技术得到持续的完善和发展。云计算和大数据目前都是热门话题,两者的发展与开源技术的结合,及如何在云上实现大数据项目,都是新的实践领域。
开源云计算现状
云计算发展到今天,已经成为企业IT基础设施的主流选择;以Docker为代表的Container技术,也推动着云计算在PaaS层面的发展;而SaaS应用更是方兴未艾。云计算已经从概念走向实际应用,且将愈加促进信息化、工业化的整合进程。
敏捷、灵活、可定制,这是各大公司在解释他们为什么投资云计算时最爱提到的三个词。与此同时,当今领先的云供应商虽然心中想着最佳的技术利益,但从财务权益方面来考虑,却阻止他们提供开放的云环境。因此,在这个企业IT“云”化的过程中,开源技术正在成为未来的重要选择。
开源云计算带来的好处很多,其中最吸引人的就是可以帮助企业降低成本。另外,开源模式消除了供应商的限制和壁垒,并且可让技术变得更加协作,合作者会不断更新开源软件,使该技术得到持续的完善和发展。
有关开源云计算的系统、产品与服务正得到不断地创新推出。以目前拥有最多传统IT巨头支持的云架构开源项目OpenStack为例,在国内外都受到了普遍关注。2014年年OpenStack基金会发布的白皮书中显示,OpenStack在实际生产环境的部署已得到大幅提升,并且在传统行业的渗透已经呈现规模化趋势,在制造业、能源、零售、医疗、交通、保险、媒体等行业长势喜人。从全球用户活跃度来看,欧洲和亚洲力量凸显,中国用户在其贡献排行榜上位居第五。7月30日开幕的可信云大上,OpenStack开源云项目联盟宣布成立。在政府层面上对这件事情的推动,使我们更加深刻地感受到OpenStack以及开源云这种模式在中国的影响力之大。
然而,任何事情都是一把双刃剑,目前的开源云也同样存在着明显的缺点。比供应商的独立缺乏支持、开源云工具的支持问题有待进一步解决。另外,像OpenStack、Docker等时下流行的开源云计算应用,都存在着技术成熟度欠缺、缺乏完整性等问题。
开源大数据现状
移动互联网、云计算等技术的快速水之土日,使全球数据量得到爆炸性增长,大数据时代已经全面到来。从庞杂的数据背后挖掘、分析用户的行为习惯和喜好,找出更符合用户“口味”的产品和服务,并结合用户需求有针对性地调整和优化自身,这就是大数据技术所带来的巨大价值。
而面对庞大的业务、海量的数据都在不断的增长,几乎没有任何一家传统的商业方案能够独立解决这些业务。企业内部的“合作”已经成为局限,要想应对这些,需要更多的力量,这无疑给开源模式带来了新的机遇和挑战。开源浪潮之所以风生水起,是因为成本低、灵活性强,又有受过培训的人员,帮助使业更好地挖掘隐藏在大数据当中的价值。
Hadoop无疑是目前大数据领域中最热的开源技术,它承诺能够降低成本同时获得企业级的IT自由度。Hadoop、R和NoSQL现在是许多企业制定的大数据战略的三大支柱,无论这些战略是管理非结构化数据,还是对非结构化数据进行复杂的统计分析。这些开源技术平台与专有软件相比的一个优势就在于,于它们能够更快速地改进。而且它们也得到许多不同机构的不断开发和完善。Hadoop已经变得无处不在,EMC、戴尔、IBM、甚至微软都已经开始跻身Hadoop阵营。国内的盛大、百度、人人网等都已经开始应用Hadoop技术。
大数据领域的另一位生力军Spark现在也是名声大噪,作为通用的并行处理框架,Spark具有类似Hadoop的一些优点,而且Spak在迭代计算上具有比Hadoop更高的效率,还提供了更为广泛的数据集操作类型的开发等等。众多优越的性能和比Hadoop更广泛的适用面让Spark的进一步发展值得期待。
结语
综上所述,开源模式确实为企部和开发者署云环境创造了条件,推动了云技术的发展。但是,站在用户的角度看,特别是不具备软件开发、运维能力的传统企业,大规模采用开源云项目仍然存在一定的风险。另外,开源的开放所带来的一大弊端就是安全问题。也正是出于对这种风险的考虑,目前有很多大数据项目都没有放在云环境中运行。
但是,不管怎样,云计算与大数据在应用中产生的价值是有目共睹的,两者之间的结合,远比相互分离要好得多。而在选择云计算及大数据的平台时,企业一定要结合自己的实际情况和需求来选择适合自己的云计算平台,避免单纯为了开源、为了云而做出盲目的选择。当然从长远考虑,与开源想法搭起桥梁要比试图对开源想法视若无明智得多。