大数据如何使得数据库变得更好头条相关
从NoSQL到NewSQL再到‘数据代数(data algebra)’,在这一领域的创新如今正汹涌而来。
当在提及“数据库”时,大多数人第一时间想到的肯定都是已经主宰该领域超过30年的关系数据库管理系统(RDBMS)。然而,这种状况可能很快就会改变。
一系列全新的竞争对手,现在正在争夺这一关键的企业市场,尽管他们所采用的是不同的方法,但却都有一个共同点:专注于大数据领域。
推动这种新的替代品获得大规模扩散的大部分因素是源于大数据的“3V”基本属性,即:海量(volume)、高速(velocity)和多样(variety)。
从本质上讲,今天的数据传输速度比以往任何时候都快;而且其数据量也比以往任何时候都更大;其种类也更加多样化。换句话说,这是一个全新的数据化的世界,而传统的关系型数据库管理系统并不是真正为它设计的。
“基本上,传统的关系型数据库管理系统不能应对规模化的海量、或快速、或多样的数据。”一家数据科学咨询分析机构KDnuggets公司的总裁Gregory Piatetsky-Shapiro表示说。
这便是哈特·汉克斯最近的发现:截至到2013年左右,市场营销服务机构都在使用不同的数据库的组合,包括Microsoft SQL Server和甲骨文公司的Real Application Clusters (RAC)。
“我们注意到,随着数据随时间的增长,我们的系统处理信息的速度不够快。”该公司技术和开发负责人Sean Iannuzzi表示说。“就算是您企业能够不断地购买新的服务器,也只是刚刚能够赶上数据增长的节奏,而我们希望确保我们能够具备向外扩展的平台。”
减少干扰是一个重要的目标,Iannuzzi说,因此“我们不能只是切换到Hadoop。”
相反,其选择了Splice Machine公司的产品,这实质上是把完整的SQL数据库与流行的Hadoop大数据平台,使现有的应用程序来与之连接,他说。
哈特·汉克斯现在处在实施部署的初期阶段,但已经看到了效益,Iannuzzi说,包括提高了容错性、高可用性、冗余性、稳定性和“性能的全面提升。”
有一种完美的风暴推动了新的数据库技术的出现,IDC公司研究副总裁Carl Olofson表示说。
首先,“与过去相比,我们当前正在使用的设备能够快速、灵活地处理大型数据集。” Olofson指出。
在过去的日子里,这样的数据集“需要被放在旋转的磁盘上”,而且数据必须以特定的方式来结构化,他解释说。
现在有64位寻址能力,可以建立更大的存储空间,以及更快的网络,并能够串多台计算机一起,作为单个大型数据库。
“这些东西开辟了之前不可用的可能性,” Olofson说。
同时,工作负载也发生了变化。例如,10年前的网站在很大程度上都是静态的,而在今天我们都是现场的Web服务环境和互动的购物体验。这反过来,需要一个新水平的可扩展性,他说。
企业也在利用新的方式使用数据。虽然在传统上,我们大部分的精力都放在了处理我们的交易——例如,记录我们销售了多少,并将这些数据存储起来,以便进行分析——今天我们做得更多。
应用程序状态管理就是这方面的一个例子。
假设您正在玩一款网络游戏。技术必须记录您与系统的每一次操作,并将其连接在一起,以呈现出连续的体验,即使您换了设备或者是各种操作是通过不同的服务器进行处理的,Olofson解释说。
这些数据必须持久化,这样,企业可以分析这样的问题,例如:“为什么从来没有人穿过水晶厅。”在网络购物方面,类似需要分析的问题可能是:为什么越来越多的用户在点击了颜色选择之后,却并没有购买某品牌的鞋子。
“以前,我们并没有试图解决这些问题,或者说——就算我们试图去解决了,也只是试图将其挤压在一个不太合适的盒子里。”Olofson说。
在当今新的众多竞争者之中,Hadoop无疑是一款重量级的。虽然其本身并不是一个数据库,但它的成长在企业解决大数据方面扮演了关键性的填补角色作用。从本质上来说,Hadoop是一款用于运行高度并行化的应用程序的数据中心平台,具有很强的可扩展性。
通过允许企业以分布的方式“向外”扩展,而不是通过采用额外昂贵的服务器“向上”扩展,“使得我们可以很便宜地把一个大型的数据集合整合起来,然后分析该数据集合有什么。”Olofson说。
在其他新的RDBMS的替代品是NoSQL系列产品,其中包括MongoDB——目前是第四大最为流行的数据库管理系统,根据DB-Engines和MarkLogic的数据库排名显示。
“关系数据库管理系统成为一款伟大的技术已经有30年的历史了,但它是基于不同的时代的不同市场需求所构建的不同的技术。” MarkLogic的产品执行副总裁乔·帕卡说。
他说,大数据是不均匀的,但对于许多传统的技术,这仍然是一项基本要求。
“想象一下,在您笔记本电脑上唯一的一款程序是Excel会是怎样?”帕卡说。“再试着想象一下,您想要保持与网络上的朋友们的联系,或者您正在写一份合约,而Excel的那些行和列显然不适合满足这些需求。”
将数据集组合起来可能是特别棘手的工作。
“采用关系数据库管理系统的话,在您把所有这些数据集整合在一起之前,您必须决定如何对所有列实施排队。”他补充说。“而我们则可以采取任何形式或结构,并立即开始使用它。”
NoSQL数据库不使用一款关系数据模型,通常没有SQL接口。而许多NoSQL存储为了速度和其他因素而在一致性方面进行了妥协。而MarkLogic自身的产品是专为满足企业的一致性选择而量身定做的。
根据市场研究媒体Marketresearchmedia.com网站的介绍,在NoSQL市场已经呈现了可观的增长,但并非每个人都认为这是正确的方法——至少,不是在所有的情况下。
NoSQL系统“通过其横向扩展架构,解决了许多问题,但他们抛弃了SQL。” Splice Machine公司的CEO Monte Zweben说。这反过来,构成了现有代码中的问题。
Splice Machine公司的产品是称为NewSQL的,不同类别的替代品的一个例子——另一类预期在未来几年将获得强劲增长的产品。
“我们的理念是在保有SQL的同时,添加扩展架构。”Zweben说。“这是创造一些新的东西的时候了,但我们正努力使用户不必重写编写代码。”
大数据创业企业Deep Information Sciences公司也选择了坚持使用SQL,但他们则是以另一种方法。
该公司的DeepSQL数据库使用与MySQL相同的应用程序编程接口(API)和关系模型,这意味着为了使用它无需进行应用程序的改变。但它以不同的方式处理数据,使用机器学习。
DeepSQL可以使用任何工作负载组合自动适应物理,虚拟或云主机,该公司表示,从而省去了手动数据库优化的需要。
在这些都大大提高了性能以及扩展到 “千亿行”的能力,该公司的首席战略官Chad Jones表示。
另一种完全不同的方式来自Algebraix Data公司,该公司表示说,他们已经为数据开发了第一款真正的数学基础。
而计算机硬件已经在其建成之前进行了数学模型,而不是在软件的情况下,Algebraix公司首席执行官Charles Silver表示。
“软件,尤其是数据,从未建立在数学的基础上。”他说。“软件在很大程度上是语言学的问题。”
经过五年的研发,Algebraix公司创造了其所谓的“代数数据(algebra of data")”,这是一种利用数学集合论实现的“通用数据语言”。
“大数据的小秘密是,数据仍然在不与其他数据网格连接的小筒仓中。” Silver解释说。“我们已经证明,其可以用数学方法来表示,因此所有都是集成的。”
在这个基础上配备内置平台,Algebraix公司现在能够为企业用户提供业务分析作为一种服务。改进的性能,容量和速度都是Algebraix公司所为企业用户承诺的预期获益。
时间最终会证明哪些新的竞争者将获得成功。而在此期间,市场长期的领军,如甲骨文并不会完全停滞不前。
“软件是一个非常有时尚意识的行业。” 甲骨文数据库服务器技术的执行副总裁安德鲁·门德尔松表示说。 “事务往往从流行变为不受欢迎,然后又再次回到流行。”
他说,现在很多创业公司都仅仅是“把同一款旧东西炒冷饭之后加上一点点的抛光或打磨处理。这就类似于新的一代的毕业生重塑了事务。”
SQL是“唯一一款能够让业务分析师提问并得到答案的语言——他们不需要成为程序员。”门德尔松说。“大市场将始终是关系数据库。”
至于新的数据类型,关系型数据库产品发展为早在上世纪90年代就支持的非结构化数据,他说。在2013年,甲骨文的同名数据库在12c版本中增加了JSON(JavaScript对象表示法)支持。
门德尔松说,与其说是需要一款不同类型的数据库,更是一种商业模式的转变,而这正推动着整个行业的变革。
“云计算将是未来的发展方向,其将为现在的那些小企业带来破坏性的变革。”他说。“大企业都已经在云服务领域站稳脚跟了,所以在这一领域几乎已经没有容纳这些小型竞争者的地方了?”
“小企业们要通过采用亚马逊的云,并与亚马逊竞争吗?”他补充道。“这将是相当困难的。”
甲骨文拥有“最广泛的云服务。”门德尔松说。“我们对自己当前的市场地位感觉很好。”
Gartner的一名研究主管瑞克·格林沃尔德也倾向于类似的观点。
“较新的替代方案并不像传统的RDBMS那样功能齐全和强大。”格林沃尔德说。 “某些案例可以用新的竞争者的产品来解决,但并不是全部,当然也不是只有一款技术”。
展望未来,格林沃尔德预计,传统的RDBMS供应商将感受到价格压力越来越大,并为他们的产品增加新的功能。“有些供应商会甚至为其整个数据管理系统带来新的竞争者。”他说。
至于新的市场进入者,他预测,只有少数会幸存下来,“许多企业要么被收购或是耗尽其资金。”
今天的新技术并不代表传统的RDBMS的结束,“传统的RDBMS本身正在迅速发展。” IDC的Olofson对此也表示同意。“RDBMS需要明确定义的数据 - 总有需要有这样的角色。”
但是,他表示说,新的竞争者也会扮演一些角色,特别是在物联网和新兴技术领域,如非易失性双列直插式内存模块(Non-Volatile Dual In-line Memory Module,NVDIMM)正占据上风。
将会有无数的问题需要多种解决方案,Olofson补充说。“大量有趣的东西等待着人们去发掘。”