大数据供应商别再瞧不起数据仓库系统了行业资讯
我承认很多数据仓库存在着去自身的某些缺陷。但设计一个数据仓库是不容易的,并且对其部署的实现更是难上加难。某些相关的批评是对的:数据仓库需要很长的时间来建立,花费了很多钱,而且很难改变。但是,这并不意味着我们应该抛弃他们。
从其本质上讲,数据仓库并不是一种技术或工具。其主要是一个业务流程,以电子化的形式将企业整合起来(即,通过数据),因此它可以作为一个单一的实体,而不是一堆松散的耦合。如果没有数据仓库,企业高管会盲目运行,依靠不准确甚至没有数据为支撑做出企业的关键性决策。
虽然企业需要相关的技术来实现数据仓库的部署,但技术无法协调对企业业务的感知,并提供一个很好的整体企业观。只有企业的商务人士能做到这一点。事实上,让企业的商务人士同意核心业务的实体定义甚至比构建技术基础设施更具挑战性且耗时。与其责备在技术方面糟糕的设计或数据仓库的表现欠佳,我们应该将矛头指向那些不具备足够的领导力、缺乏远见和耐心为企业创造一个共同数据词汇的企业高管们。
数据仓库系统提供整洁的数据信息
从技术上讲,数据仓库是一家企业大多数主要应用程序和系统的清洁,集成和统一数据的储存库。企业可以利用各种技术和工具来实现数据仓库,从关系数据库到主数据管理中心及Hadoop。某些技术比其他技术更好,但没有一款技术足够好到可以完全替代所有其他技术。但那不是重点。数据仓库只是一种抽象的,从逻辑上代表了企业管理人员可以借助用来帮助制定企业决策的清洁数据集。
不幸的是,在大数据领域,许多服务供应商似乎主张完全放弃数据仓库。也许,他们真正的意思是,他们不再需要使用传统的关系型数据库和商业智能工具来存储和查询业务数据。这很好,而且也相当受欢迎。新技术能够带来相关的好处。但是,这并不排除企业对于清洁,集成和认证数据的需要。
大数据服务商们需要具体表明他们计划如何向企业客户提供相关的意见和标准报告。不幸的是,大多数大数据服务商均忽略或模糊了这一需求。
分析系统的三大支柱
问题的一部分在于数据仓库的角色在大数据领域向彻底衰亡之前。数据仓库只是几个成熟的分析库的其中之一,其中还包括探索/发现和事件驱动的报警环境(见图1)。
图1:描绘了一个成熟分析系统的概念架构
简单地说,数据仓库的作用是帮助企业的业务人员监控现有的流程和活动,并确定关键趋势和异常情况;其作为一个环境分析报告,为相关问题提供了预定义的答案。虽然数据仓库支持某种程度的分析,但其并不能解答新的和意想不到的问题。这是在探索和环境发现过程中的工作——今天大数据移动的标志。它可以让用户将新的和现有的数据集整合起来,运行复杂的查询和机器学习算法来帮助发现新的见解。同时,该警报的环境能够处理来自大批量交易或实时处理系统的用户警报或当数据触发预定义的规则时下游系统的数据源。
图1中缺少的是技术。正如我上面提到的,企业可以使用各种技术和工具实现数据仓库系统(和其他环境)的部署 。而企业的选择一定程度上取决于其遗留系统,预算和风险承受能力。
但无论决定使用哪种技术或工具,确保对于这一切需要怎样结合在一起才能设计出一个良好的分析系统有充分的了解。
最后,不要让大数据的倡导者诋毁数据仓库。其在任何分析系统中都发挥着至关重要的作用。数据仓库能够为企业提供数据的企业视图,驱动标准的报告和分析。谁能够离了它而照常生活呢?