大数据的发展需要数据管理专业突破固有理念行业资讯

2014-07-09    来源:机房360    编辑:litao984lt
随着大数据的不断发展,现在需要数据管理行业具备一个不同的思维方式和心态来管理大数据了。不久前,在德克萨斯州奥斯汀举行的DAMA国际的企业数据世界2014大会上,专家小组成员这

  “企业信息管理一直是为了确保相关业务部门能够在正确的时间和地点获得正确的数据。这其中包括主数据,参考数据,以及数据质量和数据管理。”阿巴特说。他是全球纸张和消费品制造巨头Kimberly-Clark公司的全球企业信息管理和分析主管。

  但是,企业现在所收集的数据的传输速度,种类和规模现在正在引发某些变化,他说。现在,数据科学家们仅仅倾向于强调所收集数据的数量,而并不太在意某些数据的特定质量。曾经是数据设计关键所在的数据模式,现在有时已经开始让位给了那些无模式(schema-less)或schema-on-the-fly数据架构了。

  “大数据和数据的科学以及与之相关的分析是关于企业尽可能多的从所能够收集到的数据集(或从未分化的数据存储层)中获得数据信息,然后通过运行算法对其进行分析。”他说。但在阿巴特看来,数据质量已经不再是企业数据管理中最重要的因素了。

  关于大数据现状的另一个版本

  对于高质量数据越来越多的追求将使得企业以围绕着在数据存储库中找到元数据为中心,而不是数据本身,一位资深的数据架构师说。随着原始数据的不断增长,一些数据的质量也在相应的提升,同时其灵活性也有所增加,据MatchPoint咨询集团数据的管理顾问兼DAMA国际理事会成员Ray McGlew表示。

  识别不同类型的数据,以及区分这些不同数据之间的优先级一直是数据管理专业的一部分,他说。一系列新的数据类型使得灵活性变得更加重要。

  “在诸如银行交易的过程中,你必须掌握真实版本的关键数据信息。但在其他的一些交易中,你必须拥更加灵活、或者说需要更加意识到数据的本质。” McGlew以推特和facebook的数据为例说。

  事实上,我们所需要的是一个对于数据的单一版本的定义——元数据,McGlew说。

  在有些情况下,一个“客户”是指拥有一个确定账户自然人,也就是一个银行客户的案例;但现在,伴随着社交媒体网站的大规模兴起,“客户”则可能源于一个社交媒体网站的信息。

  “这样的‘客户’信息比其他的账户更为无定形。”McGlew说。“企业无法从其得到一个数据号码,但会得到一系列的数字。”换句话说,企业所得到的是一个趋势分析,而不是一个数字。

  跳出固有模式?

  那些超出了一般数据架构和蓝图的新的大数据架构即将为现今的数据分析企业带来一个颠覆性的挑战。所以,现在就断言其发展方向显然是言之过早。

  “在这方面,我们才刚开始。”Fidelity投资公司的数据分析主管Ian Wood表示。他同时也是建议将主数据管理流程提前到为保持企业数据一致性而采用主数据管理工具之前的共同倡导者之一。

  鉴于他的所在企业的结构化的环境,他表示,通往无模式(schema-less)和schema-on-the-fly模式方法的道路可能还很漫长。但这一过程已经开始。

  “我们与我们的商业用户就他们未来的需求问题进行了探讨。同时也与我们的技术开发团队就他们的想法进行了碰头。但说实话,我真的不知道我们要往什么方向发展。” Wood说。

  然而,他说,他的团队可能会采取有组织的结构和程序的形式,而不是“跳到采用一套技术解决方案。”

  不仅仅是Hadoop

  在2014年,数据仓库(EDW)领域所发生的一系列新兴主题中,就包括了大数据要比从所谓的Hadoop的中发现的数据更为重要的概念。例如,阿巴特说,他认为Hadoop仅仅只是一个单纯的“文件存储。

  其只是一个文件存储,直到其能够与SQL风格的数据库技术更好地整合,阿巴特说。阿巴特最近刚刚协助领导了沃尔玛公司的山姆会员店业务完成了其大数据和商务智能项目。

  “当‘Impalas’使Hadoop成为数据库时,其才具有真正的价值。”他评价一类新兴的SQL-on-Hadoop工具时表示,该工具是由Cloudera公司开发的运行在Hadoop上的Impala SQL查询。

  即使在使用传统数据仓库的情况下,不同的数据可能需要采用不同的方法来确保数据质量,他说。在工作中有一个新的二分法,其使能数据科学家完成大量数据的处理工作,并帮助他们理解数据质量可能不是绝对的。

  “企业可以直接运行查询,而忽略一些信息,这样就可以很容易地发现异常。”阿巴特说。“这样会帮助企业切实保证数据质量。 ”

  这可能会引起一些数据专业人士的争议,而这样的方法却为其他的一些人所熟悉。多年来,企业在实际的数据操作世界中已经通过这样的方法来找到了许多新的更有效的管理数据的方法。在面对更多大数据的情况下,确保数据的质量和灵活性仍将是这些新方法的首要目标。

1
3