用元数据解决大数据的困境行业资讯
在被认为卷入一项谋杀案后,杀毒软件公司McAfee创始人John McAfee飞到在伯利兹的家中,但他并没有消失。在接下来的一个月里,他一边逃避警察的追捕,一边通过博客、社交网站以及媒体的渠道出现在公众的视线里。
如果不是那张放在一家纽约艺术文化杂志Vice上照片所透露的信息,这位硅谷传奇还将继续与警察玩“捉迷藏”的游戏。这是个极其细微的信息,普通人几乎不会注意到的方面,而在警察和专业人士看来,这微不足道的信息却可以分析出John McAfee这张照片的拍摄地点。
这个信息不仅导致McAfee最终被铺,也将元数据——地理密码,以这样的方式呈现在公众面前。元数据,通常被看做是“数据的数据”,很快便为自己赢得了声望,当然,就不仅仅局限在追踪犯罪嫌疑人方面。专家们认为,投资大数据分析工具的公司不应该停留在存储和分析数据的层面,而应该去考虑在特定背景下数据的标签。如果没有元数据,企业将无法在大数据分析中获得有效信息,包括对于重要商业发展趋势的判断。
Phil Shelley,既是Sears Holdings公司CTO,也是该集团旗下子公司——一家元数据供应商公司的CEO,说:“大数据工具最有趣的一点就是它让你存储数据变得更容易,会让你沉迷于存储数据。但如果你无法使用这些数据或者检索它们,那么数据就是无用的”。
Data Governance Institute公司的创始人兼总裁Gwen Thomas也同意大数据正在改变人们对于元数据的态度。她表示:“当你谈论小数据时,总有一些样本供你一探虚实,但你在大数据这里却没有这么多选择。这就像你从消费水管里喝水:你将被水流击倒。”
元数据和非关系型数据中心的崛起
Shelley认为:元数据在商业中被利用在特定情境和地点的数据收集方面,这个尝试经过了很长时间才被认可,但并不被人时时记得。究其原因,他说:“很多人不愿去做记录元数据这个苦差事。人们只想如何获取数据,利用数据产生价值。”
传统意义上,企业都尽量避免讨论元数据,因为数据仓库——比如关系型数据库就是将数据按照行和列整齐排序的数据库,“而且元数据意味着结构化的数据”,Shelley补充道。新的存储和分析工具尽管可以用来处理海量的数据和结构,但是采用不同的方法组织数据,都有各自的优势和劣势。Shelley承认:“大数据工具的优势在于当你将数据丢掉一边时,它不会有强制的规则。它允许你在读取数据时就应用它们。”
比如,大数据工具Hadoop,就承诺拥有对企业一年数据提供分析的能力。Shelley表示:“但这个缺点则是如果你搞不清数据是什么或者元数据是什么,那么你真的不知道接下来怎么做。”
大数据鸿沟
consultancyEWSolutions总裁David Marco认为,元数据不仅给企业提供数据遗产,而且还可以帮助企业建立数据的一致性。他表示,元数据解决了企业定义“消费者”的难题。通常来说,企业不同部门对消费者的定义各不相同,但是通过元数据,企业可以制作一个定义或业务策略的规则——或任何重大数据概念,并可广泛用于其企业范围的数据分析。他补充道:“当你将分析信息放入业务发展计划时,总会出现错误或者你丢失了一些信息。如果你是企业决策者、市场营销官或者首席信息官,你难道不想知道那丢失的2%的数据吗?”元数据会让你的数据更加完整和精确。
Marco认为另一个促使元数据崛起的原因便是它可以减少IT支出。当企业建立了多个订单输入系统、金融系统而数据完全相同,企业就要花费巨资维持系统运营,这笔费用一场昂贵。他说:“你如何才能摆脱掉这个负担?你必须知道你需要的数据是什么,它们意味着什么,它们都在哪里——而这就是元数据的管理。”