找到合适的大数据工具通常是一个多选题行业资讯
此外,IT管理人员必须评估Hadoop集群、NoSQL数据库和其他大数据工具是否可以轻松的融入企业现有的系统架构;或者说是否需要对其现有架构进行某些修改,以适应这些技术。而答案则取决于企业的规划用途,企业的组织结构和IT成熟度等因素。
而新兴业务在从大数据库中提取商业价值,进而获得竞争优势方面兴趣的高涨,其实意味着企业并没有太多的时间来评估市场上众多可用的技术,进而从中做出选择。越来越多的企业开始将大数据视为一种宝贵的资源,企业领导人和数据分析科学家们都希望像淘金者一样从中寻找到有价值的东西贵。这一“大数据淘金热”为企业IT团队和数据管理层提供快速的系统,以便能够处理日益增长的各种海量数据带来了巨大的压力。
而在规划大数据策略时的一个最大的问题在于将所有这些大数据信息放在何处以便进行数据处理与分析。直到不久以前,交易数据仍然是企业最为关注的,而对交易数据的管理往往归结为采用几个关系数据库。多维数据库,柱状软件和其他专业分析引擎为数据从交易系统入库进行分析增加了一些选择。尽管如此,在许多企业,涉及重大决定的数据仍然是在企业数据仓库(EDW)或一组独立的数据集市中处理的。
有很多大数据技术可供选择
但事情已经发生了变化。从社交媒体网站、传感器、系统日志和其他非事务性资源收集和分析数据,已成为许多企业的优先选项。大数据技术已扩展到了相当的程度,能够充分支持这些举措,从而带来了数量繁多、各种不同、令人眼花缭乱的选择。
马修阿斯莱特是研究和咨询机构451集团的企业软件分析师,他表示,现在市场上数据存储和管理产品就如同伦敦地铁地图一样形式多样,不同的颜色编码代表不同类别的产品。除了常规的数据库,这些类别的取样包括Hadoop文件系统和方案较少的NoSQL数据库,以及使用基于SQL关系数据模型,目标旨在提供NoSQL水平的数据可扩展性的“ NewSQL ”混合产品。潜在买家的困惑甚至更多,某些类别的产品涵盖了广泛不同的技术。特别是,NoSQL是一个总称,包括各种图形数据库;文档,列和核心价值的存储和其他类型的存储库。
最初,许多大数据应用程序是“待开发”的项目,尚未面临的一些典型的应用程序开发问题,如需要与遗留系统和结构化数据源集成整合。通常,技术娴熟的数据分析师和其他商业用户在处理一些非结构化或半结构化的数据时,是在IT和商业智能管理器的雷达监控下进行的,充分利用Hadoop和NoSQL工具的诸多开源优势。但现在,大数据无疑已经在企业雷达的充分监控范围内了,并努力将非交易形式的转化成主流的数据分析过程,增加了IT团队实施有效的大数据系统部署和管理的必要性。
选择合适的大数据工具
关键是要为您企业的工作任务选择合适的技术,这就如同投注者在赛马场上尽量选择最好的那匹马:不仅要选择纯种马,同时您所选择的赛马还必须能够适应泥土、草地,或干或泥泞的各种赛马场所。而在一个大数据环境,但能够适用于多个数据库的“马匹”可能需要具备多方面的功能。
ThoughtWorks公司是一家总部位于芝加哥的软件开发服务公司,该公司也出售应用生命周期管理工具,已经开发出了一款模拟的在线零售应用框架来说明通晓多种语言的持久性的概念,或使用不同的数据库技术来处理不同类型的数据,而其是基于哪款技术是最适合该数据类型的情况而选取的。例如,根据ThoughtWorks模型,一个关键值的NoSQL数据存储可能最适合于管理网站的用户数据作为零售业框架的一部分。但其设想使用NoSQL数据库其他四种情况,如处理网上购物车的数据,设置网站的推荐引擎和存储用户活动日志的任务。
基于SQL的关系数据库在新的多语言世界仍然有其市场。在网上零售框架,相关技术非常适用于需要交易更新的金融数据,很适合基于表格的结构。相关的报告也可以采用SQL接口的关系数据库,以准备好交易数据的企业报表工具。
关系数据库在处理交易数据方面是有效的,并通过其所具有的原子性和一致性等特性的支持,能够提供NoSQL技术一般不匹配的可靠性和数据恢复能力。但关系的软件通常不适合大数据文本和其他非结构化形式。其要求“在后端的大量维修”,包括需要精心构建的数据模式,并在业务需求的变化时对他们进行修改,ThoughtWorks公司首席顾问Pramod Sadalage表示。这些问题是NoSQL和Hadoop产品的最小化。
“最后,我们要强调的是,给相关特定的工作任务指定最适合的数据库。”Sadalage说。