数据加速软件将促进企业部署大数据项目行业资讯
2013-09-04 来源:机房360 编辑:litao984lt
实施大数据项目需要面临大数据的超大数据量、数据的输入和处理速度(还包括大数据分析)等挑战要求这些企业必须重新思考如何收集、分析和共享信息。
实施大数据项目需要面临大数据的超大数据量、数据的输入和处理速度(还包括大数据分析)等挑战要求这些企业必须重新思考如何收集、分析和共享信息。大数据项目的实施成本,尤其是咨询费用无疑是显著的,其需要的是新兴专业的知识,以便能够从洪水般席卷当今的业务的数据中提取有价值的见解。
大数据,大挑战
毫无疑问,当前全球最大的大数据来源是Facebook,但其实任何规模的企业均可以从大数据技术以及大数据分析中获益。例如全球时尚在线零售商GiltGroupe,就通过近五年的网站会员数据信息收集和分析工作,并制定有针对性的营销活动,使得其销售额达到五亿美元;每一分钟,Fab.com这家为设计师和客户提供交流平台的网站,都会结合用户的购买历史信息、会员信息发现趋势,以驱动业务决策。
那些传统的实体公司可能都会面临自己的挑战,但并非仅仅只是这些传统实体企业缺乏数据信息。其实,从群发的邮件、摄像机的视频、销售点系统、库存系统和大多数企业的报告中,大多数企业均可以收集到足够的数据信息来填充他们的大数据库。将如此众多的海量信息收集到一个单一的位置将是一个巨大的挑战。
将磁盘或磁带运送到一个中央位置以便上传到一个大数据库的方案并非总是可行或可取的,而且在整个企业的网络中传输这么多的数据信息往往也是不可能的。这不仅仅只是带宽不足的问题。即使连接数百兆的网站,高速网络的延迟和网络质量,也会极大地削弱实际吞吐量。例如,在100Mbps的连接情况下,端到端仍然会被限制在每流量5.24Mbps(假设有100毫秒的延迟,且无数据包丢失)。如果数据丢失哪怕只增加0.1%,吞吐量也会下降至每流量3.69Mbps。
访问数据时,网络的限制问题也会带来挑战。对于大多数数据库,用户通常喜欢在他们的本地设备上复制数据和工作,而这又导致了需要在整个网络上复制千兆以上的数据。运用类似的做法实施大数据项目会导致网络成本飙升,性能表现不佳和用户挫折感增强。但是,企业不能限制本地用户访问大数据;限制员工访问和使用大数据是大数据项目失败的一个重要限制原因。
网络成本的膨胀是唯一影响大数据项目成本的因素。由于Hadoop的使用和其他开放源码软件包和扩展存储的使用,相对而言,较之传统企业的数据仓库,软件和存储的成本较低。但这些费用往往不会影响行业内地安全性、灾难恢复和可用性等监管要求。
大部分企业未计算的还包括人力成本。鉴于今天的大数据市场的不成熟,据Gartner公司预计,企业需要在人力成本方面花费约20〜25倍于供应成本的咨询和集成服务费用。(相比之下,在成熟的市场,如商业智能系统市场,据Gartner公司预计,其咨询服务费用仅为供应成本的三倍左右。)尽管当前人力成本很可能会持续上升。但企业仍然需要培训或聘请相关的人员来分析大数据。“数据科学家”是结合了商业智能(BI)分析和统计学知识的专家,是那些发掘数据集以发现有价值的新见解,促进企业业务流程自动化和优化的一类热门人才的称号。
数据加速软件、云计算有助于大数据项目
云计算对于大数据来说是相当完美的匹配。大数据所需要的存储、计算、功率、复杂的数据库的基础设施和高端的数据处理能力均能够被诸如亚马逊网络服务(AWS)这样良好的云服务产品来满足。
AWS以极低的价格提供无限弹性云计算(EC2)、弹性块存储(EBS)和简单存储服务(S3)。它提供的DynamoDB是一款高度可用的分布式数据库集群;而ElasticMapReduce是一个管理平台,支持基于Hadoop的分析栈。这些富有成本效益的资源和技术帮助企业在亚马逊建立自己的分析,获得更深入和更丰富的洞察。
但其面临的挑战仍然存在:如何将数据转移到云或企业的数据中心。数据加速软件解决了这个问题。通过在线路两端运行的实例,数据加速软件可以提高吞吐量超过200倍。例如,移动100GB的数据,仅仅只需6.2分钟,不再是22小时。数据加速通过优化协议,以矫正延迟,复制数据,以最大限度地利用带宽。并且,在某些情况下,可以在传递过程中恢复丢失的数据包,而不需要重传上传,破坏吞吐量。因为数据加速软件可以按小时授权,对于那些只需一次性转移或不常转移的大数据而言,成本可以非常低。
数据加速软件是任何大规模的数据部署实现的关键一步。无论是部署在云中或在企业内部,其都可以缩短时间,汇总数据,极大地提高企业部署大数据项目的价值。
大数据,大挑战
毫无疑问,当前全球最大的大数据来源是Facebook,但其实任何规模的企业均可以从大数据技术以及大数据分析中获益。例如全球时尚在线零售商GiltGroupe,就通过近五年的网站会员数据信息收集和分析工作,并制定有针对性的营销活动,使得其销售额达到五亿美元;每一分钟,Fab.com这家为设计师和客户提供交流平台的网站,都会结合用户的购买历史信息、会员信息发现趋势,以驱动业务决策。
那些传统的实体公司可能都会面临自己的挑战,但并非仅仅只是这些传统实体企业缺乏数据信息。其实,从群发的邮件、摄像机的视频、销售点系统、库存系统和大多数企业的报告中,大多数企业均可以收集到足够的数据信息来填充他们的大数据库。将如此众多的海量信息收集到一个单一的位置将是一个巨大的挑战。
将磁盘或磁带运送到一个中央位置以便上传到一个大数据库的方案并非总是可行或可取的,而且在整个企业的网络中传输这么多的数据信息往往也是不可能的。这不仅仅只是带宽不足的问题。即使连接数百兆的网站,高速网络的延迟和网络质量,也会极大地削弱实际吞吐量。例如,在100Mbps的连接情况下,端到端仍然会被限制在每流量5.24Mbps(假设有100毫秒的延迟,且无数据包丢失)。如果数据丢失哪怕只增加0.1%,吞吐量也会下降至每流量3.69Mbps。
访问数据时,网络的限制问题也会带来挑战。对于大多数数据库,用户通常喜欢在他们的本地设备上复制数据和工作,而这又导致了需要在整个网络上复制千兆以上的数据。运用类似的做法实施大数据项目会导致网络成本飙升,性能表现不佳和用户挫折感增强。但是,企业不能限制本地用户访问大数据;限制员工访问和使用大数据是大数据项目失败的一个重要限制原因。
网络成本的膨胀是唯一影响大数据项目成本的因素。由于Hadoop的使用和其他开放源码软件包和扩展存储的使用,相对而言,较之传统企业的数据仓库,软件和存储的成本较低。但这些费用往往不会影响行业内地安全性、灾难恢复和可用性等监管要求。
大部分企业未计算的还包括人力成本。鉴于今天的大数据市场的不成熟,据Gartner公司预计,企业需要在人力成本方面花费约20〜25倍于供应成本的咨询和集成服务费用。(相比之下,在成熟的市场,如商业智能系统市场,据Gartner公司预计,其咨询服务费用仅为供应成本的三倍左右。)尽管当前人力成本很可能会持续上升。但企业仍然需要培训或聘请相关的人员来分析大数据。“数据科学家”是结合了商业智能(BI)分析和统计学知识的专家,是那些发掘数据集以发现有价值的新见解,促进企业业务流程自动化和优化的一类热门人才的称号。
数据加速软件、云计算有助于大数据项目
云计算对于大数据来说是相当完美的匹配。大数据所需要的存储、计算、功率、复杂的数据库的基础设施和高端的数据处理能力均能够被诸如亚马逊网络服务(AWS)这样良好的云服务产品来满足。
AWS以极低的价格提供无限弹性云计算(EC2)、弹性块存储(EBS)和简单存储服务(S3)。它提供的DynamoDB是一款高度可用的分布式数据库集群;而ElasticMapReduce是一个管理平台,支持基于Hadoop的分析栈。这些富有成本效益的资源和技术帮助企业在亚马逊建立自己的分析,获得更深入和更丰富的洞察。
但其面临的挑战仍然存在:如何将数据转移到云或企业的数据中心。数据加速软件解决了这个问题。通过在线路两端运行的实例,数据加速软件可以提高吞吐量超过200倍。例如,移动100GB的数据,仅仅只需6.2分钟,不再是22小时。数据加速通过优化协议,以矫正延迟,复制数据,以最大限度地利用带宽。并且,在某些情况下,可以在传递过程中恢复丢失的数据包,而不需要重传上传,破坏吞吐量。因为数据加速软件可以按小时授权,对于那些只需一次性转移或不常转移的大数据而言,成本可以非常低。
数据加速软件是任何大规模的数据部署实现的关键一步。无论是部署在云中或在企业内部,其都可以缩短时间,汇总数据,极大地提高企业部署大数据项目的价值。