大数据定量信息分析 如何挖掘有用信息行业资讯

2013-08-23    来源:机房360    编辑:Victor
大数据的HPC遗产扎根于高校和科研院所,以其超大的碳排放量和运作成本维持着超级计算。但是,一般的大型企业和中小企业并不适合运营这样的空间。
  相反,这些企业希望获得的是他们负担得起的、且可扩展的强大计算能力。这样,大数据可以作为他们数据中心的预算。除非这些企业选择采用云服务提供商的托管服务,并让云服务提供商来替他们运行大数据的处理和分析工作,否则,他们也需要寻找真正的(而非虚拟化)HPC平台,因为高性能计算和大数据在虚拟化环境中的表现并非良好。
  
  到目前为止,大型企业在其企业级数据中心所选择的大数据处理平台所采用的均为x86服务器。部分的原因是缘于这些服务器在大数据处理集群的易扩展性,方便了企业扩大他们的大数据处理能力。另一个原因是x86级服务器比较符合一般企业的经济承受能力。即使如此,这些服务器也必须进行特殊的配置,以便满足HPC的并行处理以及操作大数据分析。
  
  在x86硬件架构中,大数据可以并行处理,但每台服务器只能有两个线程。相比之下,在一个RISC(精简指令集计算机)芯片环境,习惯上运行Unix的计算机,可以并行处理四个线程,每台服务器提高了一倍。
  
  IBM在早在几年前就推出了其基于RISC的电力系统。具备扩展能力,能够为大数据的HPC运行Linux和Unix(AIX)集群。为了与之抗衡,甲骨文则在2013年第一季度末推出了其SPARCT5处理器。
  
  而伴随着这一系列新产品纷纷上市的一个有趣的背景是基于RISC的Unix计算机市场实际上一直在萎缩下降。故而业内对于供应商们为什么会在这方面做出重大投资或多或少的存在着某些不理解。
  
  而当我们意识到未来的大数据处理可能会超越基于x86的计算平台说能够提供的能力之后,上述疑惑的答案就变得简单了。今天的基于RISC的服务器也可以运行Linux和Unix,这是非常有益的,因为企业的IT部门往往有充足的Linux人才,但Unix人才却不一定。
  
  许多企业的数据中心站点已经在考虑实施在x86级服务器上部署大数据处理集群了。但是,现在就考虑采用基于RISC的系统还为时尚早,毕竟这些是未来才会用到的。朝着这方面考虑的话,不仅需要消耗大量的资金,同时还需要进行IT基础设施的整合,满足适当的实施条件,因为大数据处理需要“真正的”硬件。(除非你的企业将自己的大数据工作外包给云服务提供商)
  
  始终与你的大数据供应商保持积极的对话。这不仅仅是要了解他们当前所销售的产品,同时,更重要的是你必须还应该清楚他们的技术路线图,他们的产品的发展方向。如果他们的目标是转向RISC,而他们向您的企业出售的产品则是基于x86的,那么,是时候坐下来和他们好好谈谈一下您所关注的问题了。毕竟,您的企业是他们的客户。如果他们想要满足您企业的需求,那么,为您企业提供迁移路径、针对您的企业提供相关的培训和产品折扣也是他们的责任。
  
  在一般情况下,对于许多产业来说,大数据的使用依然是处于其早期阶段。但在金融服务行业却早已经与大数据的处理打了多年的交道了。事实上,其早已经深深的嵌入到金融服务行业管理和财务的核心流程。感谢有了先进的大数据处理能力,在过去可能需要花费几个小时才能完成的工作,现在能够在短短的几分钟内被轻松搞定。大数据处理能力已然被广泛的应用到了从资本市场投资组合管理到金融风险管理的一切领域。正是基于这样的技术进步,我们得以从数天前或数周前的数据进行分析,以帮助重新制定战略,得出第二天的交易方法。而现如今,利用更为复杂的数据分析能力,金融公司能够缩短数据处理的进程,并根据最新的交易情况实时调整策略。
  
  然而,金融企业所关注的不仅仅是海量数据集不断增加的问题。他们同时还需要考虑数据高速处理和数据的多样化的问题。当把不同集群的数据库中的结构化和非结构化数据放在一起进行分析时,金融公司依靠具有强大的处理速度,特别是鉴于实时的洞察能力已经越来越多成为市场分析和交易策略的一个关键战略因素的情况之下。但我们的金融机构是否配备了适当的基础设施,以有效地处理大数据的这三大特性(海量、高速处理、多样化),并进一步的车实时数据分析中获益呢?
  
  利用实时数据分析,金融机构能够更好地管理风险,并实时的向客户提供预警信息。如果一家金融公司能够实时的进行风险管理,不仅能够转化为更好的交易业绩,而且还保证了企业对于相关合规性的遵守。这样的改进可以从增强消费者信用卡交易监控和预防欺诈的保护措施中看出。但是,对于更大规模的受益于更好的数据分析则可能是著名的雷曼兄弟倒闭事件。

  金融领域处理大数据的海量、高速处理、多样化的三大特性的关键在于基础设施。许多金融机构的关键系统仍然依赖于传统的基础设施。但是,随着金融机构处理越来越多的实时操作,这些企业需要找到一种方法来摆脱遗留系统,以使得自己更具竞争力,满足大数据处理的需求。
  
  为了解决这个问题,许多金融机构已经实现了软件即服务(SaaS)的应用程序的部署,可以通过互联网访问。有了这些解决方案,金融企业可以通过远程服务进行数据收集,无需担心他们现有的基础设施超载的问题。除了采用SaaS应用程序之外,还有一些金融公司通过使用开源软件的方法来解决了他们的基础设施的问题,允许他们简单地插入自己的算法和贸易政策进入系统,让它来处理他们越来越高的处理要求和数据分析的任务。
  
  在现实中,迁移遗留的基础设施是一个相当痛苦的过程。要处理这样一个过程所花费的时间和费用,这意味着其所带来的价值必须远远大于风险。因此,有一个有价值的商业案例可谓是任何大规模的基础设施迁移的关键。然而,在今天,越来越多的金融企业发现大数据分析的动力足以成为一个强大的商业案例,而且采用软件即服务和开源软件的解决方案作为垫脚石完全可以帮助他们最终迁移他们的滞后的基础设施遗产。
  
  社会媒体公司正在寻求通过他们所收集和捕获的个人和专业交互数据中盈利。他们差不多完全依赖于广告收入,因此他们的数据信息对于广告商来说是相当有价值的,这些广告商们可以利用这些数据信息进行又针对性的品牌建设或者进行更有效的客户细分和市场营销。这些社会媒体广告用户可以更好的通过网络和移动设备平台精准的定位自己的目标客户投放广告,同时通过各种工具进行交叉销售、向上销售、预告近期优惠信息,进一步的吸引顾客和减少管理损耗。
  
  在线商家通过销售数据、在线产品搜索、或从客户其他类似的购物行为信息来分析客户交易,然后根据客户的采购模式调整自己的产品和报价。这些商家收集到底消费者的数据越多,就越能进行精准的目标客户定位。
  
  同时,还有更加创新方法来货币化数据信息。考虑将数据信息发展为一个市场,某种模型能够潜在的创造出一个新的市场分类。在这里,企业可以购买,出售数据或进行互惠互利的数据贸易。
  
  同样,一家零食制造商可能决定通过数据市场分享其专有产品的营养信息来换取某些特定地区消费者对于其产品的反馈。而在数据市场上,可能会有智能手机应用程序开发商愿意通过出售或交换的方式获得该零食制造商的营养配置数据信息,因为该应用程序开发商的软件产品就是比较各种甜点的热量和脂肪含量,并向客户提供产品建议。
  
  正如你所看到的,提高协同效应是可能带来可观的收入的。上文中的云服务提供商提供了一个更可靠的服务;而硬件和软件供应商获得了相关的产品使用信息来改善他们的产品和服务;零食制造商也获得了各种以前不可用的数据源的现场数据;应用程序开发商则获得了构建其应用软件所需要的准确的数据。
  
  所有这一切数据的共享,相关的问题被很容易的解决了。但隐私是一个关键的问题,尤其是当企业寻求市场潜在客户的数据资料时。这便是相关的服务协议和隐私政策发挥关键作用的时候了。如果企业及时的通知自己的客户,让他们知晓相关的事宜,或者让客户自己拥有适当的选择权,那么企业可以大大减轻在隐私问题方面的苦恼。
  
  企业应该让这些通知和协议易于理解,当准备出售或交易这些数据时,确保严格遵守相关的保密规定。否则,这方面的失误可能会带来致命的麻烦。当然,企业还需要确保这些有价值的数据信息不会落入到竞争对手手中。
  
  事实上,如果您企业雇用的大数据科学专家所持有的大数据项目理念与您打算在企业业务方面采用的战略哲学不协调的话,您会让自己陷入真正的麻烦。这可能听起来多少有些夸张,然而,仅仅只有很少的企业的高管们在关注数据科学家们未来的研究方向,因为他们不认为在这方面还有什么要考虑的。
  
  相反,当您的企业在选择数据科学专家来负责您企业的相关大数据创新战略时,您必须确保您自己先要了解这些数据科学专家们是如何看待大数据项目的研究的。
  
  最为经典的大数据研究方法被称为定量研究。那些持定量研究理念的数据科学专家们被称为管理科学界的实证主义者,他们坚持用统计数据来讲述一个问题。他们往往从一个假设的命题开始,并逐步通过演绎推理来证明自己的假设。
  
  换句话说,他们会从提出一个理念开始,然后逐步用数值分析的方法来验证这一理念。例如,您可能有一种强烈的预感,您企业的产品将在爱好帆船运动项目的年轻男子市场有很好的市场前景。如果您将您的这一预感告诉一个实证主义者,他们会很乐意的采纳这一假说,并试图通过数据分析的方法来证明您的预测。

  当您有一个明确的问题需要解决,并针对可能发生的状况有足够的理论支撑时,定量研究的确是一套很有效的方法。一旦定义了问题,需要针对问题的假设进行探索,数据科学专家将遵循这一众所周知的定量研究的科学方法,用一系列的数据来支撑您的想法。
  
  如果一切顺利,您的预感将变成不只是一种预感,因为您有很好的统计数据作为支撑,以保证您的想法成为现实。这能够帮助您建立良好的信心,不会选择错误的战略路径。
  
  另一方面是定性研究,有时将其称为解释学。持有这一研究理念的研究人员在开始研究问题时没有预制的假设,而是使用归纳推理的方法,从部分到整体的进行观察描述。而不象那些定量研究人员那样通过控制实验进行分析,而是通过问题存在的环境观察和解释现象。
  
  您会在很多生物的研究看到这种定性研究的广泛应用,研究人员通过营造接近物种栖息地的环境,试图提取更深的见解,并力图不打扰现有点生态系统。
  
  当您对于您企业收集的相关数据信息所能够揭示出什么有价值的东西没有任何想法时,定性数据科学专家就能派上用场了。例如,您可能已经收集了企业业务部门在过去五年的事务日志,但您不知道这些信息里面能否提炼出任何有价值的东西,进而转换成信息产品。如果您将您的这一问题告诉一个解释学主义者,他们会试图探讨您的数据,这样您就可以更好地理解这些数据了。
  
  他们不是要在您的数据信息中寻找什么特别的东西,也肯定不是想证明什么。他们只是想办法帮助您更好地了解您的数据是什么。
  
  我认为对于定性分析必须采取非常谨慎的态度,因为其经常在企业战略制定时被滥用。毋庸置疑,在您企业制定大数据发展策略时,定性分析有可能是非常重要的,您只需要了解如何正确使用它,而不至于白白投资了大量资金。
  
  现在,有一种混合型的分析方案,将定性和定量研究方法结合起来。这有可能在您制定的大数据战略时非常有帮助的。但是,也有人认为这并不是灵丹妙药,大多数企业第一次尝试这一方案是也发现其不是万能的。
  
  混合研究方法是新兴的、同时也是复杂的,您不会希望因为采用了混合研究方法而让您企业的大数据发展策略充斥着风险吧。此外,这种研究方法还没有形成自己的研究体系,其只是两种研究类型方式的结合。例如,针对一个问题,您可以从定性研究开始然后又转向定量研究。
1
3