关于成功的项目预测分析的10大技巧前沿技术
不幸的是,大多数企业的数据分析能力并没有随着可用数据量的增加而保持同样的增长速度。为了不再纯粹凭经验与直觉来做出企业的相关重大决策,企业需要建立起一套以数据驱动的方法,引入预测分析,进而提高决策能力。
预测分析可以使得计算机模型能够自动从企业的海量数据中发现复杂的隐藏模式,进而帮助企业优化库存;预测欺诈行为,维护客户关系并留住长期客户;为客户建议他们真正需要的产品。最近,随着Kaggle的成功,预测分析得到了前所未有的关注。Kaggle是一个网络平台,是由通用电气、辉瑞公司、Facebook等企业举办的数据挖掘和预测建模竞赛平台,数据科学家最高可从该竞赛获得300万美元的奖励。
基于我所经历过的一些客户项目和Kaggle竞赛经验,我想在此分享一些关于成功的项目预测分析这一主题的某些技巧,以便为您企业的项目预测分析提供一些借鉴和参考。
1、从一开始就要有极强的目的性
大数据固然是相当有用的,但不要太拿它当一回事了。对本质业务领域的知识精通的把握才是必不可少的(例如:充分了解自己的产品和客户),这是企业的业务和IT部门开始有所作为的先决条件。企业首先需要弄清楚某些特定的问题,如:我们怎么赚钱?模型将如何部署?企业产生和收集的数据是什么样子的?相关预测分析需要如何快速的做出?我们多久需要更新一次模型?新的输出的数据信息将如何使用?在这个过程中,我们将如何解释和分析相关的变化?
2、避免数据处理方式固定化、模式化
数据挖掘的过程对预测分析其实是大有裨益的。企业固然需要确定一定的分析方式,但这一分析过程是值得优化。一旦企业相关数据集的处理方式中被模式化的固定下来,那么大数据所能够提供的商业机会便可以会大大减少。交接数据集,就是希望有人能够独辟蹊径的从之前尚未发现的数据挖掘分析途径中发掘出新的商机。
3、不要迷失在数据驱动的交易过程中
数据驱动的方法为很多企业赢得了巨大的成功。然而,大多数企业的数据处理进程仍严重依赖于设计,亟待进行优化。当预测分析被引入到数据分析处理的进程时,这一现状就会发生改变了。采纳了优化方案的最好的结果是,企业的每名员工都会参与其中,要知道,企业缺乏数据驱动的文化是导致预测分析项目成功的最大障碍。
4、聘用建模专家
专业知识对于每一个预测分析项目而言都是至关重要的。所以,一旦项目涉及到相关数据问题时,企业需要相关能够搭建出最好数据模型的建模专家。Kaggle竞赛表明专业人士在预测建模方面能力可以帮助保险公司和电子公司解决同样的问题。因而这一阶段,企业需要专注于数据建模专业知识的分析能力而非业务知识。
5、设计您企业的数据收集方式
企业决策的制定是依据传感器所收集的数据信息。而这与传感器放置在哪里,设置什么样的频率,收集哪些数据集,以及如何设计一款应用程序都是密切相关的。大多数企业在做出相关决策时,并可没有充分考虑上述几大要素,并依据这些要素有针对性的进行数据分析。对于某些应用程序而言,其需要纵向的数据或者需要数据以一定的频率汇总。而在其他情况下,企业的数据模型可能正是需要那些丢失的数据。上述这些情况都可能会摧毁预测分析。为了避免这些情况的发生,企业的数据分析师最好是尽可能早的设计制定出一套好的收集实践方案。
6、竞争分析
曾经有一段时间,企业所收集和产生的数据量还相当少,彼时的数据分析基本上还处于饼状图管理阶段,只有偶尔才需要查询数据库。今天,大多数企业都集合了软件工具和数据的同时采用。例如,谷歌和亚马逊,他们都在各自领域的垂直领军企业。谷歌的算法直接与微软竞争。谷歌利用他们的数据进行智能算法正在创造全新的商业模式。企业想要成为您所在行业的龙头老大,务必要具有分析竞争能力。有鉴于此,人力资本是至关重要的。为了吸引合适的人才,企业建立正确的“以数据为中心”的文化是关键。
7、关于预测模型的演示
关于预测模型的良好演示其实与预测的精准度一样重要。有时,一个预测模型的输出表现形式会对输入模式形成一个更大的优化链。这并不意味着企业应该停止相关的输入监督。相反,企业应该测试如何演示呈现不同的阈值或针对不同的部门选择不同的演示方式。通过灵活的视觉演示,可以让企业从数据分析中所总结出的洞察力更吸引人。
8、谨防数据泄露
预测建模过程中发生的数据泄漏的现象,是企业在不经意中设计的预测建模的管道,其包含了未来可能会用到的相关信息,而企业通常不会有所察觉。当返回重新测试模型时,企业会得到很好的效果,但在现实世界中,这些好的效果却无法重现。这种类型的错误有时会非常微妙的,但其确实会对企业决策实施结果的有效性产生重大影响。
9、在数据库以外进行建模
企业内部的大多数分析都是在SQL领域。传统的关系数据库和SQL对于存储、管理和执行简单的分析工作而言,无疑是相当棒的。预测模型通过相应的例子自动形成模型。使用的算法往往是数据和计算密集型的。但后者会使数据库太慢而不适合建模。SQL的表现也不及预测建模。如果工作可以分块,同时培训需要大量的数据的话,Hadoop就可以提供一种解决方案。Hadoop会限制使用复杂的算法,虽然企业很少会使用所有的原始数据提取模型。而利用智能采样技术,企业可以只凭借一个小的数据集,同时还不失任何预测精准度。Kaggle的数据集从未超过一千兆字节,而且大多数建模都是在内存中。
10、关于隐私的保护并非事后的想法
如果不考虑隐私影响的因素,您企业设计的预测分析项目可能会破坏您与客户及媒体的关系。人们通常会提出企业为何会奇迹般地‘知道’他们私人生活有关的东西和想法,即使企业获得这些知识的途径都是使用的公共数据。另一方面,客户希望企业通过利用数据信息能满足他们的需求,同时在不扼杀创新的前提下保证数据的安全。每家企业的情况都是独特的,需要特别注意客户如何看待隐私问题。
企业可以将预测分析作为一种特殊的调料,以便增加其数据分析的价值,使企业在竞争中保持竞争优势。