人人都需要知道关于大数据最常见的10个问题

人人都需要知道关于大数据最常见的10个问题行业资讯

2016-08-24 来源：大数据百科编辑：LinkinPark

1、云计算与大数据是什么关系? 云计算的关键词在于整合，无论你是通过现在已经很成熟的传统的虚拟机切分型技术，还是通过google后来所使用的海量节点聚合型技术，他都是通过将海

1、云计算与大数据是什么关系?

云计算的关键词在于“整合”，无论你是通过现在已经很成熟的传统的虚拟机切分型技术，还是通过google后来所使用的海量节点聚合型技术，他都是通过将海量的服务器资源通过网络进行整合，调度分配给用户，从而解决用户因为存储计算资源不足所带来的问题。

大数据正是因为数据的爆发式增长带来的一个新的课题内容，如何存储如今互联网时代所产生的海量数据，如何有效的利用分析这些数据等等。

他俩之间的关系你可以这样来理解，云计算技术就是一个容器，大数据正是存放在这个容器中的水，大数据是要依靠云计算技术来进行存储和计算的。

两者关系：

首先，云计算是提取大数据的前提。

信息社会，数据量在不断增长，技术在不断进步，大部分企业都能通过大数据获得额外利益。在海量数据的前提下，如果提取、处理和利用数据的成本超过了数据价值本身，那么有价值相当于没价值。来自公有云、私有云以及混合云之上的强大的云计算能力，对于降低数据提取过程中的成本不可或缺。

其次，云计算是过滤无用信息的“神器”。

首次收集的数据中，一般而言，90%属于无用数据，因此需要过滤出能为企业提供经济利益的可用数据。在大量无用数据中，重点需过滤出两大类，一是大量存储着的临时信息，几乎不存在投入必要;二是从公司防火墙外部接入到内部的网络数据，价值极低。云计算可以提供按需扩展的计算和存储资源，可用来过滤掉无用数据，其中公有云是处理防火墙外部网络数据的最佳选择。

再次，云计算可高效分析数据。

数据分析阶段，可引入公有云和混合云技术，此外，类似Hadoop的分布式处理软件平台可用于数据集中处理阶段。当完成数据分析后，提供分析的原始数据不需要一直保留，可以使用私有云把分析处理结果，即可用信息导入公司内部。

最后，云计算助力企业管理虚拟化。

可用信息最终用来指导决策，通过将软件即服务应用于云平台中，可将可用信息转化到企业现有系统中，帮助企业强化管理模式。

上升到我国互联网整体发展层面，虽然我国在互联网服务方面具有领先的优势，然而，越来越多的企业认识到，与云计算的结合将使大数据分析变得更简单，未来几年，如能在大数据与云计算结合领域进行深入探索，将使我们在全球市场更具竞争力，这是非常关键的问题。

2、大数据需要什么人才?

大数据需要以下六类人才：

（1）大数据系统研发工程师

这一专业人才负责大数据系统研发，包括大规模非结构化数据业务模型构建、大数据存储、数据库构设、优化数据库构架、解决数据库中心设计等，同时，还要负责数据集群的日常运作和系统的监测等，这一类人才是任何构设大数据系统的机构都必须的。

（2）大数据应用开发工程师

此类人才负责搭建大数据应用平台以及开发分析应用程序，他们必须熟悉工具或算法、编程、优化以及部署不同的MapReduce，他们研发各种基于大数据技术的应用程序及行业解决方案。其中，ETL开发者是很抢手的人才，他们所做的是从不同的源头抽取数据，转换并导入数据仓库以满足企业的需要，将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库，成为联机分析处理、数据挖掘的基础，为提取各类型的需要数据创造条件。

（3）大数据分析师

此类人才主要从事数据挖掘工作，运用算法来解决和分析问题，让数据显露出真相，同时，他们还推动数据解决方案的不断更新。随着数据集规模不断增大，企业对Hadoop及相关的廉价数据处理技术如Hive、HBase、MapReduce、Pig等的需求将持续增长，具备Hadoop框架经验的技术人员是最抢手的大数据人才，他们所从事的是热门的分析师工作。

（4）数据可视化工程师

此类人才负责在收集到的高质量数据中，利用图形化的工具及手段的应用，清楚地揭示数据中的复杂信息，帮助用户更好地进行大数据应用开发，如果能使用新型数据可视化工具如Spotifre，Qlikview和Tableau，那么，就成为很受欢迎的人才。

（5）数据安全研发人才

此类人才主要负责企业内部大型服务器、存储、数据安全管理工作，并对网络、信息安全项目进行规划、设计和实施，而对于数据安全方面的具体技术的人才就更需要了，如果数据安全技术，同时又具有较强的管理经验，能有效地保证大数据构设和应用单位的数据安全，那就是抢手的人才

（6）数据科学研究人才

数据科学研究是一个全新的工作，够将单位、企业的数据和技术转化为有用的商业价值，随着大数据时代的到来，越来越多的工作、事务直接涉及或针对数据，这就需要有数据科学方面的研究专家来进行研究，通过研究，他们能将数据分析结果解释给IT部门和业务部门管理者听，数据科学专家是联通海量数据和管理者之间的桥梁，需要有数据专业、分析师能力和管理者的知识，这也是抢手的人才。

3、大数据行业的从业者是从哪获得数据的?

大数据行业的从业者有多种途径获得数据，也就是我们常说的数据源，具体有一下几种：

（1）官方数据(政府部门或企业直接提供的数据或数据接口);

（2）半官方数据：如各类行业协会，俱乐部;

（3）各个平台的数据：如淘宝网、京东、唯品会，有些会免费开发数据，还有一部分是付费的数据软件;

（4）再然后就是从业者自己收集的数据，一般都是用一些数据采集工具或软件，工具如：爬虫软件，百度蜘蛛等;

（5）最后就是购买的数据，一般有一些专门数据采集的机构，像像艾瑞、浪潮，以及传统的调研企业。

数据的获取方式有很多种，同样，数据的使用方式也有很多种，比如说行业销售趋势，有人用销售额数据，有人用销量数据。数据就像一个任人打扮的姑娘，使用的人会选取自己想要的数据来展示，所以考量数据的真实性，一个是数据来源，还有就是数据的选择是否合理。

4、大数据分析的常用方法有哪些?

（1）Analytic Visualizations(可视化分析

不管是对数据分析专家还是普通用户，数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据，让数据自己说话，让观众听到结果。

（2）Data Mining Algorithms(数据挖掘算法)

可视化是给人看的，数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部，挖掘价值。这些算法不仅要处理大数据的量，也要处理大数据的速度。

（3）Predictive Analytic Capabilities(预测性分析能力)

数据挖掘可以让分析员更好的理解数据，而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。

（4）Semantic Engines(语义引擎)

由于非结构化数据的多样性带来了数据分析的新的挑战，需要一系列的工具去解析，提取，分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。

（5）Data Quality and Master Data Management(数据质量和数据管理)

数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。

5、央行征信和大数据征信的不同之处

（1）确实有不同之处，央行征信是传统征信方式，大数据征信是伴随互联网金融发展起来的。

（2）央行征信与大数据征信差异主要从征信数据来源、权威性、数据完整性、用途等维度区分。

（3）央行征信特点：数据主要来自银行、证券、保险、社保等体系里构成一个数据循环，权威性高，数据基本完整，主要用于资产评估、银行放贷、信用卡额度等。

（4）大数据征信特点：数据主要来自互联网各大平台，使用互联网技术抓取或接口合作获取征信数据，资质再好一点的企业可以申请接入央行征信，权威性不如央行征信，但随着互联网金融的发展会越来越重要，数据完整性各大数据征信平台不同，主要用于互联网金融，例如P2P，如果p2p拿不到央行征信数据风险会很大。

（5）展望未来：随着互联网金融的发展，大数据征信与央行征信会不断融合直至融为一体，真正的满足数据的完整性，那违法犯罪基本就真的大大减少了，信用真的就是钱!

6、如何构建银行业大数据分析平台?

一是银行与电商平台形成战略合作。银行业共享小微企业在电商平台上的经营数据和经营者的个人信息，由电商平台向银行推荐有贷款意向的优质企业，银行通过交易流水、买卖双方评价等信息，确定企业资信水平，给予授信额度。建设银行曾在这方面做过有益的尝试。此外也有银行参股电商、开展数据合作的案例。

二是银行自主搭建电商平台。银行自建电商平台，获得数据资源的独立话语权。在为客户提供增值服务的同时，获得客户的动态商业信息，为发展小微信贷奠定基础，是银行搭建电商平台的驱动力。2012年，建设银行率先上线“善融商务”，提供B2B和B2C客户操作模式，涵盖商品批发、商品零售、房屋交易等领域，为客户提供信息发布、交易撮合、社区服务、在线财务管理、在线客服等配套服务，提供的金融服务已从支付结算、托管、担保扩展到对商户和消费者线上融资服务的全过程。

三是银行建立第三方数据分析中介，专门挖掘金融数据。例如，有的银行将其与电商平台一对一的合作扩展为“三方合作”，在银行与电商之间，加入第三方公司来负责数据的对接，为银行及其子公司提供数据分析挖掘的增值服务。其核心是对客户的交易数据进行分析，准确预测客户短时间内的消费和交易需求，从而精准掌握客户的信贷需求和其他金融服务需求。

银行业有处理数据的经验和人才。数据分析和计量模型技术在传统数据领域已得到较充分运用，同时也培养出大批精通计量分析技术的人才。如在风险管理方面，我国金融监管部门在与国际接轨过程中，引入巴塞尔新资本协议等国际准则，为银行业提供了一套风险管理工具体系。银行在此框架下，利用历史数据测度信用、市场、操作、流动性等各类风险，内部评级相关技术工具已发挥出效果，广泛应用于贷款评估、客户准入退出、授信审批、产品定价、风险分类、经济资本管理、绩效考核等重要领域。

7、为什么需要大数据技术?

大数据到底是什么?我们为什么需要大数据技术?

Mike Jude：从本质上来说，大数据就是曾经被称为数据仓库的逻辑延伸。顾名思义，大数据就是一个大型的数据仓库，一般有一个能支持业务决策的业务重点。但是，它和传统数据库不同的是，大数据不用构建。

在典型的数据库中，数据会被组织成标准的字段，并使用特定的密钥索引。如果你熟悉Microsoft Access应用程序，那么你就能完全理解这个概念。比如，一个顾客记录可以由姓氏、名字、地址和其它信息组成有通用标签的字段。每个顾客记录样式都是相同的，这样可以通过使用搜索关键词来检索，比如搜索姓氏。

现在，如果你想链接到这些客户记录需要怎么做?链接到客户的图片或者视频呢?如果是链接到客户的所有记录呢?

将这么多不同的数据源互相映射，一般的数据库还做不到。另外，需要链接的数据量是非常巨大的。这就产生了“大数据”的概念。大数据使用特殊的数据结构来组织和访问巨大数量的数据，可能达到多个艾字节的范围。一般情况下，这需要跨多个服务器和离散数据存储进行并行计算，而小企业往往难以维持这种大数据的存储库。但是，大数据正逐渐成为云服务提供商能提供的一种服务，从而把大数据应用推向更多的公司。

但是，还有一个“大”问题，就是我们为什么需要大数据?答案就是相关性的价值。如果你能看到乍一看似乎没什么关系的数据设置之间的关系，你会获取很多重要信息。比如你想知道你的公司是不是容易被黑客利用。那么你需要跨多个应用程序和数据中心检查无数条交易。这时如果没有大数据技术和相关的分析技术，这几乎是不可能完成的。

最终，随着数据量的增长、业务的可用性和重要性的增加，大数据的定义可能会用来描述大多数数据库应用。IT专业人士应该掌握大数据相关概念和术语，以免遇到困难。

8、企业大数据如何起步?

大数据应该是从小数据逐渐演变上去的，是一个正常的生态，而不是瞬间变化的。

大数据这个概念跟自媒体的概念类似，需要企业自己去建设，而不是从一开始就想着依靠别人。很多企业在谈自媒体的时候，像谈别人的事情一样。比如一谈自媒体，就觉得那是第三方提供的一个平台，大家在那儿发发牢骚。自媒体是自己的媒体，企业自己也要参与进去。同样大数据不是别人的大数据，我们假设有一个第三方提供了大量的数据，有很多很多信息，CI、BI之类的很多模块化东西供我们来用。如果这样的话，你有，竞争对手也有，你能得到的东西，竞争对手也能得到的情况下，就不能称之为核心竞争力。

大数据作为企业来说要变成自身的一个竞争力，企业必须得建立自己的企业级的数据。

要做大数据，首先要了解自己的企业，或者自己所在的行业的核心是什么。我们现在经常发现，有很多企业在竞争的过程中，最终不是被现在的竞争对手打败，而是被很多不是你的竞争对手所打败。很简单的一个例子，大家都认为亚马逊是做电商的，但这是错的，它现在最主要的收入来自于云(云服务)。也就是说企业需要找到自己的核心数据(价值)，这个是最关键的。只有在这个基础上，建立自己的大数据才有可能，才能做一些延伸。其次，要找到内部的一些外围相关数据，去慢慢地成长它。有点像滚雪球，第一层是核心，第二层是外围相关的数据。第三层是什么?就是外部机构的一些结构化数据。第四层是社会化的，以及各种现在所谓的非结构化的数据。这几层要一层一层地找到它，而且要找到与自己相关的有价值的东西。这样你的大数据才能建立起来。

第一步，找到核心数据。核心数据现在对很多企业来说实际上就是CRM，自己的用户系统，这是最重要的。

第三步，常规渠道的数据。举例来说一个销售快销品的企业，能不能够得到沃尔玛的数据，家乐福的数据?很多国外大数据的案例，说消费者买啤酒的时候也会购买剃须刀之类，或者一个母婴产品的消费者她今天在买这个产品，预示着她后面必然会买另一个产品。这就有一个前期的挖掘。这些价值怎么来的，这就需要企业去找常规渠道里面的数据，跟自己的CRM结合起来，才能为自己下一步做市场营销、做推广、产品创新等建立基础。

第四步，外部的社会化的或者非结构化的数据，即现在所谓的社会化媒体数据。这方面信息的主要特征是非结构化，而且非常庞大。这对企业来说最大的价值是什么?当你的用户在社会化媒体上发言的时候，你有没有跟他建立联系?这里有个概念叫做DC(digital connection)。所谓的互联网实际就是一种DC，但是通常互联网上的那种DC是在娱乐层面。用到商业里面的话，就是企业必须得跟消费者建立这种DC关系，它的价值才能发挥出来。否则，你的数据以及很多的CRM数据都是死的。就像国外CRM之父Paul Greenberg写的四本CRM相关书籍，前面三本都是在讲数据库、系统之类的。第四本书的时候，就没有再讲那些东西，讲什么?讲互动，讲DC，讲怎么跟消费者建立关系。

有了这个数据库去进行数据挖掘，或者在建立数据的过程中，企业需要从什么方向去探索，也不是漫无目的的。首先应该跟着你的业务，业务现在有哪些问题，或者说这个行业里面主要的竞争点在哪里，这是很关键的。有了这个业务关系以后，再形成假设，也就是说未来的竞争点可能在哪里，大到未来的战略竞争，小到哪些方面。然后下一步要怎么做，这些形成一个假设，其次做一些小样本的测试。

很多企业一看大数据就很恐怖，说我也买不起那些大数据，也雇不起那么专业的团队，怎么办?

自己做一些小样本的测试，甚至通过电子表格Excel都可以做数据挖掘。不一定非要那么庞大、那么贵的数据。然后再做大样本的验证，验证出来的结果就可以应用到现实中去。在大数据尤其是互联网时代还有一个最重要的点，就是失效预警。即你发现一个规律，在现实中应用了，但是你一定要设立一些预警指标。就是当指标达到什么程度的时候，之前发现的规律失效，那你就必须发现新的、相关的，否则也会造成一种浪费。笔者看到一篇文章，其中有一个重要结论。大家都在说大数据的价值很有用的时候，很多企业说我积累了多少TB，多少PB，但是你基于老的数据得出的很多结论实际是在浪费你的资源。你挖掘出来很多数据、很多规律，如果错了，明天按这个去做，就是浪费。因此需要有一个失效预警。在这样的过程中，最终你需要对应建立起内部团队，他们对数据的敏感度也才能培养起来。这时候你再去买大数据服务的时候才是有价值的。

所有这些工作作为企业来说是需要内部去做的，最终才能开花结果，有一些收获。企业大数据起步，要从小数据开始。

9、大数据处理中数据质量监控从哪几个方面进行?

大数据处理中数据质量监控，从以下几个方面进行：

数据容量(Volume)：数据的大小决定所考虑的数据的价值的和潜在的信息;

数据种类(Variety)：数据类型的多样性;

数据速度(Velocity)：指获得数据的速度;

数据可变性(Variability)：妨碍了处理和有效地管理数据的过程;

数据真实性(Veracity)：数据的质量;

数据复杂性(Complexity)：数据量巨大，来源多渠道。

“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

10、大数据是否存在泡沫呢?

这是必然的，任何一个影响极大的“概念”被炒作起来后，都会在一段时间内形成强大的原动力，使各行各业的人们为之付出或真或假、或实或虚的努力，群众的力量是庞大的，因此这一新事物将有力的推动一下历史的进程，当又一个新的技术或理论出来后，前一个被推向高潮的概念就成了泡沫了。