如何保护在Hadoop中的大数据绿色数据中心

2012-11-15    来源:机房360    
大数据如果丢失可能成为毒性数据 在许多情况下,企业会因Forrester研究公司称之为毒性数据而倒闭。例如,假设一家无线网络公司负责收集记录其服务器的机器数据,他们在线的时间有
        大数据如果丢失可能成为毒性数据

  在许多情况下,企业会因Forrester研究公司称之为“毒性数据”而倒闭。例如,假设一家无线网络公司负责收集记录其服务器的机器数据,他们在线的时间有多久、他们使用了多少数据、这些数据是否可以被用来为用户提供相关的洞察分析。

  这家无线网络公司同时还拥有大量的用户数据,包括:信用卡号码、社会安全号码、用户的购买习惯和模式 数据信息,以及其他用户自愿分享的经验信息。能够充分利用这些信息,并从这些关联的数据举一反三的得出的相关的有价值的推论是相当好的,但这些数据也有可能是毒性数据,因为如果这些相关的数据信息,被泄露到企业之外,落入他人之手,这样对于企业以及用户个人双方都可以说是毁灭性的。

  在利用大数据时,千万别忘了遵守相关的规则,并加以控制

  确保大数据安全的九大贴士

  1、在您开始您的大数据项目之前,先要考虑到安全问题。被抢劫之后再锁门,已经没有任何意义了。同理,您不应该等到出现数据违约事件之后才开始时想到要保护您的数据。您的IT安全团队和其他参与大数据项目的团队应该在安装和将数据存储到您的Hadoop集群之前,进行一次非常严肃的数据安全性探讨。

  2、考虑存储什么样的数据。如果您打算使用Hadoop来存储和运行分析数据而不受管制,您可能会需要遵守特定的安全要求。即使您所存储的数据不属于监管范围,但为了评估您的风险包括潜在的收入损失,例如一旦数据丢失,其中可能包含个人可识别信息(PII)。

  3、集中数据。现在,您的数据可能存储在不同的孤岛和数据集。将这些数据集中起来保证安全性,确保在这些孤岛实施一致的策略和访问控制。

  4、对活跃和非活跃数据都进行加密。在文件层进行的透明数据加密。SSL加密技术可以在大数据在节点和应用程序之间移动时提供保护。文件加密地址双重攻击方法绕过正常的应用程序的安全控制方法。安全研究和咨询公司Securosis公司的首席技术官和分析师Adrian Lane表示。“在加密保护的情况下,可以防止恶意用户或管理员获得的数据节点直接检查文件,也使失窃的文件或磁盘映像不可读。其对于Hadoop和呼唤应用和规模的集群是透明的。这是解决数据安全的威胁一个成本效益的方式。”

  5、将您的密钥和加密的数据分开。将加密密钥与加密数据存储在同一服务器上,就相当于锁住了门,但却把钥匙留在这锁上。密钥管理系统可以让您非常安全的存储您的加密密钥,并将其与您要保护的数据分开。

  6、使用Kerberos网络认证协议。您需要的是能管理可以访问存储在Hadoop中数据的人员和流程。“这是一个保持流氓节点和应用程序群集关闭的有效的方法。” Lane说。它可以帮助保护网络访问控制台,使行政职能难以妥协。我们知道Kerberos是一种双向设置,并(重新)验证新的节点和应用的工作。但是,如果没有建立双向信任,太容易糊弄Hadoop集群接受恶意节点,然后让恶意应用程序添加、修改或提取数据。Kerberos是最有效的安全控制之一,将其部署到Hadoop的基础设施,使用它。

  7、使用安全的自动化。您正在处理多节点的环境,因此部署的一致性很难保证。自动化工具可以帮助您保持顶部的修补,应用程序配置,更新Hadoop堆栈,收集可信的机器图片,证书和平台的差异。“建设脚本需要一定的时间,但可以为自己减少管理时间,并且还确保每个节点与基线的安全。”

  8、添加记录到群集。“大数据收集和管理日志数据是天作之合。”Lane说。许多网络公司的大数据都是从具体管理日志文件开始。为什么不添加记录到您的现有集群呢?其可以让您在但某一部分运行失败或者被黑客入侵时进行排查。没有一个可以跟踪排查的线索会很盲目。记录人员的要求和其他群集的活动很容易做,只是增加了一小部分存储和处理需求,但这些数据当您需要它时是不可缺少的。

  9、实现节点之间以及节点和应用程序之间的安全通信。要做到这一点,您需要一个SSL / TLS新协议,保护所有网络通信,而不是仅仅一个子集。一些像Cloudera这样的Hadoop的供应商已经做到这一点。如果您的设置没有这个功能,您需要将服务集成到您的应用程序堆栈

1
3