海量数据管理难题:隐私数据如何处理存储与灾备

2011-05-13    来源:watchstor.com    
若是隐私不复存在(就像一些技术总管所认为的那样,对他们来说最好我们都不要在乎隐私),那么最近研究者们所发现的,iPhone就像世界上几乎每一款手机那样在追踪你的方位并用其

  若是隐私不复存在(就像一些技术总管所认为的那样,对他们来说最好我们都不要在乎隐私),那么最近研究者们所发现的,iPhone——就像世界上几乎每一款手机那样——在追踪你的方位并用其来构建地图和交通信息,就不会引起那么大的争议。检测有多少人在以多快的速度行驶,这通常就是地图上那些方便的红红绿绿的交通状况示意图的数据源(因为与去除来自手机的大量方位数据上的个人信息相比,把路挖开再把传感器放进去要贵得多)。

  Dash——现在为RIM所有——曾经夸口到,基于少数几个使用他们仪器的司机,不需等待一个月,谷歌在硅谷的下匝道在开放当天就被放到他们的地图上了。更快捷的传递更高质量的信息;这是我们都想要的,那么问题在哪里呢?

  而对iPhone方位跟踪来说,问题是第一,普通用户没有详细探究iTunes漫长的最终用户许可协议来认识到苹果请求了这些信息(微软的身份专家金·卡梅伦去年在他的个人博客上对iTunes最终用户许可协议的不可穿透性进行了极其严厉的评论);第二,把手机上的方位信息保存在在一个未被充分保护的文件里就像是在邀请那些(合法及非法的)窥探者来直接从手机上获取这些信息。

  那与其说是数据挖掘,倒不如说是数据剥削……这样Android和Windows手机同样收集并匿名化方位信息也不为怪了(而微软的隐私策略结果是最强的,让批评者们吃了一惊——不管这是一种偷猎者变成猎场看守人的综合症呢,还是一种真诚的认为隐私很重要的信念,或是一种愤世嫉俗的认为隐私很重要而这是一种好的竞争方式的信念,都不大重要了)。但是随着方位信息作为一种个人,私密的东西得到了很多关注,外面还有更多需要业界讨论的其他数据。

  美国高院现在正在审理的一件案子就是其中之一,这件案子是关于数据挖掘公司能否将他们收集的关于含药物品牌(而不是更便宜的通用药物名)的处方的(匿名)信息卖给制药公司。高院正在检视这件案子对商业自由言论的影响,以及佛蒙特州是否正要试图停止对药物的市场营销,但其决定将为更广泛的关于能否将海量数据转换成有用信息的问题开一个先例,而这是几周前Data2.0会议议程中的关键部分。

  多亏了图形计算(GPU Computing),网格计算(Grid)和商业化的高性能计算,我们能在几分钟或者几小时内完成以前要几个月甚至几年的计算。在医药及其他领域,这代表着巨大的利益。几年前一些专家认为我们已经达到了一个门槛,不会再出现重要的新的大型领域了;大多在那之后出现的大型领域都是通过使用更快的计算技术来重新检查几年前收集的调查信息。最近在人工智能和计算机视觉方面的基础研究的复兴就是因为现在一块或者几块便宜的显卡可以提供媲美昂贵大型Unix工作站的计算能力;NvidiA现在的舆论分裂成了核心玩家和核心研究者两派。

  而谷歌,微软以及-程度较小的-苹果都在创建基于海量数据驱使的机器学习的服务。这些数据包括从互联网本身到你的智能手机上的定位历史,你的搜索历史,长达数小时的录音或是一页页的笔迹,或是数以千计的扫描的书,又或是最近被昵称为物联网的无数传感器。Kinect是如何识别你的手,你的臀部,以及你对着游戏大声咆哮的内容?Windows手机上精确得让人惊异的拼写检查和词组预测?谷歌对网页的翻译?谷歌Wave上瞬时的拼写检查?谷歌地图上的位置信息(以及兰开夏郡离我长大的地方几英里外的那个捏造的小镇)?都是机器学习。

  把大量数据输入一个系统来揭露数据中的模式和关联这一技术并不新颖(其中的数学可以追溯到1840年的乔治·布尔);但快速作业的能力,可输入系统的大量数据以及这些数据的源,这些都是前所未有的。

  当十年前微软在为平板电脑开发手写算法的时候,他们的手写样品来自几千名知道这些样品用途的志愿者。当你使用Gmail的时候你大概也知道你的电子邮件正在被发掘,并以你的语言和想法指导着谷歌广告,这样它知道应该向你展示什么样的广告。而当你载着TomTom全球定位系统到处行驶的时候,你大概不知道累积的交通模式和速度被作为一组数据在兜售,荷兰警方购买了这些数据并用它们在那些既危险又常年有人超速驾驶的道路上设置了测速的摄像头。这与Bing使用你访问网址的点击流和你的点击,结果以复制一小部分(错误并故意创建的)谷歌结果而告终的问题一样;究竟谁对那些来自数据集合的信息有权利呢?

  而且当这些数据实际上并没有那么匿名怎么办呢?在Data2.0会议上,一次又一次的,那些基于数据积累和贩卖信息的公司谈到他们在做什么-并发现他们其实在谈论隐私。访问一个使用Triggit广告系统的网站,它会获取你的IP地址并查看它对你知道什么-包括Quova IP 地域信息服务认为你在哪里-然后决定你会对谁是有价值的用户。你是Amazon会想要展示广告的那种人吗?“在大约120毫秒内,”Triggit总裁扎克·克利乌斯说,“在后台有一个实时的市场他们通过竞标将这个广告指派给你。”

  BrightTag的马丁·韦斯利-BrightTag处理那些帮助广告商从一个网站跟踪你到另一个网站并让他们选择收集哪些数据以及哪些市场伙伴可以看到这些数据的跟踪标签-发布了一份忠告,并提到了1999年(在谷歌收购Doubleclick之前)Doubleclick广告服务收购Abacus时,隐私拥护者关于所有那些个人数据被用于广告的担忧。“确保你的隐私策略符合你对数据所做的动作。这个行业的每一个人都需要小心行事否则行业发展将会受到阻碍。”

  这是我的数据么,有人问道?那我如何得到我的回报呢?那很难,Quova的米腾·桑帕特说,而且你已经得到回报了。“答案是,是的,如果消费者能因为自愿将数据提供给系统而得到补偿当然很好,只是这是一个现在还难以解决的问题。现在关于什么是自愿还有很多疑惑。希望是有人能创建一个浏览器插件来理解我共享的信息。但是你所得到的已经是免费的内容-那实际上就是你所得到的回报。”

  API聚合平台Apigee的山姆·拉姆吉说那可能有点让人毛骨悚然(拉里·佩奇几个月前说,让人毛骨悚然就是谷歌试图接近但不跨越的一条线)。“挑战在于个性化和隐私之间的分界线。个性化的网络体验是极好的,个性化的应用程序体验甚至更好,但我对发生在这些数据上的事有些担心。我还没有在Facebook上找到一种可以让那些应用程序获取我信息但不告诉他们我是谁的方法。那很恐怖;我不想活在这样的一个世界。我们怎样才可以在用我们的数据丰富数据库的同时,防止这些恐怖的因素,或者防止在试图创建个性化体验时对隐私的侵害?”

  云数据服务商Fluidinfo的特里·琼斯希望用户能参与进来;“我们就像普通人一样在使用这些应用程序而它们在以我们的名义储存数据。它们不应该对我们的数据拥有最终话语权,我们应该可以对其进行增加或编辑……”有趣的是,内阁最近为关于优质服务的数据挖掘启动了名为更好的选择,更好的交易的策略(想想信息可以帮助你更换电力提供商等[译注:这里有点不是特别明白,希望达人指教]),并承诺提供一项名为‘我的数据’的新服务,“这项新服务将使消费者得以访问,控制并使用目前由商家持有的关于消费者自己的信息”。还有一个即将启动的社交网络Connect.Me,它以隐私为重,并承诺让你选择谁能看到关于你的哪些信息(并让你为切身认识的人担保)。问题是当恶意案例的新闻渐渐淡去之后,人们是否还对保护自己的数据足够在乎。

  Amazon首席科学家安德烈亚斯·魏根思认为不会的——在他的演示开始,他展示了他的Stasi*记录。“人们对隐私的兴趣其实是子虚乌有的。随便到处看看,可能只有几个政客对隐私感兴趣。只要你给人们分享的机会,他们就会分享。”这样的态度反映了让你分享是符合Amazon的利益的,但却没有考虑到所有那些,关于人们是否知道他们在分享或是他们在与谁分享的问题。

  就在整个智能手机定位问题暴露的几个礼拜之前,定位程序设计服务SimpleGeo的CEO杰·阿德尔森在Data2.0会议上的言论现在听起来稍微有点幼稚。“通常大多可以访问[应用程序中定位许可]的用户都知道正在被采集的是什么东西。我不确定我们真的在滥用那些数据。”

  而电子前沿基金会的克里斯·帕尔默坦率的说:“说到唯一的ID,只要我知道你的生日和邮编,我就能知道你是谁——结束。”

  匿名化数据,增值:界限不是很明确所以帕尔默建议了一些有用的准则。“挑战是确保数据挖掘不要变成数据剥削——这样我们不会为了短期利益来烧毁一片森林,而放弃长期利益。在当今的大多商业模式下,问题是价值主张很模糊……每个人都在撇去那样的模糊性;将消费者的利益最小化并将自己的利益最大化。没有信任,没有值得信任的行为,那就是数据剥削。如果你不能用一句话描述你赖以为生的是什么,它很有可能是非法的。如果你不能以消费者能理解的方式告诉他们你在做什么 - 也许你应该重新考虑你做的事情。”

1
3