ITPub博客

首页 > Linux操作系统 > Linux操作系统 > 隐私失控的互联网

隐私失控的互联网

原创 Linux操作系统 作者:turingbooks 时间:2013-09-02 14:07:15 0 删除 编辑
互联网和Web已经彻底改变了人们收集、存储和展现信息的方式。搜索引擎和数据库对每个人都具有不可估量的价值。很难想象之前没有互联网的时代我们是怎么过来的。凡事都有两面,现在这样数据在网上随意传播也有问题,尤其是那些可能会过多暴露我们的信息如果传出去,会令人相当不自在。

有些信息明显就是公开的,还有些信息收集起来就是为了供人搜索和索引的。如果我写了一个网页,希望大家都能看到,假设就是这本书的页面吧,那么我肯定愿意人们通过搜索引擎可以轻易发现它。

那怎么看待公共档案呢?法律上,某些信息属于“公共档案”(public records),任何人通过申请都可以查阅。在美国,公共档案包括可以公开的庭审记录、抵押文件、房价、地方房产税、出生和死亡记录、结婚证、政治捐助,等等。(查阅出生记录通常是为了知道“妈妈婚前的姓氏”,以便辅助确认一个人的身份。)很早以前,要知道这些信息必须不辞劳苦,亲自前往当地政府驻地查阅。因此,虽然这些档案名义上是“公开”的,但不付出点代价也不可能看到。谁要想获得这些数据,就得亲自跑一趟,或许需要出示身份证件,要想复制一份可能还得花点钱。

今天,如果这些数据上了网,我坐在自己家里就可以轻轻松松查阅这些公共档案。我甚至可以开个公司,收集汇总这些信息,然后与其他信息整合起来。比如很多人都知道的zillow.com,就整合了地图、房地产广告、有关财产和交易的公开数据,通过地图来直观地显示房价。 如果你想买房或者想卖房,它对你了解市场很有用;否则,你可能会觉得它暴露了人家太多的信息。通过查询联邦选举委员会(FEC,Federal Election Commission)的选举捐款数据库(fec.gov),可以知道哪位候选人得到哪些朋友和要人的捐赠,或许可以查到他们的家庭住址等信息。在FEC提供信息的基础上,fundrace.huffingtonpost.com在一张地图上给我们标出了这些人的名字、地址、职业。这种做法让人们对如何平衡公众知情权和个人隐私权有了新的认识。

什么样的信息才应该让人如此轻而易举地得到?这个问题很难回答。政治捐款应该公开,但门牌号码可能就应该稍加隐藏。包含美国社会保险号等个人身份识别信息的公共档案似乎不该放在网上,因为这就给盗用别人身份打开了方便之门。可当前的法律无法完全阻止这种信息的公布,而这种信息一旦上网,就覆水难收了。

随着在多个各不相关的来源都能查到同一类信息,这个问题就变得愈发严重了。比如,很多提供Web服务的公司都有自己大量的客户信息。搜索引擎会记录所有查询,也包括查询人的许多信息。最低限度也会记录查询人的IP地址,还有用户之前访问过网站时保存在计算机上的cookie。

2006年8月,AOL出于好意而公开了一大批查询日志样本,供人研究。这些日志涉及三个多月以来65万用户的2000万查询,已经做了匿名处理,因此从理论上讲,不存在任何可以用于辨识个人身份的信息。尽管是善意之举,但人们也很快就发现这些日志在实践中不会像AOL想象的那样做到完全匿名。每个用户在查询时都会被赋予一个随机但唯一的标识符,有了这个标识符,就很容易知道同一个人都查询过什么内容。进而,确定一些人的身份也就成为可能。因为不少人都搜索过自己名字、地址、社会保险号以及其他个人信息,通过搜索相关性分析暴露出来的信息比AOL认为的多,也肯定比原始用户自己想到的多得多。AOL很快从自己网站上删除了这些日志,当然为时已晚。这些数据早已被传播得满世界都是了,而且至今仍可以找到,甚至还附有帮你分析它们的一些工具。

查询日志对经营企业和改进服务有价值,但很明显其中可能包含敏感的个人信息。谷歌、雅虎、微软这些提供搜索服务的公司会把查询日志保留多长时间?这里有个矛盾:考虑个人隐私则保留的时间应该短,而考虑执法目的则保留的时间应该长。为了达到一定的匿名程度,这些公司内部该对数据进行怎样的处理?虽然他们全都声称会删除每条查询对应IP的部分信息(一般是最右边那一字节),但仅仅如此似乎还不够,还达不到反识别用户的目的。政府机关查询这些信息的权限有多大?打一次官司会查询多少信息?所有这些问题都没有明确的答案。AOL公布的查询日志中有些是很吓人的,比如有人查询怎么杀死自己的配偶。因此,有限度地向司法机关开放这些数据是合理的,但问题是这个限度应该放多大,很难说清楚。

AOL事件揭示了一个广泛存在的问题,即真正做到数据匿名化是非常困难的。删除身份识别信息可以降低识别度,单就特定的数据而言,确实无法定位到用户,因此可以说它是无害的。但现实当中信息的来源是多方面的,把多个来源的信息组合起来则很可能挖掘出更多身份特征。而且某些来源的信息甚至连提供者自己都不知道,这些信息将来也未必还能找得到。举个例子,假设搜索引擎会删除每条查询对应IP的最右边一个字节,但根据剩下的三个字节仍然可知它来自普林斯顿大学计算机科学系,如果再结合普林斯顿日志中我什么时候使用过该IP上网的记录,那就可以把具体的查询跟我挂上钩了。

有关这种再识别(re-identify)问题,下面可以给大家讲一个真实的案例。1997年,当时在MIT读博士的拉坦娅·斯威尼(Latanya Sweeney)分析了马萨诸塞州135 000名雇员的体检记录,这些记录都做了反识别处理。数据来源是该州的保险委员会,可用于研究目的,甚至被卖给了私人公司。每条体检记录中除了大量其他信息外,都包括生日、性别和邮政编码。斯威尼发现有6个人的生日都是1945年7月31日,其中3个男性,而只有1人住在坎布里奇。把这些信息和公开的选民登记名单一对照,她便知道了这个人就是时任州长威廉·韦尔德(William Weld)。
匿名处理数据与混淆保证安全(前一章刚介绍过)多少有些类似之处,这两者都是基于没有足够信息无法解密数据的考虑。问题是,这两种情况下敌人掌握的信息,很可能比我们想象的多。而且就算眼下他们不知道,将来也有可能知道。

不久前,我在网上看到一篇文章,大概是这么写的:“有一次面试,他们问了一些我简历上没写的问题。原来他们看了我的Facebook主页,这太让人意外了。Facebook上可都是我个人隐私啊,跟他们有什么关系!”这个人很傻很天真,但我想很多Facebook用户在这种情况下可能都会有一种被冒犯的感觉,尽管他们清楚地知道公司人力资源部和大学招生办会例行通过搜索引擎、社交网站及其他类似工具来了解申请人的更多信息。在美国,面试时问一个人的民族、宗教信仰、性取向等很多关乎个人的问题都是非法的,但这些问题通过社交网站和搜索引擎都可以不费吹灰之力就找到答案。

最重要的是要知道,跟踪我们浏览的网站只是收集我们信息的诸多方式中的一种。毋庸置疑,随着社交网站的流行,为了娱乐和与其他人联系,我们自愿放弃了很多个人隐私。

社交网站存在隐私问题是毫无疑义的,因为它们会收集注册用户的大量信息,而且是通过把这些信息卖给广告客户来赚钱。尽管出现的时间不长,但它们的用户规模增长迅猛。Facebook成立于2004年,现在据说已经有了7.5亿用户,相当于全世界人口的十分之一还多。如此之快的增长速度,不可能有太多时间考虑隐私政策,也不可能从容不迫地开发出稳定可靠的计算机程序。于是,每个社交网站都面临着因功能不完善而泄露用户隐私、用户不清楚该如何选择自己的隐私设置(变得太快)、软件出错,以及由于系统固有问题而暴露数据等问题。

作为最大也最成功的社交网站,Facebook的问题也最明显。Facebook给第三方提供了API,以方便编写Facebook用户可以使用的应用。但这些API有时候会违背公司隐私政策透露一些隐私信息。当然,并非只有Facebook一家如此。做地理定位服务的Foursquare会在手机上显示用户的位置,能够为找朋友和基于位置的游戏提供方便。在知道潜在用户位置的情况下,定向广告的效果特别好。如果你走到一家餐馆的门口,而手机上恰好是关于这家餐馆的报道,那你很可能就会推门进去体验一下。虽然让朋友知道你在哪儿没什么问题,但把自己的位置昭告天下则非明智之举。比如,有人做了一个示范性的网站叫“来抢劫我吧”(Please Rob Me),该网站根据Foursquare用户在Twitter上发表的微博可以推断出他们什么时候不在家,这就为入室行窃提供了机会。

“位置隐私”——保证自己位置信息保密的权利——在我们日常使用的很多系统中并没有得到保障,比如信用卡支付系统、高速公路和公交车刷卡收费系统,当然还有手机网络。要想让人对你都去过哪儿一点都不知情越来越困难。手机应用经常会要求访问你在手机上存储的一切信息,包括通话记录、本地存储的信息、当前位置,等等。在我看来,这些应用想知道的已经超出了它们应该知道的。

社交网站和其他一些站点甚至会泄漏非用户的个人信息。举个例子,假如一位好心的朋友发给我一份电子请柬(e-vite),请我去参加某个聚会。就算我不答复这个邀请,也没有允许别人使用我的电子邮件地址,运营该邀请服务的公司就已经得到了我准确的电子邮件地址。如果一位朋友从他的Gmail或雅虎账号给我发了封邮件,那么我的邮件地址就在没得到我许可的情况下被别人知道了。如果一位朋友在一张照片中给我打上标签,然后将它发布到Facebook或Flickr(或两个地方都发),那我的隐私就在没有我同意的情况下暴露了。Facebook有图像识别功能,因而那位朋友在给我加标签时会更方便,而且这个操作默认无需经过我这个被标签人同意。所以说,社交网站很容易根据自己的用户构建一个交往群体的“社交图谱”,其中包括被这些用户牵连进来但并未同意甚至毫不知情的人。在以上几种情形下,任何人都束手无策,而且在自己的信息公开后也没有办法删除它们。

情报机关早就知道通过流量分析来了解大量内幕消息,只要知道谁跟谁有联系即可,都不用知道当事人说了什么。同样,通过人们在社交网站或明或暗的联系也可以掌握很多“情报”。比如,2009年两名MIT学生声称可以根据人们在Facebook上朋友的性取向推断出这些人的性取向。无论能否准确推断出某个人的性取向,但至少这种推断是可行的。可以肯定的是,美国政府早已着手挖掘异议人士在Facebook网页上的信息,借以了解还有谁跟他们“同流合污”。


文章摘自《世界是数字的》

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/14730899/viewspace-772037/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2008-07-02

  • 博文量
    52
  • 访问量
    93669