现在已经可以通过使用各种公共数据资源以及日益复杂的数据挖掘技术来拼凑出你复杂的个人生活图景。但是,这幅图景的准确性又如何?
在上周于拉斯维加斯召开的计算机安全会议黑帽(Black Hat)上,来自卡内基-梅隆大学亨氏学院(Heinz College)的信息技术和公共政策系的亚历山德罗·艾奎斯蒂(Alessandro Acquisti)副教授展示如何用一个人的照片,通过面部识别技术找到Facebook和其它网站上匹配的个人帐号,来找出他或她出生日期、社保号码以及其它信息。艾奎斯蒂承认这项工作存在隐私方面的问题,但他警告说,最大的问题可能是这项技术及其他数据挖掘技术的不准确性。
艾奎斯蒂说,他目前的工作是在试图“捕捉我们正在走进的未来”。在这个未来里,他看到网上的信息被用来在许多方面对一个人进行预先判断,这个人有可能是一个潜在的约会对象、借款人、雇员和租客等。他说,互联网有可能成为“一个每个人都知道你名字的地方”, 一个世界性的小镇,一个不会遗忘任何事的地方。
除了陌生人将会比以往任何时候都更了解你这一明显的顾虑之外,艾奎斯蒂更担心技术犯错时会发生什么。“我们往往会对不足的数据作出过强的推断”,艾奎斯蒂说,“这是无法避免的,因为这是我们的本性。”
许多公司已经开始利用社交媒介来衡量并追踪声誉。例如加利福尼亚州圣巴巴拉的社交智力公司(Social Intelligence)会对未来员工进行社交媒介的背景检查,并承诺将会揭露例如种族主义言论或色情照片等负面信息,或如在某一特定领域的社交媒介影响力等正面信息。其它公司,如Klout会追踪用户的社会影响力的水平,以使广告客户能够向高分得主提供特殊奖励。
但艾奎斯蒂的研究显示出高估社交数据相关性的问题。他的研究小组拍摄了志愿者的照片,然后使用的现成的面部识别工具PittPatt(最近被谷歌收购)来寻找每个志愿者的Facebook个人资料,这些资料经常包含该人的真实姓名和更多的个人信息。有时研究团队可以利用这些信息来找出一个人的社保号码的一部分。他们还创建了一个原型智能手机的应用程序,该程序能在用手机给某人拍照后调出他的个人信息。
在他们的实验中,该小组能够将三分之一的被试与正确的个人资料联系起来。在此基础上,他们作出其他预测。75%的时间里,他们能正确地预测志愿者的兴趣爱好。如果允许试两次,16%的时间里他们能正确的预测出他们社保号码的前五位。(允许尝试多次时准确率会升高)。
但是这意味着,有三分之二的时间他们无法正确的识别志愿者的身份。在正确识别里里,又无法正确预测25%的人的兴趣和超过80%的人的社保号码。
艾奎斯蒂预计,面部识别技术将会在未来几年内持续进步。他想问的是,一旦当这些技术被认为足够好且在大部分时间里值得信任的时候会发生什么。这对那些被错误识别的人将是噩梦。“没有什么是我们个人可以控制的,”他说。
其他的研究人员正在探索社交数据挖掘的可靠性。在上周末在拉斯维加斯的召开的黑客会议Defcon上,一个名为在线隐私基金会(Online Privacy Foundation )的小组展示了他们“五大实验“的研究成果,这项研究旨在将志愿者的个性特征与Facebook上的特质进行匹配。在对志愿者进行性格测试后,他们对帐号资料进行挖掘以识别关键特性。
在线隐私基金会的研究人员发现,个性较为开明的人与Facebook资料含更多信息的人往往呈正相关,他们的资料通常包含更多的兴趣爱好、更长个人简历和更多对钱、宗教、死亡以及消极情绪的讨论。他们还发现“和蔼的人”,即“富有同情心、有合作精神、能够原谅且务实”的人,与用长句书写、讨论积极情绪的Facebook状态的、有较多的评论、朋友和照片的帐号正相关。不过在这两种情况中,相关性都相对较弱。
研究人员的结论是,Facebook的个人资料很难算是一个可靠的信息来源。“关键要记住,这是一场赌博”,该基金会的创始人之一克里斯·萨姆纳(Chris Sumner)说,“道理是,是的,那儿有一个链接,但不要单单靠这个来作出关键决策。”
艾奎斯蒂和萨姆纳说,可能需要政府的新政策来保护个人免遭过度的数据挖掘以及防止他们的信息被滥用。这可能涉及设定组织需要遵守的精度标准。艾奎斯蒂说:“我们这个时代的具有决定性意义的问题是,我们作为一个社会怎样处理大量数据?”