本节书摘来自华章出版社《位置大数据隐私管理》一 书中的第1章,第1.3节,作者潘晓、霍 峥、孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.3 LBS中的个人隐私与挑战
1.3.1 个人隐私
隐私是指个人或机构等实体不愿意被外界获知的私密信息。在具体应用中,隐私即数据所有者不愿意被披露的敏感信息,包括敏感数据以及数据所表征的特性,如病人的患病记录、财务信息等。信息隐私是由个人、组织或机构定义的何时、何地、用何种方式与他人共享信息,以及共享信息的内容。个人隐私即不愿意被披露的个人敏感信息,如个人的收入水平、健康状况、兴趣爱好等。由于人们对隐私的限定标准不同,对隐私的定义也有所差异。一般来说,任何可以确认特定某个人的,但个人又不愿意披露的信息都可以称为个人隐私。
很多调查研究显示,消费者非常关注个人隐私保护问题。欧洲委员会通过的《隐私与电子通信法》中对于电子通信处理个人数据时的隐私保护问题给出了明确的法律规定[33]。在2002年制定的指令中,对位置数据的使用进行了规范,其中条款9明确指出位置数据只有在匿名或用户同意的前提下为有效并必要的服务使用,这突显了位置隐私保护的重要性与必要性。此外,在运营商方面,全球最大的移动通信运营商沃达丰(vodafone)制定了一套隐私管理业务条例,要求所有为沃达丰客户提供服务的第三方必须遵守,这体现了运营商方面对于隐私保护的重视。
那么,基于位置服务中的隐私内容是什么呢?在基于位置的服务中,敏感数据可以是有关用户的时空信息,可以是查询请求内容中涉及医疗或金融的信息,可以是推断出的用户的运动模式(如经常走的道路以及经过频率)、用户的兴趣爱好(如喜欢去哪个商店、哪种俱乐部、哪个诊所等)等个人隐私信息。下面用一个例子说明LBS中的隐私保护内容。
张某利用带有GPS的手机提出“寻找距离我现在所在位置最近的中国银行”。形式化地表示该基于位置服务中的查询请求:(id, loc, query)
其中,id表示提出位置服务请求的用户标识,例子中id=“张某”;loc表示提出位置服务时用户所在的位置坐标(x, y),例子中loc=医院经纬度;query表示查询内容,例子中即“距离我最近的中国银行”。
一般来讲,基于位置服务中的隐私内容包括两个方面。第一,位置信息,即隐藏查询用户的确切位置,如近邻搜索中的用户需要提交他们的当前位置,导航服务中的用户需要提交他们的当前位置和目的位置。大量研究表明,暴露用户的确切位置将导致用户行为模式、兴趣爱好、健康状况和政治倾向等个人隐私信息的泄露[2]。在上面的例子中,张某不想让人知道现在他所在的位置(如医院)即位置信息保护。第二,敏感信息,即隐藏与用户个人隐私相关的敏感信息,如推断用户曾经访问的地点或提出某敏感服务。用户不想让任何人知道自己提出了某方面的查询,如张某不想让人知道自己将去银行进行与金钱相关的交易,即敏感信息保护。其中,位置信息在基于位置服务的隐私保护中具有至关重要的作用。位置不仅是查询处理的必要对象,而且可以作为伪标识符重新识别用户[8],导致用户敏感信息泄露。
1.3.2 面临的挑战
位置隐私管理中面临的挑战包括以下3个方面。
第一,隐私保护与代价是一对矛盾。隐私保护是建立在消耗一定代价的前提下的,这种代价可能是数据可用性、网络带宽、用户或服务提供商付出的努力。例如,在基于数据失真的位置隐私保护技术中代价体现为数据可用性。数据的精确性越高,可用性就越强,但隐私度却越低。再如,隐私保护后由保护后的位置或冗余的查询结果造成的多余网络通信代价也是需要考虑的重要原因之一。因此,隐私保护技术需要在代价和隐私保护之间保持平衡。
第二,位置是时序多维信息。与一般的一维数据不同,在位置隐私中,移动对象的位置信息是多维的,每一维之间互相影响,无法单独处理。因此,需要根据位置信息的多维性特点设计隐私保护方法。此外,位置信息经常发生动态更新,更新位置之间根据时间t相互依赖。攻击者可以根据已知位置或运动模式,预测未知或未来的位置。相互依赖的位置信息为攻击者获得用户在某特定时刻的位置提供了更多的背景知识。单点位置上成立的位置隐私保护技术,在面对连续查询的隐私保护或轨迹隐私保护时,不再适用。
第三,位置隐私保护中的即时性特点。基于位置服务是一种在线应用,处理器通常面临着海量移动对象、连续的服务请求以及频繁更新的位置,服务提供商处理的数据量巨大而且数据频繁地变化。在位置大数据的背景下,如何提供高效的位置隐私保护方法?如何在保证攻击者不可区分用户提出的查询情况下,最大化基于位置服务的查询性能,设计和使用不同的索引技术实现不同查询的高效处理?在线环境下,处理器的性能和响应时间是用户满意度的重要衡量标准。