本节书摘来自华章出版社《位置大数据隐私管理》一 书中的第1章,第1.1节,作者潘晓、霍 峥、孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
第1章 位置信息与隐私保护
1.1 位置大数据
移动通信和传感设备等位置感知技术的发展将人和事物的地理位置数据化。移动对象的传感芯片以直接或间接的方式收集移动对象的位置数据,其自动采集位置信息的速度和规模远远超过现有系统的处理能力。据统计,每个移动对象平均15 s提交一次当前位置,这样算来,全球上亿手机、车载导航设备等移动对象每秒提交的位置信息将超过一亿条[3]。未来移动传感设备的进步和通信技术的提升将使位置信息的产生更频繁。这类具有规模大、产生速度快、蕴含价值高等特点的位置数据被称为位置大数据[23,24]。位置大数据具有以下4个特征。
- 数据规模大:数据规模大小决定了数据价值和潜在信息。据统计,Facebook提供的Places功能,每天处理的签到(check-in)信息近200万条,具有位置标签的文本信息约为2 000万条。再如,北京有60 000辆出租车,每辆汽车每10 s进行一次位置更新,每天工作10 h,1天将产生5 GB的位置数据[23]。
- 产生速
度快:由于位置“实时”更新,位置数据更新具有数据流的特点。例如,某著名手机的定位服务中,与运动相关的应用记录了用户每天的锻炼数据,包括行走步数、跑步距离等,一天当中的所有行踪无一遗漏被记录。再如,全球最大的社区化交通导航应用程序Waze,通过实时收集用户遇到的警察、事故、交通堵塞等交通道路信息,为用户规划最佳行驶路线。该应用拥有5 000多万用户,其中每天150万用户实时在线。 - 数据类型多样:位置信息的表现形式包括数字、文本、图片等。具体来说,位置可以以经纬度坐标等数字形式呈现;可能是街道名、城市名、邮编等文本信息;抑或是蕴含于用户在社交媒体网站上发布和共享的照片或视频中。
- 数据不确定性:位置数据在收集、处理和建模等方面均具有不确定特点。例如,受位置收集精度所限,数据收集之初就是粗粒度位置。有些应用仅要求用户提供所在城市,而无须具体到经纬度。在连续收集用户轨迹过程中,由于中途设备故障或障碍等原因,可能导致部分位置信息缺失。另外,某些位置数据的不确定是由人为错误造成的,如用户在填写与位置相关的信息时,故意给出错误国家或城市。
位置大数据为人们的生活、企业的运作以及科学研究带来巨大的变革。从个人生活层面上讲,通过推测一个人居住的地点和每天常去的地方,可以为用户提供更便捷的服务。例如,总部位于亚特兰大的AirSage公司每天通过处理来自上百万手机用户的150亿条位置信息,为美国超过100个城市提供实时交通信息。从企业角度来看,位置大数据改变了企业商业运作方式,促进了新型市场的形成与增长。例如,Pyramid Research的调查报告显示,2010年诸如导航或移动社交网络等基于位置的服务已具有28亿美元的市场。据瑞典市场研究公司Berg Insight发布的最新报告,预测全球LBS市场规模到2020年将达到348亿欧元。联合包裹运输公司(UPS)收集自己旗下运输车辆的行驶信息为它们提供最佳行车路线以减少燃油、故障成本,在商业模式上取得了巨大成功。从科学发展的角度看,位置大数据为科学研究提供了新的方法。例如,无线数据科技公司Jana使用大约35亿人口的手机数据试图回答疾病如何传播以及城市如何繁荣这些重大科学问题,该数据来自100多个国家,超过200个无线运营商,覆盖拉丁美洲、非洲、欧洲。
位置大数据在带给人们巨大收益的同时,也带来了个人信息泄露的危害。位置大数据既直接包含用户的隐私信息,又隐含了用户的个性习惯、健康状况、社会地位等其他敏感信息。位置大数据的不当使用,会给用户各方面的隐私带来严重威胁。例如,某知名移动应用由于不注意保护位置信息,导致根据三角测量方法可以推断出用户的家庭住址等敏感位置,已引发了多起犯罪案件。2014年,iPhone用户隐私泄露事件披露出苹果公司曾私自记录用户每次使用LBS(基于位置的信息服务)应用时的位置信息,从而造成用户的大量位置信息泄露。来自微软的一项调查报告显示,有一半以上的用户担心自己在使用基于位置的服务时泄露自己的隐私。因此,在用户使用LBS应用时,如何保护用户的个人隐私成为一个亟待解决的问题。
本书给出了传统位置隐私管理中的位置隐私等相关概念,介绍了典型的隐私保护技术,总结归纳了传统位置隐私保护研究中经典的攻击模型和隐私保护模型,并利用一些简单例子说明不同攻击模型的经典保护方法,其中重点讲解了基于数据失真的保护方法(第3~5章)和基于数据加密的方法(第6章)。接下来,本书从需要用到的概念和定义开始阐述。