漫谈大数据时代的个人信息安全(一)——“按图索骥”

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 漫谈大数据时代的个人信息安全(一)——“按图索骥”


互联网就像公路,用户使用它,就会留下脚印。

每个人都在无时不刻的产生数据,在消费数据的同时,也在被数据消费。

近日,某高校毕业生在校期间窃取学校内网数据,收集全校学生个人隐私信息的新闻引发了人们对大数据时代个人信息安全问题的再度关注。在大数据时代,推荐算法、AIGC更是对个人信息安全提出了新的挑战。

一、寻找王珞丹

2010年,王珞丹在微博上发出了以下两张照片:

这两张照片表面上看极为普通,但当时有网友根据这两张照片40分钟推理出了王珞丹的居住位置,轰动全网。

下面我们来回溯一下整个过程。

步骤一:区域划分

步骤二:区域筛选

分析王珞丹的微博内容,获取到以下有价值信息:

以上两条微博说明:

  • 下午一点五十左右堵在四环,说明她家不在四环以里。在她另一条微博里,她提到演出这么多年,自己还没有在北京中心地带买一套房子,便是佐证。因此排除E区域。
  • “都开到中关村了”说明平时他们居住的地区离中关村较远,并且对中关村一带不熟悉。因此排除中关村所在的区域D。同时,排除关联区域A也,因为从区域A进城就势必要途径中关村。

此外,由于北京南城开发较晚,多为新建高层小区商品房,且配套交通均不便利,当红明星一般很少居住在此,排除G、H、I;B区域为昌平区域,拥有回龙观、天通苑等大型居民小区,同样不符合当红明星定位,排除B。

目前剩下区域C、D,考虑到D同样离中心城区较近,因此大概率在区域C。

步骤三:特征排查

分析王珞丹微博发的两张照片

  • 首先,所在小区为西式风格,但是从她家的玻璃来看,玻璃框发黄而且有不可擦出的污垢,说明该小区已建成有一段时间。
  • 第二,从房间正对的大楼来看,她住顶层。
  • 第三,从第一张照片中可以看到小区中间有两个正方形的花坛,从第二张照片可以看到被挡住的第三个正方形花坛,地势由高到低,阶梯排布。也就是说,合在一起考虑,从俯视图上看,小区在一条直线上至少有三个一样大小的正方形花坛。这一点很重要
  • 第四,这三个花坛不尽相同,左数第一个和第三个是里面外面都有植被,中间那个里面没有植被只有外面有,也就是讲,如果我们从空中俯视,我们将看到在一片较为空旷的区域的一条直线上,看到三个正方形边框,其中两个被绿色包围、填充,中间那个被绿色包围,中间有投射下的部分阴影。
  • 第五,正方形连线的一段是一个俯视图为长方形的拱门建筑。

在地图上针对相关特征的小区开展逐个排查,发现某小区图片中间左部的三个正方形区域,再加上正方形区域边上的那个长方形区域,从而锁定了王珞丹所在小区。

步骤四:实地验证

最后以小区现场拍摄照片与王珞丹所拍照片进行比较,从而确认这就是所寻找的目标小区。

二、啥是Exif ?

  • 吃完一顿大餐后,在微信上与好友分享一张美食照片的原图或者美图后的照片,对方下载保存后,立马可以显示该照片的拍摄位置。
  • 点开苹果手机相册,点击详细信息,这张照片的地点信息则更精确,具体到哪条路及其门牌号,还可显示附近照片,曾经拍摄过的照片一一出现在对应的地理坐标上。
  • 使用苹果6S以上手机的用户,如开启“livephoto”,将拍摄的照片传到微博上,任何人都可能从照片中知道你的地址。
  • 在微博上随机搜索到几张动态照片,下载保存至手机。进入手机相册,点开“详细信息”,即可显示位置信息。但如果下载的是普通照片,则不会显示位置信息。只要上传的动态照片有完整的位置信息,无论下载方是否开启定位功能,都不会影响图片显示位置信息的功能。

任何智能手机拍摄的照片都含有Exif 参数Exif(Exchangeable Image File)是一种可交换图像文件格式,包含:

  • 图像信息:像素、光圈、快门、焦距、日期时间等
  • 设备信息:相机品牌、型号等
  • GPS全球定位系统数据

拍摄照片时,手机会调用GPS全球定位系统数据,从而在照片中记录下位置、时间等信息,当原始图片被发送,其附带的信息也就一并发出去了,用任何传输工具都是如此。陌生人也能知道你的坐标轨迹,住在哪里,单位地址,什么时候去哪里玩过。

有专门的Exif viewer可查看相关信息

三、个人信息保护小贴士

  • 将相机定位功能关掉,设置-隐私 -定位服务-相机 ( 照片 ) 设置成“永不”

  • 照片原图传到电脑上,右键点击属性,再点击“删除属性和个人信息”。

  • 关闭APP不必要的位置访问权限

  • 慎重上传分享涉及家庭住址、单位地址的照片
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 安全 大数据
大数据隐私保护:用户数据的安全之道
【10月更文挑战第31天】在大数据时代,数据的价值日益凸显,但用户隐私保护问题也愈发严峻。本文探讨了大数据隐私保护的重要性、面临的挑战及有效解决方案,旨在为企业和社会提供用户数据安全的指导。通过加强透明度、采用加密技术、实施数据最小化原则、加强访问控制、采用隐私保护技术和提升用户意识,共同推动大数据隐私保护的发展。
|
1月前
|
存储 安全 大数据
|
4月前
|
存储 监控 安全
大数据架构设计原则:构建高效、可扩展与安全的数据生态系统
【8月更文挑战第23天】大数据架构设计是一个复杂而系统的工程,需要综合考虑业务需求、技术选型、安全合规等多个方面。遵循上述设计原则,可以帮助企业构建出既高效又安全的大数据生态系统,为业务创新和决策支持提供强有力的支撑。随着技术的不断发展和业务需求的不断变化,持续优化和调整大数据架构也将成为一项持续的工作。
|
4月前
|
安全 关系型数据库 MySQL
揭秘MySQL海量数据迁移终极秘籍:从逻辑备份到物理复制,解锁大数据迁移的高效与安全之道
【8月更文挑战第2天】MySQL数据量很大的数据库迁移最优方案
788 17
|
5月前
|
分布式计算 安全 大数据
HAS插件式Kerberos认证框架:构建安全可靠的大数据生态系统
在教育和科研领域,研究人员需要共享大量数据以促进合作。HAS框架可以提供一个安全的数据共享平台,确保数据的安全性和合规性。
|
5月前
|
SQL 安全 大数据
如何安全的大数据量表在线进行DDL操作
如何安全的大数据量表在线进行DDL操作
74 0
如何安全的大数据量表在线进行DDL操作
|
6月前
|
机器学习/深度学习 自然语言处理 监控
金融行业的大数据风控模型:构建安全高效的信用评估体系
金融机构借助大数据风控提升信贷效率,通过数据收集、清洗、特征工程、模型构建与评估来识别风险。关键技术涉及机器学习、深度学习、NLP和实时处理。以下是一个Python风控模型构建的简例,展示了从数据预处理到模型训练、评估的过程,并提及实时监控预警的重要性。该文旨在阐述大数据风控的核心要素和关键技术,并提供基础的代码实现概念。【6月更文挑战第23天】
1050 8
|
7月前
|
运维 Cloud Native 安全
【专栏】随着信息技术发展,运维正向自动化、智能化转型,云原生运维成为主流,大数据驱动运维决策,而安全运维日益重要
【4月更文挑战第29天】随着信息技术发展,运维正向自动化、智能化转型,云原生运维成为主流,大数据驱动运维决策,而安全运维日益重要。面对技术更新快、人才短缺和复杂性增加的挑战,企业需建立培训体系,加强人才培养,优化运维管理,以适应未来运维需求。随着这些趋势,运维领域将迎来更广阔的发展前景。
213 2
|
7月前
|
人工智能 安全 算法
AI与大数据:智慧城市安全的护航者与变革引擎
AI与大数据:智慧城市安全的护航者与变革引擎
|
7月前
|
安全 算法 大数据
漫谈大数据时代的个人信息安全(四)——“位所欲为”
漫谈大数据时代的个人信息安全(四)——“位所欲为”