《大数据原理:复杂信息的准备、共享和分析》一一2.5 在标识符中嵌入信息:不推荐

简介: 本节书摘来自华章出版社《大数据原理:复杂信息的准备、共享和分析》一 书中的第2章,第2.5节,作者:[美] 朱尔斯 J. 伯曼(Jules J. Berman)著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.5 在标识符中嵌入信息:不推荐
大多数标识符不是纯粹的随机数,它们通常含有一些可由熟悉标识系统的人解释的嵌入信息。例如,标识符中可以嵌入姓的前三个字母,同样,标识符中也可以嵌入出生年份的最后两位数字。标识符中常常嵌有这种经“知情人”核实的“赤裸裸”的真实信息。例如,一个9位数社会安全号码分为:前三位数表示区号,紧接着的两位数表示群组编号,最后四位数表示序列号。借助社会安全号码,人们可以根据经验在社保编码系统里窥探到大量个人信息,并且可以通过排除子序列的存在来确定是否存在数字伪造。
标识符里那些看似无关紧要的信息有时候会成为发现个人隐私的重要依据。举个例子,假设某个零售商店会给每个在店里购物的客户提供一个唯一编号,例如2010-3518582,这个编号表示交易是在2010年发生的。由于每个编号都是唯一的,且号码本身对交易只字未提,人们一般会理所当然地觉得这样的编号不会透露任何交易信息。
然而事实是,交易编号已经告诉你不少信息,比如编号中的2010表明购买的年份。如果编号是2010-0000001,那么你可以放心地说,这笔销售交易发生在2010年第一个工作日。如果给你任意一个2010年的交易编号,可以很容易通过计算得出具体的交易日期,只需用当年的最后一个交易编号的后缀数字除以待计算的交易编号后缀数字,再乘以365,此时得到的是自第一笔交易发生算起的交易天数,再映射到具体日期即可。
你觉得这没什么好说的?请考虑这种情况,总统身边的一名重要工作人员在2005年2月15日到华盛顿特区的医院进行了肝活检,你想知道活检的结果。于是你访问了相关网站,在这些网站上可以查询到2000~2010年去标识化的医院病理档案,也就是说档案不涉及个人身份信息,但是档案编号是依据社保号排序的。使用前面的策略,首先收集所有与2005年2月15日相关的活检资料,发现在这些活检中,只有三个肝活检。这三个活检,只有一个人的性别和年龄与总统的工作人员相匹配。那么,显然对应的报告提供了此工作人员的诊断结果。无需获得任何个人身份信息,发现一些非常私人的信息是完全可以实现的。
由字母、数字构成的标识符字符串,本不应该存在暴露患者身份信息的危险。病人的姓名、出生日期和社会安全号码组合而成的标识符也可以用来窃取个人的身份。最安全的标识符应该是不包含任何信息的随机字符串。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
14天前
|
分布式计算 IDE 大数据
MaxCompute产品使用合集之有多人调用大数据计算MaxCompute,我需要给他们每个人都生成ak信息吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5天前
|
数据可视化 大数据 Python
python大数据分析处理
python大数据分析处理
10 0
|
5天前
|
机器学习/深度学习 人工智能 大数据
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
|
11天前
|
存储 机器学习/深度学习 数据采集
大数据处理与分析实战:技术深度剖析与案例分享
【5月更文挑战第2天】本文探讨了大数据处理与分析的关键环节,包括数据采集、预处理、存储、分析和可视化,并介绍了Hadoop、Spark和机器学习等核心技术。通过电商推荐系统和智慧城市交通管理的实战案例,展示了大数据在提高用户体验和解决实际问题上的效能。随着技术进步,大数据处理与分析将在更多领域发挥作用,推动社会进步。
|
13天前
|
分布式计算 DataWorks 调度
DataWorks产品使用合集之DataWorks中,填写ODPS SQL任务中的参数和分区信息如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
25 0
|
14天前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之DataWorks创建 MaxCompute 资源背景信息如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
26 5
|
14天前
|
分布式计算 DataWorks Java
DataWorks操作报错合集之dataworks 同步es数据到maxcompute 遇到报错:获取表列信息失败如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
23 0
|
14天前
|
存储 运维 监控
|
14天前
|
分布式计算 大数据 调度
MaxCompute产品使用合集之大数据计算MaxCompute底层加速查询的原理是什么
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
14天前
|
存储 分布式计算 DataWorks
MaxCompute产品使用合集之大数据计算MaxCompute dataworks可以批量修改数据集成任务的数据源配置信息吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。

热门文章

最新文章