《大数据原理：复杂信息的准备、共享和分析》一一2.5　在标识符中嵌入信息：不推荐-阿里云开发者社区

《大数据原理：复杂信息的准备、共享和分析》一一2.5　在标识符中嵌入信息：不推荐

2017-08-02 1144

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节书摘来自华章出版社《大数据原理：复杂信息的准备、共享和分析》一书中的第2章，第2.5节，作者：[美]　朱尔斯 J. 伯曼（Jules J. Berman）著，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.5　在标识符中嵌入信息：不推荐
大多数标识符不是纯粹的随机数，它们通常含有一些可由熟悉标识系统的人解释的嵌入信息。例如，标识符中可以嵌入姓的前三个字母，同样，标识符中也可以嵌入出生年份的最后两位数字。标识符中常常嵌有这种经“知情人”核实的“赤裸裸”的真实信息。例如，一个9位数社会安全号码分为：前三位数表示区号，紧接着的两位数表示群组编号，最后四位数表示序列号。借助社会安全号码，人们可以根据经验在社保编码系统里窥探到大量个人信息，并且可以通过排除子序列的存在来确定是否存在数字伪造。
标识符里那些看似无关紧要的信息有时候会成为发现个人隐私的重要依据。举个例子，假设某个零售商店会给每个在店里购物的客户提供一个唯一编号，例如2010-3518582，这个编号表示交易是在2010年发生的。由于每个编号都是唯一的，且号码本身对交易只字未提，人们一般会理所当然地觉得这样的编号不会透露任何交易信息。
然而事实是，交易编号已经告诉你不少信息，比如编号中的2010表明购买的年份。如果编号是2010-0000001，那么你可以放心地说，这笔销售交易发生在2010年第一个工作日。如果给你任意一个2010年的交易编号，可以很容易通过计算得出具体的交易日期，只需用当年的最后一个交易编号的后缀数字除以待计算的交易编号后缀数字，再乘以365，此时得到的是自第一笔交易发生算起的交易天数，再映射到具体日期即可。
你觉得这没什么好说的？请考虑这种情况，总统身边的一名重要工作人员在2005年2月15日到华盛顿特区的医院进行了肝活检，你想知道活检的结果。于是你访问了相关网站，在这些网站上可以查询到2000～2010年去标识化的医院病理档案，也就是说档案不涉及个人身份信息，但是档案编号是依据社保号排序的。使用前面的策略，首先收集所有与2005年2月15日相关的活检资料，发现在这些活检中，只有三个肝活检。这三个活检，只有一个人的性别和年龄与总统的工作人员相匹配。那么，显然对应的报告提供了此工作人员的诊断结果。无需获得任何个人身份信息，发现一些非常私人的信息是完全可以实现的。
由字母、数字构成的标识符字符串，本不应该存在暴露患者身份信息的危险。病人的姓名、出生日期和社会安全号码组合而成的标识符也可以用来窃取个人的身份。最安全的标识符应该是不包含任何信息的随机字符串。

《大数据原理：复杂信息的准备、共享和分析》一一2.5　在标识符中嵌入信息：不推荐

华章出版社

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《大数据原理：复杂信息的准备、共享和分析》一一2.5 在标识符中嵌入信息：不推荐

华章出版社

热门文章

最新文章

相关课程

相关电子书

《大数据原理：复杂信息的准备、共享和分析》一一2.5　在标识符中嵌入信息：不推荐