《大数据原理：复杂信息的准备、共享和分析》一一2.10　重标识-阿里云开发者社区

《大数据原理：复杂信息的准备、共享和分析》一一2.10　重标识

2017-08-02 1493

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节书摘来自华章出版社《大数据原理：复杂信息的准备、共享和分析》一书中的第2章，第2.10节，作者：[美]　朱尔斯 J. 伯曼（Jules J. Berman）著，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.10　重标识
对于科学家而言，去标识化有两个目的：
1.保护数据的保密性和个人隐私。
2.删除可能影响实验的信息。
保密性和隐私问题一直是以人为主题的数据需要面对的问题，而且分析数据时的实验误差总会存在，故而去标识化不可逆转势在必行。
科研诚信往往会与不可逆转的去标识化相冲突。有时多个实验样本数据会混在一起，有时会弄错样本数据源。而一旦样本数据出现差错，那么一些科学发现也许就不成立，需要被驳回37-41。除此之外，数据有时也会因为不合理的收集过程导致科研诚信受到质疑。举个例子，插反电极生成的心电图可能会带来虚假的、误导性的结果。上面这些是无意的科研不诚信，但有的时候，一些不诚实的科学家会故意捏造或破坏原始样本数据，以达到他个人的实验意图。无论何种原因造成的数据出错，收回已发表的论文很重要42,43。为了保证科研诚信，在某些情况下有必要对去标识化的数据重新进行标识。
在一些情况下，去标识化使得数据分析师无法帮助那些保密性已受到保护的个人。假设你正在利用收集来的去标识化数据进行分析，并发现病人的某种基因标记代表了一种疾病，如果早期进行治疗可以治愈；或者你发现了一种新的生物标记，可以决定哪些病人适合手术哪些不适合。这时，你不得不联系数据库里的病人，告知他们可以挽救他们生命的信息。然而，去标识化了的数据不会向你提供病人的身份信息，而且没人知道。
在严格控制的环境下，去标识化记录可以被重新标识。重标识通常是通过委托第三方来实现，第三方保有一份保密清单，这份清单将去标识化的记录与个人信息进行了一一对应。显然，只有在大数据资源保留了数据记录标识符与对应的去标识化记录标识符的连接关系，重标识才能够实现。为去标识化的记录分配公共名称需要在严格的监督下进行。数据管理人员必须建立一个协议，描述获准重标识的过程。重标识有可能导致保密性受到破坏，人类受到伤害，因此，如何管理重标识过程将是大数据管理人员最沉重的责任之一。

《大数据原理：复杂信息的准备、共享和分析》一一2.10　重标识

华章出版社

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《大数据原理：复杂信息的准备、共享和分析》一一2.10 重标识

华章出版社

热门文章

最新文章

相关课程

相关电子书

《大数据原理：复杂信息的准备、共享和分析》一一2.10　重标识