《大数据原理：复杂信息的准备、共享和分析》一一2.11　经验教训-阿里云开发者社区

《大数据原理：复杂信息的准备、共享和分析》一一2.11　经验教训

2017-08-02 1435

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节书摘来自华章出版社《大数据原理：复杂信息的准备、共享和分析》一书中的第2章，第2.11节，作者：[美]　朱尔斯 J. 伯曼（Jules J. Berman）著，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.11　经验教训
每件事以前都说过，但因为没有人听，所以我们只好回到起点，一遍又一遍地重新开始。
―Andre Gide

习惯于使用较小的数据项目的大数据管理人员往往忽视了标识问题。本章中描述的最重要的想法很值得重复，其中许多想法对于那些生活在大数据混乱领域之外的人来说是反直觉的和奇怪的。
1.所有的大数据资源都可以被想象为对于数据对象和数据相关事件的一个标识符系统（即时间事务）。大数据的数据资源可以被想象为连接到标识符的字符序列。
2.如果没有一个适当的标识系统，大数据资源就没有价值。资源内的数据不能被信任。
3.标识符是分配给一个数据对象的唯一的字母数字序列。
4.数据对象是数据的集合，它包含自我描述信息，以及一个或多个数据值。数据对象应当与一个唯一的标识符相关联。
5.去标识化是从可能的记录里链接到该记录对象的公共名称的数据记录，并进行信息剥离的过程。
6.去标识化不应与剥离标识符记录的行为相混淆。一个去标识化的记录必须具有相关的标识符，作为一个标识的数据记录就必须有一个标识符。
7.没有标识，就不会有去标识，也没有重新标识。
8.重新标识是指将数据记录与去标识化的记录相关联的公共名称的分配。重新标识有时需要验证一个记录的内容，或提供所必需的一个去标识化的数据记录的对象的信息。重新标识总是需要审批和监督。
9.当一个去标识化的数据集不包含任何唯一的记录（即每个记录有一个或多个附加记录从中不能被区分开来，除了其指定的标识符序列）时，那么就不可能恶意揭开一个去标识化的记录的公共名称。
10.数据清除器从数据记录中删除不需要的信息，包括个人性质的信息，以及与数据记录目的不直接相关的任何信息。数据去标识化是一个过程，其中记录主体的公共名称将被删除（见术语表，Data cleaning，Data scrubbing）。
11.速度最快的数据清除方法包括准备已证实的单词和短语的列表，列表可以在数据记录中被保留，并删除未核准名单中发现的每一个单词或短语。

《大数据原理：复杂信息的准备、共享和分析》一一2.11　经验教训

华章出版社

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《大数据原理：复杂信息的准备、共享和分析》一一2.11 经验教训

华章出版社

热门文章

最新文章

相关课程

相关电子书

《大数据原理：复杂信息的准备、共享和分析》一一2.11　经验教训