《大数据原理:复杂信息的准备、共享和分析》一一2.8 去标识化

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 本节书摘来自华章出版社《大数据原理:复杂信息的准备、共享和分析》一 书中的第2章,第2.8节,作者:[美] 朱尔斯 J. 伯曼(Jules J. Berman)著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.8 去标识化
去标识化是去除数据中可能连接该数据对象的公共名称的信息的过程。在病人记录这个案例里,去标识化就是将那些会让人联系到病人名字的信息从记录中去除的过程,这样做的目的显而易见。事实上,还有其他信息也需要去除,如病人的联系地址、出生日期和社会安全号码。在美国,病人隐私条例里详细讨论了病人记录去标识化的问题,并建议把18条记录条目排除在去标识化之外。33
在进一步讨论去标识化之前,必须认识到去标识化不是简单地从数据对象中移除标识符。事实上,粗暴地将数据对象里的标识符移除并不明智,会导致数据对象毫无用处,因为,无论是标识化的还是去标识化的数据对象都需要有至少一个标识符。正如在前面的章节中讨论的那样,标识符可以由单向哈希函数值代替,以保证数据记录的唯一性。去标识化需要移除那些可能会公开数据对象名称的信息,这类信息通常指识别信息,但也可能是那些与名称关联的信息。所以,我们不要把数据对象的标识符同数据对象中与其公共名称关联的信息相混淆。
这似乎违背了我们的直觉,但标识符与去标识化的标识符差别很小,在某些情况下,两者等价。下面是双标识/去标识系统可能的工作方式:
1.收集数据:“Joe Fergusons bank account contains $100.”
2.分配标识符:“Joe Fergusons bank account is 7540038947134.”
3.用标识符取代对象名称:“7540038947134 contains $100.”
4.一直使用这个阿拉伯数字标识符。
5.不让任何人知道Joe Ferguson拥有账号7540038947134。
标识符/去标识化的标识符的双重使用是一种可靠的技术。瑞士银行账户基本上给每个人分配唯一的账号(标识符),你可以通过标识符访问银行账户,标识符不会泄露任何银行账户所有者的身份信息,即它是去标识化的。
标识符的意义告诉你:遇到这个标识符表示它指向同一个对象,而如果遇到两个不同的标识符那一定是指向两个不同的对象。而标识符自身不会包含与其公共名称关联的信息。
理解去标识化过程仅在数据记录合理标识化的前提下才能成功是非常重要的,没有标识化就谈不上去标识化。强行对标识程度不高的临床信息数据集去标识化,会导致数据记录出现重复、混乱和遗失等情况。
把去标识化过程看成是响应数据分析师查询消息的一个联机算法最为合适,下面给出一个算法流程:
1.数据分析师提出一条大数据资源查询请求,这个资源包含一些不可共享的敏感信息,除非去标识化了。
2.大数据资源收到查询请求,检索出记录。
3.对检索出的记录进行解析,且记录中所有敏感信息都被删除,所谓的敏感信息大致包括前面提到的姓名、地址、出生日期、社会安全号码等。
4.准备好伪标识序列。伪标识序列有可能由随机生成器产生,也有可能由原始标识加密而成,又或者是通过单向哈希算法或其他算法生成。
5.原始记录上被附加了一条事务记录(即查询请求),包括伪标识序列、去标识化记录、事务发生时间以及其他任何与请求实体相关的信息。
6.一条记录发送给数据分析师,这条记录由去标识化的记录及其唯一伪标识符组成。
由于去标识化的记录及其唯一伪标识符存储在原始记录中,因此,当数据分析师后续对这条记录发出其他请求时,无需重新计算即可得到同样的反馈。这种常用的数据去标识化方法一般用于对单个记录或百万条记录的操作请求。
现在,你大概会问:“为什么数据管理员有分配保密记录的权利,即使记录已经被去标识化?”这就好像你告诉别人一个秘密,并告诉他不要说出去,你当然不希望有第三个人知晓这个秘密的任何内容。同样,分享已去标识化的机密信息是荒诞且难以让人接受的。
我们会在第13章和第14章中讨论大数据的合法问题和道德问题。而这里,读者需要知道的是,有一些易懂、简洁的原理可以证明分享去标识化的数据的可行性。
再看看这句话:“Jules Berman has a blood glucose level of 85.(Jules Berman的血糖水平是85。)”这可以称得上保密记录,因为,这句话告诉了别人Jules Berman的身体情况。如果只是短语“glucose level 85”,即删除了人名,这时该短语就只是没有主体的数据了,与“Temperature 98.6”“Apples 2”“Terminator 3”无异,仅是一些不属于特定主体的原始数据。
通过将某个人或数据对象的信息转变为不属于特定对象的信息,去标识化使得数据无害。基于此,美国法规允许无限制地使用这些无害数据进行科学研究。33,34其他一些国家也有类似规定。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1天前
|
存储 监控 数据挖掘
【Clikhouse 探秘】ClickHouse 物化视图:加速大数据分析的新利器
ClickHouse 的物化视图是一种特殊表,通过预先计算并存储查询结果,显著提高查询性能,减少资源消耗,适用于实时报表、日志分析、用户行为分析、金融数据分析和物联网数据分析等场景。物化视图的创建、数据插入、更新和一致性保证通过事务机制实现。
24 14
|
8天前
|
数据采集 机器学习/深度学习 搜索推荐
大数据与社交媒体:用户行为分析
【10月更文挑战第31天】在数字化时代,社交媒体成为人们生活的重要部分,大数据技术的发展使其用户行为分析成为企业理解用户需求、优化产品设计和提升用户体验的关键手段。本文探讨了大数据在社交媒体用户行为分析中的应用,包括用户画像构建、情感分析、行为路径分析和社交网络分析,以及面临的挑战与机遇。
|
6天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
32 1
|
8天前
|
机器学习/深度学习 搜索推荐 大数据
大数据与教育:学生表现分析的工具
【10月更文挑战第31天】在数字化时代,大数据成为改善教育质量的重要工具。本文探讨了大数据在学生表现分析中的应用,介绍学习管理系统、智能评估系统、情感分析技术和学习路径优化等工具,帮助教育者更好地理解学生需求,制定个性化教学策略,提升教学效果。尽管面临数据隐私等挑战,大数据仍为教育创新带来巨大机遇。
|
11天前
|
人工智能 供应链 搜索推荐
大数据分析:解锁商业智能的秘密武器
【10月更文挑战第31天】在信息爆炸时代,大数据分析成为企业解锁商业智能的关键工具。本文探讨了大数据分析在客户洞察、风险管理、供应链优化、产品开发和决策支持等方面的应用,强调了明确分析目标、选择合适工具、培养专业人才和持续优化的重要性,并展望了未来的发展趋势。
|
14天前
|
存储 机器学习/深度学习 大数据
量子计算与大数据:处理海量信息的新方法
【10月更文挑战第31天】量子计算凭借其独特的量子比特和量子门技术,为大数据处理带来了革命性的变革。相比传统计算机,量子计算在计算效率、存储容量及并行处理能力上具有显著优势,能有效应对信息爆炸带来的挑战。本文探讨了量子计算如何通过量子叠加和纠缠等原理,加速数据处理过程,提升计算效率,特别是在金融、医疗和物流等领域中的具体应用案例,同时也指出了量子计算目前面临的挑战及其未来的发展方向。
|
26天前
|
存储 SQL 分布式计算
湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
【10月更文挑战第7天】湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
41 1
|
13天前
|
数据采集 分布式计算 OLAP
最佳实践:AnalyticDB在企业级大数据分析中的应用案例
【10月更文挑战第22天】在数字化转型的大潮中,企业对数据的依赖程度越来越高。如何高效地处理和分析海量数据,从中提取有价值的洞察,成为企业竞争力的关键。作为阿里云推出的一款实时OLAP数据库服务,AnalyticDB(ADB)凭借其强大的数据处理能力和亚秒级的查询响应时间,已经在多个行业和业务场景中得到了广泛应用。本文将从个人的角度出发,分享多个成功案例,展示AnalyticDB如何助力企业在广告投放效果分析、用户行为追踪、财务报表生成等领域实现高效的数据处理与洞察发现。
37 0
|
30天前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
9天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
43 1

热门文章

最新文章

下一篇
无影云桌面