【隐私工程】路线图:数据隐私工程

简介: 贝塞默揭示了数据收集和新兴市场的七大罪过,这将帮助公司保护和保护消费者数据。

Roadmap: Data Privacy Engineering

贝塞默揭示了数据收集和新兴市场的七大罪过,这将帮助公司保护和保护消费者数据。

我们访问的网站和应用程序,我们使用的手机,甚至感觉像我们友好宠物的机器人吸尘器,都收集数据。作为消费者,我们越来越习惯于做出小小的妥协,将个人数据的花絮交出来换取“免费”服务。这是一种趋势,感觉就像最新应用程序的条款和条件框一样常见。简言之,科技公司在收集和分析我们的数据方面已经变得令人难以置信的熟练,这完全是设计的。数据是新的石油。无论这句话多么老套,公开上市的科技公司现在占美国股市的四分之一以上,所以客观地说,这是真的!

虽然数据已经渗透到我们的生活和经济中,但只有少数领导人和企业家在谈论这一新现实的后果。由于数据是新的石油,我们相信它也有可能导致下一次“数据石油泄漏”。

虽然许多科技公司的架构是为了收集数据,但它们的架构不一定是为了安全存储数据。如今,数据隐私技术、流程和监管应该在哪里,以及它们在哪里之间不仅存在裂痕,还存在鸿沟,因此产生了大量“隐私债务”

我们访问的网站和应用程序,我们使用的手机,甚至感觉像我们友好宠物的机器人吸尘器,都收集数据。作为消费者,我们越来越习惯于做出小小的妥协,将个人数据的花絮交出来换取“免费”服务。这是一种趋势,感觉就像最新应用程序的条款和条件框一样常见。简言之,科技公司在收集和分析我们的数据方面已经变得令人难以置信的熟练,这完全是设计的。数据是新的石油。无论这句话多么老套,公开上市的科技公司现在占美国股市的四分之一以上,所以客观地说,这是真的!

虽然数据已经渗透到我们的生活和经济中,但只有少数领导人和企业家在谈论这一新现实的后果。由于数据是新的石油,我们相信它也有可能导致下一次“数据石油泄漏”。

虽然许多科技公司的架构是为了收集数据,但它们的架构不一定是为了安全存储数据。如今,数据隐私技术、流程和监管应该在哪里,以及它们在哪里之间不仅存在裂痕,还存在鸿沟,因此产生了大量“隐私债务”

与技术债务一样,隐私债务需要重新设计内部系统,以适应和构建最新标准,这不仅会让消费者更快乐,也会让公司更好。谢天谢地,这正在一个叫做数据隐私工程的新兴领域发生。数据隐私工程不是大多数消费者甚至技术专家都非常熟悉的术语,但我们相信,随着这个问题的出现,这个术语一定会进入公共词典。数据隐私工程代表了网络安全、大数据分析、法律和合规的交叉点,以满足收集、安全存储和道德使用消费者数据所需的要求。

我们相信,数据隐私工程将成为一个独立的类别,这将很快成为创始人和高层管理人员的首要考虑。在本路线图中,我们概述了数据隐私的七大罪过,以此了解我们是如何走到这一步的,并讨论最能激励我们的投资领域。

数据隐私困境

如果Facebook拥有深厚的技术人才,无法防止大规模的用户数据泄露,那么一个更传统的公司应该如何应对?消费者数据收集的激增没有显示出放松的迹象,数据泄露正在加速,2019年是“有记录以来数据泄露活动最糟糕的一年”,尽管企业仅今年就在信息安全方面花费了约1240亿美元。

简而言之,公司未能充分保护消费者数据。为了保护消费者隐私和防止未来的“数据石油泄漏”,每个公司,而不仅仅是科技公司,都必须对数据隐私工程和隐私操作采取不同的方法,以保护我们的安全,避免这些几乎可以预防的灾难。大科技公司和大企业最常见的错误归结为数据隐私工程的七大罪过。

数据隐私工程的七宗罪

  1. 收集太多不必要的数据并永久存储
  2. 客户数据安全性不足
  3. 不知道拥有什么数据或存储在哪里
  4. 当第三方的政策和实践未知时,与第三方共享
  5. 缺乏及时的数据泄露报告
  6. 不响应消费者数据访问请求
  7. 未经适当同意或以引入偏差的方式对客户数据使用AI/ML

最引人注目和最普遍的问题是第一个罪过——公司不必要地收集了太多数据。在过去几十年中,数据收集一直是工程师和数据库架构师(DBA)的默认习惯。这一做法之所以加速,是因为大规模可扩展数据存储、云应用和摩尔定律推动了与存储数据相关的成本呈指数级下降。此外,工程师倾向于收集更多的数据,因为他们不知道人工智能模型未来是否可能从中受益。

然而,对于为什么要存储这些数据、存储多长时间或是否需要最终用户同意的问题,没有进行太多思考。

隐私工程中有一种称为“最小化”的实践,它涉及到思考公司必须收集的最小客户数据集。这被认为是最佳实践;然而,大多数公司都是由产品和工程驱动的,工程师倾向于尽可能多地保存数据。

这反过来又会导致公司通常不知道自己拥有什么数据,因此无法妥善保护数据,或者在不知道其政策和程序的情况下与第三方共享数据。当发生数据泄露时,没有适当的策略来处理通信,使糟糕的情况更加糟糕。

我们已经看到了数据石油泄漏的后果

所有这些消费者数据处理不当的最终结果是像剑桥分析公司(Cambridge Analytica)这样的丑闻,8700万Facebook用户的数据被第三方共享,最终被用于恶意攻击目的。这一不幸事件不仅为扎克赢得了一个相当不愉快的国会小组的前排席位,而且在舆论法庭上也被判了负面判决。后来,Facebook被联邦贸易委员会罚款50亿美元,扎克伯格同意对未来的事件承担个人责任。在更大的全球范围内,如果公司未能维护GDPR,公司董事可能会承担个人责任。

尽管Facebook罚款,但消费者的行为仍保持一致,大街上也没有明显的变化。例如,在Facebook Cambridge Analytica数据丑闻之后,大约有40万条删除Facebook推文。然而,在同一时期,Facebook的活跃用户增长了4%左右。现代服务似乎与消费者的日常生活交织在一起,无法进行实质性的改变。

我们怀疑消费者的行为是否会很快改变。特别是,通过道德方法收集消费者数据无疑会带来好处,将数据转化为促进创新和改善客户体验的见解。由于数据的激增,新的以数据为中心的商业模式和服务应运而生,从及时提供远程医疗服务以拯救生命的能力,到及时订购墨西哥煎饼以观察办公室。问题不在于数据,而在于未经检查的数据扩散。

各国政府正在介入这场争论,试图堵住这口泄露数据的油井。2016年通过并于2018年生效的《欧盟通用数据保护条例》(GDPR)是第一个倒下的多米诺骨牌,它刺激了企业遵守新制定的隐私规则的势头。这也是一条有着锋利牙齿的法律;公司可能会被处以高达其全球收入4%的罚款。

虽然欧盟是数据隐私运动的早期倡导者,但我们正在目睹其他国家政府和美国个别州效仿。《加州消费者隐私法》(CCPA)是美国首次有意义地涉足现代消费者数据保护领域。虽然许多其他州的数据隐私法案尚未通过,但美国联邦政府也可以(而且我们希望会)接手并通过一项全面的国家法规。否则,公司可能要在50个不同的州政府支持的法案的细微差别中游刃有余。我们认为,这种情况将严重阻碍企业跨州工作的能力。

对消费者来说,幸运的是,许多公司正在兴起,允许公司以更道德和负责任的方式利用个人数据。我们将数据隐私市场划分为几个不同的类别,理想情况下,这些类别代表一套端到端的解决方案,旨在以动态和道德的方式识别、保护和使用数据。虽然这是我们现在的观点,但我们承认,这场比赛肯定是一场漫长的比赛。

可投资机会和数据隐私堆栈

 

这是我们目前设想的数据隐私环境:

  • 数据扫描和分类:在一家公司能够保护其敏感数据之前,它必须首先扫描和分类所有数据,以了解其拥有的数据和所在地。根据规定,该过程不仅包括个人身份信息(PII),还包括结构化较少的个人信息(PI)。PI和PII之间的差异是细微的,但却是一个重要的区别。PII(如电子邮件)通常以定义良好的方式(如SSN)表示,并被认为在结构化数据集中定位相当简单。另一方面,PI可以包括地理位置或产品偏好等细节;数据不属于可识别的人,但属于特定的人,并受到同等保护。所有这些数据都必须跨企业中的所有数据存储(结构化和非结构化)进行定位和清点。这种需求是迫在眉睫的,像BigID这样的公司正在为企业解决这一极其痛苦的问题。
  • 数据编目:该类别由工具组成,如数据。这有助于公司在其系统中盘点和组织数据。好处包括改进数据发现、治理和访问。数据编目是一个过程,使公司能够找到并访问数据,同时了解数据的上下文,以确定数据是否适合用于业务和技术用户的给定项目。
  • 数据访问治理:这类工具为企业中的特定人员授予对数据的访问控制权,并提高了谁在访问什么信息、何时访问以及访问目的的可见性。随着企业收集和使用更多数据,像Okera这样的公司在跨组织管理和维护数据治理方面越来越重要。
  • 数据沿袭:虽然数据治理有助于公司了解数据存储在何处以及如何访问数据,但公司通常不知道互连数据集的转换和依赖关系。数据沿袭子部门的发展填补了这一空白,通过监控数据在组织内的旅程以及使用或与数据交互的应用程序,补充了数据治理。
  • 隐私保护技术:一旦企业对其数据进行了清点,并掌握了出处、存储、DSAR和许可,就必须在使用时保护其最敏感的信息——无论是静态还是动态。像Privitar这样的公司利用差异隐私、部分同态加密和其他技术来确保私有数据保持不变,而市场上的其他公司则依赖多方计算和其他技术实现相同的结果。为了使企业在隐私保护技术方面取得成功,公司必须利用一系列不同的技术,不仅达到所需的隐私监管水平(例如,去标识化、化名或完全匿名化),还必须在消费者信任的情况下保护数据的价值。
  • 同意管理:一旦公司找到了其数据,充分确定了其来源和治理,并处理了任何相关的法定请求,公司必须确保其拥有并保持充分同意实际使用所述数据。如前所述,数据是大多数企业的竞争优势;同意管理确保企业可以使用该数据,但以消费者友好的方式使用。虽然我们知道这一领域对企业至关重要,但我们还没有在这一新兴且微妙的领域找到明确的领导者。
  • 工作流生产力:公司必须能够响应数据主体访问请求(DSAR)和其他监管查询。根据IAPP最近的一项民意调查,只有2%的受访者声称目前已经自动化了这些请求。虽然现在这可能不是一个成本高昂的问题,但这些请求的速度正在急剧加快,企业需要新的软件定义解决方案来有效管理这些流程和其他工作流。例如,Bessemer投资组合公司Virtru提供跨不同应用程序的持久数据保护和控制,因此只有授权用户才能访问数据。TrustArc和OneTrust等公司的高估值表明了这一类别的前景和重要性。
  • 数据保险库:除了对公司现有数据进行清点或扫描外,该类别是一种机制,用于保护和检索组织最敏感的数据,作为附加的安全层。在许多情况下,此过程适用于通过API流动的数据。数据保险库公司还跟踪来自数据库的数据,使其成为隐私数据库即服务。
  • 消费者隐私工具:我们不认为消费者行为在短期内会发生很大变化,也不认为消费者个人有义务保护自己的隐私-这是一项基本权利。但我们相信,消费者最终会希望看到谁拥有他们的数据以及如何使用数据的更精细的视图。Dashlane等消费者密码管理器已经改进了其产品,为消费者提供基本的隐私功能、警报和信用检查。然而,有机会使用其他工具,帮助消费者通过越来越多的网络服务、社交媒体网站和应用程序控制自己的隐私。Jumbo Privacy等公司正试图通过帮助消费者应对越来越多的不同隐私设置和政策来解决这一难题。

虽然这些是我们发现目前风险投资前景看好的数据隐私领域的主要领域,但我们也发现了adtech、合成数据、隐私存储和道德人工智能市场的邻近领域。我们怀疑,随着时间的推移,这些新兴类别的重要性和需求将不断增长。

数据隐私工程的未来

我们相信,未来赢得市场的数据隐私平台将需要所有这些类别的元素,以便形成一个集成套件,允许企业以可管理、合法和道德的方式识别、保护并最终使用其数据。然而,目前还不清楚是否有任何一家公司将真正拥有完整的解决方案,或者我们是否会在类别中看到专业化和最佳解决方案,类似于我们在网络安全领域所看到的。虽然这是我们今天看待市场的方式,但我们承认,我们的观点以及前景-从监管、技术和公众舆论的角度-正在不断演变。

我们相信,这些集体努力和解决方案的最终结果将有助于企业避免数据隐私工程的七大罪过,尽管我们今天还远未达到这一目标,但公司必须努力以更安全、更消费者友好的方式利用数据。此外,随着数据监管继续像数据本身一样迅速扩散,我们坚信,数据隐私工程将不再是一件好事,而是将演变为新的业务需求。

本文:https://architect.pub/roadmap-data-privacy-engineering

相关文章
|
7月前
|
存储 机器学习/深度学习 弹性计算
|
5月前
|
算法 数据可视化 数据挖掘
系统工程是一种跨学科的方法论,用于处理复杂系统(如工程系统、经济系统、社会系统等)的设计、开发、管理和优化。
系统工程是一种跨学科的方法论,用于处理复杂系统(如工程系统、经济系统、社会系统等)的设计、开发、管理和优化。
|
6月前
|
人工智能 自然语言处理 监控
安全使用GenAI模型进行软件开发的步骤
安全使用GenAI模型进行软件开发的步骤
|
7月前
|
安全 算法 Android开发
安卓逆向工程与安全分析:保护您的应用知识产权
【4月更文挑战第14天】在数字时代,安卓应用开发者面临知识产权保护的挑战,主要源于安卓系统的开放性和逆向工程。逆向工程能揭示应用源代码,增加被盗用和安全风险。为应对挑战,开发者可采取代码混淆、加密、NDK开发、服务器端验证、定期更新和安全审计等策略。关注安全动态,利用第三方服务也是提升应用安全的重要途径。保护知识产权,确保应用安全,是开发者持续关注和努力的方向。
84 1
|
存储 安全 数据处理
隐私工程实践路径系列:PIA篇(上)
本文内容为《隐私工程实践路径》系列开篇,旨在通过笔者在数据合规与隐私保护领域的一系列实战中,总结出的理论框架+实践经验,以及隐私工程在企业落地过程中发现的重难点和针对性的解决方案。
255 0
|
存储 数据可视化 BI
隐私工程实践路径系列:PIA篇(下)技术助力
在上篇中(隐私工程实践路径系列:PIA篇(上)),我们重点讨论了PIA的定义及发展历程,以及企业在面对PIA工作中的重点及难点,本篇接下来的内容中,我们将以隐私保护专家在企业内最常面临的实际情况为例,介绍如何使用技术化手段一一化解。
157 0
|
存储 分布式计算 算法
转:如何利用素数算法加强企业文档管理软件的效能和安全性
利用素数算法来加强企业文档管理软件的效能和安全性,可是个有趣的法子。这可不只是在电影里才看得到的情节,素数算法可以在好几个方面给软件的性能和安全性添点料。下面就来看看有哪些酷炫的方式吧——
94 0
|
区块链 C++
区块链项目技术解决开发
区块链项目开发涉及多个方面,包括选择适合的编程语言、确定区块链的类型和目标定位,以及构建业务场景和进行初步分析。
|
存储 安全 搜索推荐
OushuDB 小课堂丨在快速发展的数据安全和隐私环境中为企业提供要点
OushuDB 小课堂丨在快速发展的数据安全和隐私环境中为企业提供要点
74 0
|
存储 安全 搜索推荐
OushuDB 小课堂丨快速发展的数据安全和隐私环境中的企业要点
OushuDB 小课堂丨快速发展的数据安全和隐私环境中的企业要点
76 0
下一篇
DataWorks