从安全和隐私的角度来看,大数据与其他传统数据不同,需要不同的方法。但是可以扩展许多现有的方法和实践,以支持大数据的安全和隐私模式。
一、为什么大数据的安全和隐私与传统数据不同
从表面上看,大数据似乎与传统数据有着类似的风险和暴露。然而,在以下几个关键领域,情况却截然不同:
更多的数据意味着在数据泄露事件中暴露的风险更高。
更多的实验性使用意味着组织的治理和安全规程不太可能到位,特别是在测试和部署的初始阶段。
新的数据类型正在揭示新的隐私含义,几乎没有隐私法律或指导方针来保护这些信息。例如,用于监测电力使用的联网家庭和数字电表(eMeters)、广播物理位置的手机信标、医疗、健身和生活方式跟踪器等健康设备以及跟踪汽车位置的远程信息数据。
其他数据的公开。有安全风险的增加不仅仅暴露隐私数据,而且数据根据合规规定如巴塞尔协议II,健康保险流通与责任法案(HIPAA),支付卡行业数据安全标准(PCI DSS),和《萨班斯-奥克斯利法案(SOX),和关键的公司内部信息,如智力资本(软件、算法等等)。
不成熟的市场。Hadoop的许多领域仍在发展。
数据连接和合并敏感数据。将多个数据源组合在一起的行为可能会导致意外的敏感数据公开,通常是在缺乏意识的情况下。例如,拉塔尼亚·斯威尼博士在1997年进行的一项研究,仅通过出生日期、性别和邮政编码,就能将个人与美国人口普查进行匹配,从而识别出87%的个人。
匿名化生产数据。大数据的大部分价值在于揭示不需要识别个体的模式。因此,组织越来越多地使用匿名化和去标识来删除单个标识符,同时仍然从数据中获得实用价值。
二、信息安全定义
根据美国国家标准与技术研究院(NIST)的定义,信息系统安全,也被称为INFOSEC或ISS,定义为“为了提供机密性、完整性和可用性,保护信息和信息系统不受未经授权的访问、使用、泄露、中断、修改或破坏。”
下面主要介绍与数据保护相关的安全性。大数据环境中需要考虑的其他安全领域还包括用户和应用程序级别的安全性。信息安全的两个驱动因素包括遵从命令和防范入侵和破坏。
安全框架可以在规划大数据安全实现方面使用。安全框架提供了一组首选实践、操作标准和控制,以指导组织评估漏洞、规划和实现安全计算,并减少数据和系统入侵的风险。
这些框架指定了信息安全管理系统(ISMS)的基础。
目前有几种安全框架在使用,例如信息和相关技术的控制目标(COBIT)、NIST和国际标准组织(ISO 27000)。在这三个标准中,ISO 27000是唯一包含公司认证标准的框架。它在本质上也是可跨国使用的。值得注意的是,尽管ISO 27000为安全策略、资产管理、加密和访问控制指定了标准,但它并没有专门处理数据安全性本身。相反,安全框架通过用户身份验证和职责分离等控制来支持数据安全。检查您的组织,以更好地了解它使用的框架,以及数据安全的现有标准、策略和过程。同时,确保你了解你的组织的主要遵从性需求,如巴塞尔协议II、PCI、HIPAA和SOX。关于ISO27000的更多信息,可以访问以下网站:http://www.27000.org/。
三、数据隐私的定义
国际隐私专业人士协会(IAPP)将数据或信息隐私定义为“个人、团体或机构自行决定何时、如何以及在何种程度上将其信息传达给他人的权利主张。
世界各地的隐私法都是由各种法律法规拼凑而成的。大多数包含一组被称为公平信息实践原则(FIPPs)的共享原则,用于管理信息的通知、选择和同意、收集、使用、访问、处理和程序管理。
以下是大数据从业者需要遵循的三个关键原则,主要包括:
1. 选择和同意意味着个人有权选择加入或退出数据收集。
2. 收集和使用限制个人信息的收集仅用于指定的目的。
3.保留和处置(数据最小化)规定,数据只能在需要的时候保留,之后再进行处置。
您可以看到这三个原则对大数据的潜在影响,因为您收集和存储的信息只应用于您的隐私通知中指定的用途,并仅在需要时保留。向您的隐私办公室或法律顾问咨询,了解您组织的隐私政策,因为它们构成您关于如何管理和保护敏感数据的决策的基础。
1、什么是敏感数据
一般来说,敏感数据是任何识别个人的信息。这些数据可以是你的姓名、地址、物理特征、位置、电子邮件地址,也可以是你手机的唯一标识符。敏感数据的定义因国家甚至地区而异。例如,在欧洲联盟(EU)中,敏感数据的定义要宽泛得多,并扩展到工会成员甚至政治信仰等标识符。基本上,任何有关已识别或可识别个人的资料,均被视为个人资料。敏感数据的两大类别是个人身份信息(PII)和个人健康信息(PHI), PII在美国以外也被称为个人信息。除了上面描述的PII示例外,个人健康信息通常与HIPAA相关,包括与个人健康、状况和治疗相关的任何信息。保护数据的第一个步骤是了解组织的隐私策略,然后确定组织内哪些内容被认为是敏感的。
2、隐私运营结构
当您采取技术措施来保护信息时,了解这些活动在隐私业务实践(通常由隐私办公室管理)中的位置是至关重要的。下面是对操作结构、框架、成熟度模型和隐私生命周期的简要描述。在这些实践中,我们强调与技术大数据从业者相关的领域。
(1)隐私框架
隐私框架是FIPPS的扩展,由一组指导方针组成,这些指导方针管理敏感信息的创建、使用、共享、处理和程序管理的隐私策略。框架为隐私程序提供了结构和实现路线图。主要框架包括美国加拿大注册会计师/注册会计师协会(AICPA /亚信论坛)公认的隐私原则(新闻出版总署)、经济合作与发展组织的隐私准则(经合组织(欧盟))4,隐私设计(PbD),亚太经济合作组织(APEC), ISO / IEC 29100:2013,和加拿大的个人信息保护和电子文件法(PIPEDA)。咨询您企业的隐私或法规遵循办公室,以更好地了解您的组织使用的框架。
(2)隐私成熟度模型
评估组织在保护大数据方面的准备情况的一个有用工具是AICPA/CICA的隐私成熟度模型,它与AICPA/CICA隐私框架紧密一致。成熟度模型指定了73个标准和5个成熟度级别,它们由10个框架原则中的每一个原则组织起来。五个成熟度级别的范围从特别的到优化的,有定期的审查和反馈。在实施大数据私隐管制时,应特别考虑以下范畴:
1.2.3:个人信息识别和分类;
1.2.4:风险评估;
:1.2.6基础设施和系统管理;
3.2.2: 用于新的目的和用途;
4.2.4:关于个人的信息;
8.2.1:信息安全项目。
(3)隐私操作生命周期
IAPP定义了一个隐私操作生命周期,描述了管理数据隐私的四个主要步骤以及每个步骤下的活动
这个生命周期,如下图所的框架,用于将操作活动与隐私目标结合起来。生命周期中有四个阶段:评估、保护、维持和响应。尽管一些步骤和活动是在业务和组织级别上实现的,但是对于技术从业者来说,理解他们在流程中的角色是很重要的。
1)评估:在这第一阶段,评估组织的隐私成熟度级别,确定隐私差距在关键业务领域,关于他们的隐私实践和评估第三方合作伙伴。有关这些行为的更多信息,可以参见以下网站的IAPP隐私计划管理手册。
2)保护:保护阶段是隐私和安全计划的核心,包括以下活动:
-进行私隐影响评估
隐私影响评估(PIA)是一种工具,它可以识别将要使用的个人或敏感信息的类型,确定安全风险的级别,并识别用于减轻风险的解决方案。
PIA通常采用高级问卷的形式,在应用程序或数据主题领域的基础上执行,涵盖隐私的所有方面,例如持有什么数据、谁拥有访问权、数据共享、数据质量、维护和管理控制。它还可能包括一个数据目录。通常,在隐私或安全办公室的协助下,应用程序或业务数据所有者负责领导评估。
-进行风险评估
风险评估是评估和记录与保留敏感数据相关的风险的过程。它通常遵循PIA。风险评估通常也是为了安全而进行的,而且更加全面。
-创建数据清单
数据目录记录所持有的信息,包括特定的细节,如数据元素名称、位置,并特别指出敏感信息。因为组织已经定义了敏感数据的策略,所以这个阶段的大部分工作是了解数据的位置、格式,并以结构化的格式表示信息,例如报告,然后可以使用该报告实现隐私和安全技术控制。
在大数据环境中,有一些工具可以帮助您完成此过程。对于结构化数据,例如数据仓库,一些工具可以识别和分类敏感信息,例如PII和PHI。在半结构化和非结构化Hadoop文件中,可以搜索文件系统,以识别嵌入的敏感信息。例如,机器数据日志可能包含电子邮件地址、IP地址和主机名。
-实施数据安全控制
在这个活动中,可以采取步骤来减少泄露,并且可以从节介绍的各种技术解决方案中进行选择。数据安全控制可以采取多种形式。例如,用户和角色级别的安全性可以指定对特定文件和文件系统的访问级别控制。应用程序级安全性可用于隔离信息,并仅向具有授权凭证的用户显示特定的窗口、报告或结果。
掩蔽:在测试环境中,敏感数据可以被混淆和掩蔽,以最小化暴露的风险。掩蔽技术用看起来真实的虚拟数据替代真实数据,因此数据实用程序在很大程度上得以保留。掩蔽也可以应用于去识别个体,同时为分析目的保留数据的统计完整性。
加密:加密是另一种解决方案,可以用来打乱敏感数据,这样只有经过授权的用户才能看到明文信息,而其他人只能看到一串数字和字母,使原始来源模糊不清。加密是数据保护策略中的一个关键元素,因为它可以在出现安全漏洞时提供PII“安全港”。美国许多州和国家都有加密安全港法律,规定如果PII数据加密,且加密密钥随数据一起泄露,则不需要披露违约情况。
一些司法管辖区还在其数据保护法律中指定加密作为一种保护技术,如内华达州和马萨诸塞州,以及有国家数据加密法律的国家,如英国数据保护法、欧盟数据保护指令、韩国PIPA和南非IPA。一些工具使用数据加密安全服务器集中管理、管理和控制策略、密钥和对未加密数据的访问。
数据/数据库活动监视:监视数据库和Hadoop文件系统数据,防止未经授权的数据访问,在更改或泄漏时提供警报,以帮助确保数据完整性,自动化遵从性控制,并保护免受内部和外部威胁。持续监视和实时安全策略应该保护整个企业的数据,而不改变数据库或应用程序或影响性能。
-实现数据生命周期控制(数据生命周期管理,也称为信息生命周期治理)。
信息生命周期治理,也称为数据生命周期管理(DLM)或信息生命周期治理(ILG),是一个用于管理从需求到退役的数据的框架。“数据收集”的具体含义是,以一种在法庭上站得住脚的方式处理数据,其中包括记录数据保留和处置的政策,证明数据以一种保留原始格式信息的方式保留,并证明数据以一种可验证的数据处置审计跟踪存在的方式销毁。处理数据的三个原因:
•政策:法律、法规和公司政策。
了解到法规和公司政策决定了数据的处理,您必须确保政策同样适用于大数据。
隐私法通常规定数据最小化,只在需要的时候和为了指定的目的而保存数据。ILG的退役或数据处理方面是一个与大数据相关的有趣案例。由于大数据的经济性使得存储大量信息更加经济和可行,因此人们倾向于只“存放”数据,以备不时之需。使用数据转储方法处理大数据意味着该组织可能违反隐私法规,并使自己面临进一步的法律或监管行动。
•违约风险
保留过多数据的风险会增加。一旦发生数据泄露,大量数据被曝光的可能性将大大增加。最后,如果一个组织保留的数据超过了法律规定的保留期限,如果出现了法律问题,这些信息的持有者就有法律义务提供这些信息,从而使这些信息面临更大的财务风险,比如集体诉讼或罚款。
数据保留难题有两种解决方案:
•处理掉它。
•在PII的情况下,去识别或匿名化。
3)维持:在此阶段,实施隐私程序的持续活动,例如监视和审计。维持阶段还包括非技术方面,如沟通隐私计划和政策,并进行教育和意识。监视通常是指IT控制。然而,在这种情况下,隐私组织也参与监视法规和监视组织和业务流程控制。
支持大数据维持阶段的控制包括对关键事件的数据使用监视和审计,如登录、对象创建、谁在运行MapReduce作业以及哪些数据作业正在访问。一些工具提供了监视和审计Hadoop数据使用和更传统的数据存储中的数据使用的功能。使用工具可以实现Hadoop数据活动监视,并创建一个安全的、详细的、可验证的用户和活动的审计跟踪,包括特权用户和文件或对象的创建和操作。通过这样做,您可以获得涉及敏感数据的集群活动的可见性,即谁、什么、何时以及如何进行。监控还为您提供了针对可疑活动的实时警报和异常检测,这对于防止入侵至关重要。工具还要集成审计遵从性的业务流程,包括将报告分发给适当的人员进行签名和审查,以及根据审计要求保留和签名报告。
4)响应:在隐私操作生命周期的最后阶段,响应信息和遵从性请求,并计划事件响应和事件处理。尽管此阶段的大部分内容与业务流程保持一致,但您可以看到IT和IT安全性也发挥了作用。例如,法规遵循请求可以包括生成审计报告。
四、安全和隐私如何交叉应用
你可以有没有隐私的安全,但你不能有没有安全的隐私。安全性是管理人员、流程、应用程序和用户的广泛而全面的基础,而隐私是专门用于保护个人信息的。良好的安全实践支持有效的隐私实践。
1、大数据的启示和建议
在大数据项目的信息治理中,有完整和持续的目标是很重要的,同时要从一个小项目开始,以获得经验。增量式进展有助于展示信息治理和协作的价值,以确保您满足所有遵从性和安全性/隐私目标。在大数据环境中成功的关键是在影响点管理治理,并使用多种互补的方法来保护关键数据。不同类型的数据有不同的保护要求,因此组织必须采取全面的方法来保护信息,无论它在哪里。这一方法包括下列项目:
了解数据的存在。组织无法保护敏感数据,除非他们知道这些数据在哪里,以及它们在整个企业中是如何关联的。
保护敏感数据,结构化和非结构化。必须保护数据库中包含的结构化数据,防止未经授权的访问。文档和表单中的非结构化数据需要隐私策略来编辑(删除)敏感信息,同时仍然允许共享所需的业务数据。
保护非生产环境。非生产、开发、培训和质量保证(QA)环境中的数据必须得到保护,同时在应用程序开发、测试和培训过程中保持可用。
保护和持续监视对数据的访问。企业数据库、数据仓库和文件共享需要实时洞察,以确保数据访问受到保护和审计。需要基于策略的控制来快速检测未经授权的或可疑的活动,并向关键人员发出警报。此外,必须保护数据库和文件共享免受新威胁或其他恶意活动的攻击,并持续监视弱点。
监督合规性通过审核。仅仅制定一套全面的数据安全和隐私保护方法是不够的;组织还必须证明遵从性,并向第三方审计人员证明这一点。
2、适合目的的安全和隐私
信息通过企业系统和部门流动,就像商品通过物理供应链流动一样。原材料转化为产品;石油是精制。数据也必须细化。技术和架构必须变得更加动态,并允许信息以业务的速度流动。由于技术的限制,放置数据可能成为企业信息流的瓶颈。大数据模式打破了旧技术和方法的限制,让企业能够更快地做出反应,变得更有竞争力,并推动更高的商业价值。大数据探索解决了每个组织所面临的挑战,即如何从大量的新来源和传统来源中获取过多的信息,从而获得新的价值。
五、安全和隐私在大数据的应用
大数据的使用和采纳分为三个阶段。每个阶段都对应于治理过程中的一个阶段,也符合隐私生命周期:
1. 探索阶段(评估):确定要一起呈现的原始数据或用于进一步的下游加工。
2. 准备和治理阶段(评估和保护):这个阶段发生在集成和信息治理方面,包括概要分析、识别风险、确定所需的集成和处理,并生成元数据。
3.消费阶段(维持/反应):一个应用程序是否为决策提供一个统一的联邦数据视图,一个360度视图的客户,或者流分析,当应用程序被认为是创造价值和用于商业决策、治理方法必须到位,连同适当的衡量标准。深度防御是保护数据的关键原则,无论是大数据还是传统数据。您的安全实现的强度取决于它最薄弱的环节。
(1)探索阶段
正如Privacy by Designprinciples所描述的,安全性和隐私方法必须适合开发生命周期的业务使用和阶段。在最初的大数据探索阶段(如下图所示),主要目标是识别有用的数据,并使所有重要和高价值的数据可用。通过将原始数据保存在发现区域,您可以为关键用户提供初步的探索和分析,并满足治理原则:以尽可能快的速度移动信息,同时保持质量尽可能高、安全性尽可能高。
在探索阶段,大数据挖掘的关键是在进一步处理之前确定价值和使用的目标,如标准化、匹配、细化、移动、下游摄入或降落。
这类初步工作必须在隔离的着陆区进行,只有少数经过授权的个人可以访问数据。因为还没有评估这些原始数据的有用性,所以还没有对信息进行分类,以确定消费阶段的适当安全和隐私控制。
探索阶段:安全和隐私风险
由于允许在初始评估中使用任何和所有原始数据,因此初始勘探阶段的风险最大。在某些情况下,原始数据可能会产生最深刻的见解,例如欺诈检测和实体分析,它们基于一个共同的数据元素将看似不相关的个体联系在一起。原始数据也可以从其他来源获取,并放置在信息摄入和操作信息区域。
在这个不受管理的区域,几个安全和隐私风险是显而易见的:
-违反暴露敏感数据的风险:因为你还没有确定敏感数据在哪里,很容易看到,探索性的过程,使用客户或PII人力资源数据可能包含,如姓名和地址。因为大数据通常意味着更大的信息量,潜在的罚款和惩罚可能会非常大增加了。当数据元素组合时,组合或链接数据源可能会暴露敏感信息,例如将telematics位置信息与姓名和地址组合,在这种情况下,也可能出现额外的暴露。
-普通的旧“坏”数据:使用未经审查的外部数据源(如产品评论)存在风险。对于新的数据源,验证源和沿袭非常重要。验证可能包括使用“嗅探测试”进行分类,例如值范围和事务大小。分配“信任”或验证排名在衡量源的准确性方面也可能很有用。还可以将它与另一个数据源进行比较。“糟糕”的数据会带来隐私风险,因为它可能会导致影响个人的不准确决策,比如信誉。
尽管该图指定了“很少的安全问题”,但由于上面提到的原因,这并不意味着“没有安全问题”。人们普遍认为原始数据中存在未知的风险。这里必须应用一个简单的“明智”测试,以便如果数据源涉及客户、员工、财务数据或智力资本,那么应该使用基本的安全和隐私控制,比如用户id和安全密码,并限制对特定人群的访问。如果主题领域存在高风险,还可以添加其他控制,如文件系统加密和活动监视,一个较好的做法建议是对隔离区实施基本控制。
默认情况下,对隔离区应用一套商定的基本控制可以确保无论数据源是什么,风险都会降低。当主题区域已知时,您可能会考虑执行基本的隐私影响和安全风险评估。
(2)准备和管理阶段(评估和保护)
在此阶段,您将完成数据源并准备使用它们。首先,您必须了解数据源、它的“信任因素”、数据上下文和含义,以及它如何映射到其他企业数据源。您还必须确定是否要操作(并保留)特定的数据源,以及存放数据的区域,即Hadoop、数据仓库等。作为这一过程的一部分,同时进行PIA和安全风险评估是至关重要的。在确定主题区域包含私有或具有特定安全需求的信息之后,必须完成以下步骤:
1. 库存和分类敏感数据。主要是对敏感数据进行编目和分类。
2. 在您的安全、隐私和遵从性组织的协助下,识别并匹配法律、契约和组织的数据保护需求。
3.为每个分类确定保护标准。同样,您的组织应该定义所需的保护级别。例如,所有的信用卡号码必须按照PCI DSS进行加密。
4. 找出差距并制定补救计划。
下面是对敏感数据进行盘点和分类的示例:
在此示例中,您将识别任何数据元素,并定义与安全和隐私相关的敏感信息相关的元数据。有效的数据隐私始于一份概述数据隐私策略的目的、责任和参与者的协议。并非所有资料都必须以相同方式受保护;有些数据可能被认为风险较低,不值得花费时间和精力来保护它。第一步是定义敏感数据,但定义它不仅仅是一个IT函数。跨职能团队,包括市场营销、销售、业务线(LOB)、运营和IT,应该一起创建定义。高价值的数据,如设计规范或公司机密,可能不需要法律授权的保护,但组织肯定希望通过严格的控制来保护它。团队应该根据业务优先级决定保护哪些数据。我们的目标是明确界定监管授权必须保护的内容。下面的问题提供了一个示例,说明了在定义阶段的这一部分应该注意的事项。
通过回答以下问题来定义敏感数据:
视为敏感数据是什么?
PII的成分是什么?
高风险的定义是什么数据或公司机密数据?
哪些数据是受法律规定和什么不是吗?
哪里敏感数据复制整个企业的大数据环境?
敏感数据是与第三方共享或外包测试、开发、或QA工作吗?
谁有一个有效的业务需要知道敏感数据?
他是一个权威的数据隐私术语和关系字典,适用于整个企业。业务术语表旨在跨企业进行访问,它定义了用于构建企业数据隐私策略的术语。所有员工都可以使用这个中央源来对敏感数据进行标准定义,这有助于消除反动流程和猜测。
一个好的经验法则是,任何客户、人力资源、财务数据或智力资本都需要信息清单。
考虑数据源识别的这些因素以及加载到大数据环境的影响:
理解数据的生成和性质的组织的业务/企业价值和风险。如果数据源是文档化的和来源的,那么信息和风险的价值可以被考虑到库存中。
个人数据源不理解或的性质对组织的业务/企业价值和风险不了解。必须对这种情况进行调查,以便将信息和风险的价值计入存货。
多个数据源与链接的组合,以关联不同的数据源,为组织提供业务/企业价值和风险。
为了说明这种情况,这里有一个虚构的金融公司,它最近从一个大数据沙箱发展到一个试点,并意识到需要调查和验证是否有任何敏感信息分散在数据/数据库节点上。如果发现,必须对数据进行识别和分类,并将结果提供给分析和审查。在企业环境中,此过程中的协作至关重要,因为有许多应用程序数据所有者,而且数据源可以跨越这些应用程序边界。在提供访问之后,就不需要向本地存储库中包含的数据或内部或外部传递的数据(数据是共享的)迈进一大步。
(3)消费阶段(维持)
在最后一个阶段,大数据应用程序集成到业务中,期望提供业务价值。从这个意义上说,你可以把这看作是“生产模式”。所有控制都已就绪,包括监视以确保满足安全性、遵从性和隐私需求。在此阶段,您将根据目标来度量实现进度。您需要考虑哪些指标对于度量成功最有用。对于一个安全项目,它可能是被监视的关键系统的数量与整个系统的数量、敏感数据元素的数量,等等。