《浙江大学译美国白宫”大数据“白皮书.pdf》全部译文共61页,回复“白宫报告”可获得全文。仅供网友学习参考,不得用于商业用途。
今年五月,美国白宫发布了大数据白皮书《大数据:抓住机遇、保存价值》,在全球引起了广泛关注。这份调查报告旨在鼓励使用数据以推动社会进步,特别是在市场与现有的机构并未以其他方式来支持这样的进步的领域,与此同时,美国也需要相应的框架、结构与研究,来帮助保护他们的核心价值观念。互联网产业研究主要从报告中关于医疗、教育与个人隐私保护三个方面进行解读。报告指出预测医学的兴起将是大数据在健康领域的终极运用;同时探讨在线教育如何确保学生的隐私不受侵犯等问题;在保护个人信息方面,美国技术轨迹正在转向采集、使用和储存对消费者和个人并没有直接联系的数据。
大数据与医疗保健服务
数据一直是医疗保健服务中的一部分。在过去的几年中,议会出台了相关法案来鼓励医疗保健服务供应商使用电子病历,这极大地提高了可供临床医生、研究者与病人使用的数据量。随着《患者保护与平价医疗法案》(“Affordable Care Act”, ACA)的制定,医疗保险的偿付机制正开始从相互分隔、具有潜在不协调性的“按服务收费”(“fee-for-service”)模式转变至基于更佳健康状况的付费模式。总而言之,这些趋势正在帮助形成一个“学习型”医疗保健系统,在此系统内,临床数据将迅速反馈给患者并指导治疗有效进行。
大数据可以确定饮食、运动、预防护理和其他生活方式因素对健康的影响,使得人们不必向医生寻求医疗保健意见。大数据分析能够帮助确定临床治疗、处方药剂以及公共卫生干预对于特定或广泛群体的效果,并对传统研究方式提供参考。从支付角度来看,大数据能够保证给患者提供治疗的医生有优秀的临床记录,同时,治疗的费用根据患者的康复效果而非治疗本身的次数确定。
预测医学的兴起是大数据在健康领域的终极运用。这项强大的技术可以同时深入解析一个人的健康状况与遗传信息,使医生更好地预测特定疾病在特定个体上是否可能发生,并预测患者对于特定治疗方式的反应。与此同时,预测医学提出了许多复杂的问题。传统意义上,健康数据的隐私政策都力求在临床信息被分享与分析的同时保护相关患者的个人身份信息。而逐渐地,基于特定群体或人群的数据将在临床症状出现前或出现后不久被用于确定疾病的类型。
但是,预测医学挖掘出的信息所带来的风险将超出单一个体,一旦出现差错,不仅遗传信息提供者本人,他的孩子以及未来的后代等拥有与他相似遗传信息的人都将会受到牵连。因此,将基因组数据与医疗保健数据相连接的生物数据库便成为了个人隐私在医学研究与治疗领域中的无法回避的前沿话话题。
目前的隐私框架在不久前才包括了正在使用的健康信息,这一框架或许不能很好地解决上述发展带来的问题并推动相关研究的进行。运用大数据来改善健康状况需要先进的分析模型来摄取包括生活方式、基因组、医疗与财务数据在内的多种信息。生活方式与健康状况之间的紧密关系意味着个人数据与医疗保健数据之间的界限已经开始模糊。而这些类型的数据却收到不同的、有时甚至是相互冲突的联邦和各州政府的监管,其中包括《健康保险便利和责任法案》(“Health Insurance Portability andAccountability Act”, HIPAA)、《金融服务法现代化法案》 (“Gramm-Leach-Bliley Act”, GLBA)、《公平信贷报告法案》(“FairCredit Reporting Act”, FCRA)与《联邦贸易委员会法案》(“Federal Trade Commission Act”, FTCA)。当数据的来源多种多样时,同时遵守多个法律带来的复杂性随之增加,与此同时,医疗机构还会与不受上述法律约束的许多组织相互勾结,形成一整套利益链条,各种个人健康信息被一系列企业共享,甚至于州政府会违背消费者对个人医疗数据隐私保护的意愿而出售其相关数据。在此情况下,针对医疗保健领域的大数据部门的设立也就成为了迫切之需,此举同时有望进一步降低行业成本并激发发展潜力。
尽管医学技术不断变化,但健康数据仍然是我们生活中非常私密的部分。在大数据使得较之以往任何时候都更为强大的发现成为可能的同时,重新审视相关信息被所有医疗保健机构共享后的隐私保密方式也显得相当重要。医疗保健行业的领导者已经呼吁构建一个更为广泛的信用框架,使得不同来源、不同隐私保密程度的健康数据得以汇聚。这一框架需要附加《健康保险便利和责任法案》与《反基因歧视法》 (“Genetic Information Non-DiscriminationAct”, GINDA)中的隐私保护条款,并同时设计标准化数据结构以提高其跨平台适应性。在研究了健康信息技术后,总统科技顾问委员会得出以下结论:国家需要建立统一的数据标准与结构使不同类型的数据记录可以在受到控制的条件下方便访问。
在医疗数据保密框架逐步跟进技术发展的过程中,需要全美医疗保健与保险的供应商之间细致协商,而这份努力,将为未来的国民经济与公民健康的福祉奠定基础。
对学习的研究:大数据与教育
如今,上到大学,下至幼儿园,众多科技帮助并提升了学生在课内外的学习过程。获取学习资料、观看授课视频、评价教学活动、进行团队合作、完成家庭作业、参加课程考试,这一切都可以在互联网上完成。
这些基于科技进步的工具与平台给予了学生与教师更多的可能性。仅需数代的革新,这些工具就能提供实时的评估来使学习资料能够按照学生的接受速度来进行演示。不仅如此,教育技术还能扩大受教育人数、增进学生间的互动并使教学内容的持续性反馈成为可能。
除了个性化的教育,新的数据类型的运用使得研究者对于学习行为的研究能力有了质的飞跃。从大规模开放在线课堂等基于科技的学习平台上获取的数据可以被精确跟踪,借助这些数据,我们能够进行对远超传统教育方式的探索,对学生学习轨迹的移动进行更为准确与广泛的研究。具体包括:深入了解学生在学习活动中的接收效果,根据不同的学习目标,选择合适的学习资料,并进一步地运用这些数据帮助那些处于相似状况的学生。目前,教育部正在研究如何运用这些科技,并已开始整合国家教育技术计划下在线教学平台所产生的数据,并计划成立虚拟学习实验室,为进一步的研究提供方法论上的指导。
教育领域的大数据革命同时也带来了一些亟待解决的问题:随着科技日益深入课堂教学,我们如何最好地确保学生的隐私不受侵犯。一方面,各州与本地社区历来都是教育的主要提供者;另一方面,大量的在线学习工具与课程都是由盈利性企业提供。这就导致了在谁有权获得线上教育平台产生的数据及这些数据应当如何被使用的问题上备受争议。对于这类教育记录,《家庭教育权和隐私法案》(“Family EducationalRights and Privacy Act”, FERPA)、《保护学生权利修正案》(“Protection of Pupil Rights Amendment”, PPRA)和《儿童在线隐私保护法》(“Children’s OnlinePrivacy Protection Act”, COPPA)中的相关条文在使用过程中都会遇到相应的挑战。
在大数据时代保护儿童的隐私
今天的孩子们是从识字前就接触数字设备的第一代人。在美国,青少年是移动应用与社交平台上的活跃用户。当他们使用这些科技时,关于他们的精确数据,其中一些甚至包含敏感信息,就在网络上被存储与处理。这类数据既包含能够大幅度提升孩子的学习效果并为其开启全新机遇的可能性,但同时,也可能在他们成人时形成一份入侵型的消费者个人信息,或通过其他方式对他们之后的生活产生影响。
虽然年轻人一般与成年人一样乃至更加清醒地意识到数据会被商业机构与政府部门使用,但他们的数据还是会经常地受到父母、老师、大学招生人员、军队征兵人员与社会工作者的审查。他们中的弱势群体,包括寄养儿童与无家可归的年轻人,他们通常没有得到成年人的指导因而特别容易遭受数据滥用与身份盗窃。在强有力的监视之下,年轻人苦苦寻找保护他们隐私的方法,即使他们无法限制别人对于分享内容本身的获取,许多年轻人仍然尝试着用多种方式将所分享内容的含义变得模糊、晦涩,使得只有特定的对象才能理解其中的意思。
因为年轻人是那么的年轻,他们需要适当的自由来探索与尝试而不至于因一时的疏忽在日后受到挥之不去的侵扰。儿童在线隐私保密法要求网站运营商与移动应用开发者在收集低于13周岁的儿童的个人信息时必须征得其父母或监护人的同意。而现在,我们对于儿童正在遭受什么“伤害”以及怎样的政策框架才能确保他们伴随技术成长是一种促成而不是阻碍都还没能得出一个确定的结论。
与医疗保健一样,青少年在与数字教育平台的交互中表现出的部分数据是极其私密的个人信息,这些数据包括对于特定学习方式的偏好和他本人相对于其他学生的表现。它甚至能够分辨出有学习障碍或注意力无法长时间集中的学生。根据学生在一天内的上线与在线时间,他个人的生活习惯甚至都可以被获知。教育机构应当如何使用这类数据来改善学生的学习机会?对于使用这些平台的,特别是处于基础教育阶段的学生,他们如何能够保证自己的数据是安全的?
为了回答关于这些数据的所有权与恰当使用方式的复杂问题,教育部于2014年2月公布了针对在线教育服务指南。指南明确指出,只有满足《家庭教育权和隐私权法案》与《保护学生权利修正案》中规定的具体要求,学校或学区才可以才能够与第三方机构签订涉及学生数据的协议。随着越来越多的线上学习工具和服务可以为孩子们所使用,州与地区政府也正密切地关注着这些问题。学校与学区以未来合法的教育效益为目的共享受到保护的学生信息,并且在分享的过程中必须对这些信息保持“直接控制”。即使在这新的指导之下,如何在大数据世界中最好地保护学生隐私仍必须是一个持续的议题。
当局正致力于解决这些问题,并通过教育部加以实施,来使得所有的学生在享受大数据在教育与学习上带来的创新效益的同时免于受到其潜在威胁所带来的伤害。正如教育部长阿恩·邓肯(Arne Duncan)所说:“学生数据必须是安全且珍贵的,无论它存储在何处,它都不是一种商品。”这意味着必须确保学生的个人信息与在线活动不受到不恰当的使用,尤其当这些信息是在教育环境下被收集的。
大数据与隐私
以物联网为工具的大数据打破了许多私人空间。家中的无线网络信号(WiFi)中可以显示出屋中的人数及其位置,也可通过采集功耗数据来显示出你在屋中的移动。 当你走出房间时,在线面部识别技术也可以将你从图像中识别出来。始终开启的有音频和视频接口的可穿戴设备以及整个物联网设备的出现只会产生越来越多的信息采集量。在合法使用的传感器的海洋中,限制信息采集是一个巨大的挑战,几乎是不可能的。
这种无处不在的信息采集是由大数据技术本身性质所决定的。无论是产生模拟信号还是数字信号,数据都被重复使用着,并且以前所未有方式结合,这便激励着更多的数据采集。数据的潜在价值推动着“土地战”,机构的重点也转向尽可能多的采集和利用数据。公司不断地发掘他们已有的数据,同时寻找他们需要的数据来提高其市场地位。当今世界,数据存储的成本已经大幅下降,同时仍具有尚无法预测的未来创新潜力,所以采集尽可能多的数据是至关重要的。
大数据的另一个现实就是,数据一旦被采集,就很难保持提供者的匿名性和隐私性。虽然有研究希望在大数据的采集中模糊个人识别信息,或重新标识“无名氏”的信息。融合数据技术集资要比隐私保护技术方便许多。
总之,这些趋势要求我们关注四十年中,告知与同意框架是如何为隐私保护提供支持的。在结构性过度采集的技术中,重新鉴定要比识别功能更强大,并将重点放在了信息的采集和保存上,个人的隐私就没有那么受关注了。总统委员会科学技术的顾问说:“告知与同意框架已经被大数据所带来的正面效益打败了,大数据所带来的是新的、并非显而易见但十分强大的使用价值。
预测大数据变革的下一篇章
对于现在绝大多数的普通交互来说,告知与同意框架充分保护了隐私。但是总统委员会的科技顾问表示,技术轨迹正在转向采集、使用和储存对消费者和个人并没有直接联系的数据122。假若该框架被违背,比如由我们的家庭设备采集的数据,我们则需要重新关注数据的使用,这一政策转向正在被专家、学者广泛讨论 123。数据的使用情况是极为重要的,它对社会有利有弊,如“双刃剑”一般。
负责任地使用政策框架会带来许多潜在优势。将责任从个人转移到采集、保存和使用数据的实体,由于个人在目前市场中的位置,他们并不能很好地理解和抗争告知和同意框架。关注于使用责任制,也可以使数据的采集者和使用者对数据的管理及其可能产生的危害负责,而不是狭隘地将其责任定义为是否通过正常途径采集数据。
更多地关注责任并不意味着忽视收集的环境。对数据负责,一方面就是要尊重原始数据的采集。实际上,如同在消费者隐私权法案所阐述的尊重环境原则,这一规则并不令人惊讶。虽然数据的收集不能立即用在就业上,但技术的发展正在向这个方向转变。先进的数据标记技术可以已采集和用户授权使用的信息细节进行编码,从而使许可使用的信息可以一直跟随着数据。若是该技术得到良好发展和广泛使用,即使不能解决大数据中所有的问题,也可以用于应对一些关键挑战。
或许最为重要的是,为了更负责地使用大数据,我们应该将关注的重点放到如何平衡大数据所带来的效益和对隐私以及其它由于大数据采集信息的不可避免性而受到危害的价值。我们是否应该制定规则,不能在任何环境下使用没有得到使用授权的数据,即只使用得到使用授权的数据?对于医学研究中为了治愈癌症而使用的数据,和商业营销中对消费者的广告定位而使用的数据,我们应该如何区分和界定它们?
正如奥巴马总统在人权消费者隐私条例草案的发布会上所说,“尽管我们生活在一个能够比过去更自由地共享个人信息的世界,但我们必须坚决否认隐私价值已经过时。”隐私“从一开始就一直是我们的民主制度的心脏,而现在,我们比以往的任何时候更需要它。”这在利用大数据的时代更是如此。
结论与建议
大数据变革正处于其最初阶段。我们需要数年才能理解其完整的技术内涵、其对健康、教育、经济的强化作用,及更为关键的是,它对美国核心价值观的影响,包括隐私权、非歧视、自我决定权。
即使是在当下大数据变革的早期,本评估报告的作者仍认为重要的结论已然出现,即大数据可以从多个领域的层面告知当局者该如何迈出下一步。特别是以下五个方面,它们将引发美国关于在大数据世界如何最大化利益和最小化危害的全民讨论。
保护个人隐私的价值:在美国以及全球协作的隐私保护体系中,通过在市场上对个人信息的保护来维护个人隐私的价值
稳定/持续负责的教育:要认识到学校(尤其是 K-12)是使用大数据以提升学习机会的重要领域,同时也要对个人数据的使用进行保护,强化数位素养和技术
大数据与歧视:防止大数据使用过程中可能带来的新的歧视方式
执法和安全保障:在执法过程、公共安全、国家安全中,确保大数据的合理负责使用
数据公共资源化:将数据作为公共资源,用于提升公共服务,投资于能够推动大数据革命的科学研究
政策建议:
本评估报告还指出了六条值得政府及时关注并制定相应政策的建议,分别为:
1 改进消费者隐私权力法案:
商务部应当采取咨询手段,来征求利益相关者与公众对大数据发展及其是如何影响消费者隐私权法案的意见,然后制定立法文本草案供利益相关者审议,并向国会提交
2 通过关于国家数据外泄的立法:
国会应当通过立法,沿袭当局 2011 年 5月的网络安全立法建议,制定一套国家统一数据外泄标准
3 将隐私保护扩展至非美籍人士:
管理和预算办公室应与各部门和机构协作,在可行领域将1974 年隐私法应用于非美籍人士,或制定可替代的隐私政策,应用于各种国籍的人士,以对其个人信息进行合适、有意义的保护
4 确保对在校学生的数据采集只被用于教育目的:
联邦政府必须通过法规确保学生的数据恰当共享或使用,尤其针对几种在同一个教育环境下的数据
5 发展技术以阻止歧视:
联邦政府首席公民权利和消费者保护机构应当发展技术专长,识别通过大数据分析而对受保护阶层产生歧视性影响的做法和结果,并制定调查和解决方案
6 修正电子通信隐私法:
国会应当修正电子通信隐私法,以确保对在线数字内容的保护标准与现实所提供的相一致,包括去除未读的或留存一定年限以上的邮件中因超时而产生的差别
保护个人隐私的价值
大数据技术正在推动巨大的创新,同时也产生了新的隐私问题,其影响远远超出了当下备受关注的线上广告问题。这些影响使我们在未来的隐私保护中急需一个更具广泛性的国家审核模式,包括 2012 年发布的政府的消费者隐私权利法案。相对于传统的告知与同意模式,即专注于采集数据之前获得的用户许可,对其进行重新审核是尤为重要的。虽然在许多情况下,告知与同意仍作为一种基本模式存在,但如今,我们需要做出判断,在大数据环境下,更侧重于数据的使用和重复使用的研究方式是否会成为使隐私权管理更为高效的基础。或许,建立一种使个体参与到其个人数据采集后的使用和分配问题的机制,将会是更好的授权方法,以使人们能够从其个人信息中获利。隐私保护的方式也必须不断发展,以适应大数据所带来的社会效益。
推进消费者隐私权利法案
正如 2012 年 2 月奥巴马总统所明确的那样,消费者权利法案和与消费者隐私相关的蓝图代表了“一种动态模型,使得在新的信息技术条件下,提供强大隐私保障、推动创新”消费者隐私权利法案为基于公平信息实物准则。一些隐私专家相信,这些原则在一些细微处有足够的灵活性以解决和支持数据的新兴用途,包括大数据。但其他人对此并不太确信,尤其是技术人员,因为不可否认的是,大数据确实挑战了当下一些支撑隐私框架的关键假设,尤其是在采集和使用上。值得考虑的是,在告知和同意模式的背景下,大数据的发展该如何可行地保护隐私,以及存在哪些实际限制。
建议:商务部应当立即征求公众意见,针对消费者隐私权利法案如何在支持大数据创新的同时,又对其风险作出反应,以及如何负责地使用框架,就像第五章所阐述的那样,包含在消费者隐私权利法案确立的框架之内。根据评价过程,商务部应当制定立法文本草案供利益相关者审议,并向国会提交。
原文发布时间为:2014-05-30
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号