大数据利益相关者的利益矛盾及其伦理治理

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

2013年是大数据元年,大数据时代的到来,已给我们的生产、生活、学习与工作带来了前所未有的变革,同时也带来了许多的挑战。在一切皆可数据化的新历史条件下,数据成为了最宝贵的资源,通过循环往复的数据挖掘和二次利用,隐藏在数据中的巨大价值正在不断地被挖掘与利用。2014年荷兰学者Andrej Zwitter撰文Big Data ethics(《大数据伦理》)指出:“这里有三类大数据利益相关者(Big Data stakerholders):大数据搜集者(Big Data collectors),大数据使用者(Big Data utilizers)和大数据生产者(Big Data generators)。”在这数据搜集、存储、挖掘、预测与利用的过程中,大数据利益相关者难免会出现这样或者那样的利益矛盾,有必要从伦理视角进行相应地治理,特别是在法律规范相对滞后的前提条件下,实现数据共享的健康运行,最终促进大数据时代的顺利发展。

一、大数据利益相关者的利益矛盾分析

作为利益矛盾共同体的大数据利益相关者,在一切皆可数据化的条件下,应该共同利用大数据技术,挖掘和享有数据的巨大价值。虽然总体而言他们的目标是一致的,都是为了占有与享有大数据蕴藏的巨大价值,但是在总体的共同目标之下,他们又是带着各自独特目标的,特别是在大数据技术还没有全面普及的情况下,由于利益分配不均而导致的诸种利益矛盾将无法避免。

按照Andrej Zwitter的理解,大数据搜集者是按照特定目标来决定搜集和保存哪些数据以及保存多长时间。显然大数据搜集者的目的并不是为了搜集而搜集,为了存储而存储,之所以要搜集与存储,就是要利用数据进而占有和享有其中的巨大价值。正因为是带着特定目标来搜集和存储相关数据,所以必然会导致有所选择。而这样的结果就是,所搜集和存储的数据相对于某一特定目标而言是整体而全面的,但是相对于其他目标则不尽如此了。因此,特定目标直接影响了数据的整体性与全面性。换句话说,大数据搜集者只能搜集和存储与某一特定目标紧密相关的数据,并想要以此来实现这一特定目标。但是,特定目标最终能否实现还要依赖于大数据使用者。

大数据使用者主要是利用大数据技术对已搜集和存储的数据进行挖掘、预测和利用。他们可能是带着特定目标来进行的,也可能是毫无目标的。大数据使用者才是真正的大数据技术掌控者。由于大数据使用者拥有独特的技术优势,完全有可能导致数据在挖掘、预测和利用中偏离大数据搜集者的初衷,因为数据能够不断地被二次利用与挖掘。因此,如果大数据使用者在数据挖掘、预测和利用中产生了超出大数据搜集者本来目标的新价值,那么该如何分配,是共享还是独享?特别是由于技术优势的存在,大数据搜集者可能根本就不知道原来搜集和存储的数据产生了怎样的新价值。当然,如果大数据搜集者和大数据使用者是同一群体的话,就不存在这样的问题。问题的关键在于很难真正实现二者合二为一,因为大数据搜集者是带着特定的目标来搜集和存储的,他们仅仅能够在实现某一目标的过程中既是大数据搜集者,也是大数据使用者,但是数据的二次利用呢?因此,大数据搜集者和大数据使用者很难实现完美合一,总是处于矛盾地合作中。

如果说大数据搜集者和大数据使用者处于利益矛盾之中是因为无法实现利益最大化的话,那么大数据搜集者、大数据使用者和大数据生产者之间的利益矛盾则是如何实现伤害最小化了。相比较而言,大数据生产者一直处于最被动地位。因为大数据生产者每时每刻都自觉与不自觉地生产着数据。在大数据时代,一切皆可数据化,大数据生产者的一言一行都必将以数据的形式存在。这就导致了大数据生产者根本就无法知道哪些数据被搜集和被存储以及存储了多长时间,并且根本就不知道自己生产的数据在何种目的的作用下被挖掘、预测与利用,更不可能知道自己生产的数据在被挖掘、预测和利用了之后将对自己产生怎样的影响。因此,对于大数据生产者而言,只要不对自己产生消极影响就足够了,根本就无法想象还能从中获取本属于自己的价值。如此看来,大数据生产者和大数据搜集者、大数据使用者也必然处于利益矛盾状态:对于大数据搜集者和大数据使用者而言肯定是要尽可能多地搜集、存储、挖掘、预测和利用大数据生产者的数据,这就不可避免地会对大数据生产者产生消极影响,例如对隐私(Privacy)、机密(confidentiality)、透明(transparency)、身份(identity)和自由选择(free choice)等构成了威胁;对于大数据生产者而言,由于处于被动地位,只希望自己的利益能够得到有效保护,将伤害降到最低限度;如果伤害一旦产生,则希望能够得到相应的补偿,包括物质的和精神的。

综上分析,由于分工的不同和地位的差异,大数据利益相关者必然处于利益的尖锐矛盾之中。其根本原因就是数据价值很难实现按比例恰当分配:大数据搜集者与大数据使用者难以实现利益均沾,大数据搜集者、大数据使用者与大数据生产者则是利益与伤害不均等。

二、大数据利益相关者的利益矛盾表现

从大数据搜集者与大数据使用者之间的角度来分析,如果是在某一特定目标作用下进行数据的搜集、存储、挖掘、预测和利用的话,那么到底应该按照何种比例来分配数据的巨大价值呢?或者说,到底是数据搜集与存储重要呢,还是数据的挖掘、预测和利用重要呢?这就需要做到具体问题具体分析,在数据的搜集、存储、挖掘、预测和利用之前必须确定相应的比例以避免矛盾的出现。但是到底应该如何确定比例呢,特别是在此过程中如果又产生新价值呢?因此,即使是在同一目标作用下,确定了利益分配的比例,也难免会出现这样或者那样的纠纷。

如果不是在某一特定目标作用下进行的话,情况就更加复杂了,利益矛盾就可能更加尖锐。由于数据可以不断地被二次利用和预测,大数据使用者就能够从中挖掘出源源不断的新价值。在某一个特定目标实现之后,数据并不会因此而消失,而是能够源源不断地发现新的价值,即能够不断地实现不同的目标。这样,大数据搜集者与大数据使用者处于分裂状态将是必然。相对于大数据搜集者而言,当某一目标实现了之后,搜集与存储起来的数据就可能处于闲置状态,不会考虑其中的新价值。但是相对于大数据使用者而言,这些数据并不会因为某一特定目标的实现而被删除掉,更何况根本就无法删除,正如维克托·迈尔-舍恩伯格(Vikor Mayer-Schǒnberger)所言:“数字技术已经让社会丧失了遗忘的能力,取而代之的则是完善的记忆。”因此,必然会产生源源不断的新价值。这个新价值该如何分配呢?由于不是在某一特定目标下进行的,大数据搜集者可能根本就不知道自己搜集与存储的数据被用作他途,这就不仅无法在进行数据挖掘、预测与利用之前确定相应的利益分配比例,甚至大数据搜集者根本就不知道产生了什么新价值,要共享其中的利益谈何容易。如果长此以往,矛盾必然持续爆发。

有利益分配必然就有责任承担问题。在数据的搜集、存储、挖掘、预测和利用的过程中肯定会产生各式各样的责任,最典型的问题就是对大数据生产者的隐私保护。一旦在此过程中对大数据生产者产生了侵犯隐私的消极后果,那么该如何承担这一责任呢?肯定不能仅仅由大数据搜集者或者大数据使用者承担。如果是在某一特定目标下进行,也许会相对好一点,就由他们共同承担(当然也涉及到责任的比例划分问题);如果不是在某一特定目标下进行的呢?对于大数据搜集者而言也许处于“无知”状态,是否也需要承担由大数据使用者造成消极影响而形成的责任呢?

从大数据搜集者与大数据生产者之间的角度来分析,首先是大数据生产者根本就无法共享利益。如前所述,由于大数据生产者在大数据利益相关者共同体中一直处于被动状态,可能根本就不知道自己的一言一行已形成数据而被大数据搜集者所搜集与存储。要和大数据搜集者共享其中的价值根本就无从谈起。如此看来,好像大数据搜集者与大数据生产者基本上不会出现什么利益矛盾。但是一旦大数据搜集者在搜集与存储数据时,对大数据生产者造成了诸如隐私泄露等伤害,二者之间的利益矛盾就必然爆发。

其次,是二者之间的伤害不对等。数据在搜集和存储的过程中基本上不会对大数据搜集者构成什么伤害,但是如果没有遵循诸如保密原则等职业伦理准则,那么就会对大数据生产者造成持久的伤害。这个不对等地位也必然会导致二者之间处于紧张的利益矛盾状态。

再次,是涉及由于二者之间利益矛盾而导致的对大数据生产者的利益补偿问题。这就涉及如何进行补偿以及补偿的比例等问题,难免会出现利益纠纷。

最后,是数据再利用的利益矛盾问题。如果是在为了实现某一特定的公共目标且征得了大数据生产者同意的情况下,大数据搜集者进行了相应数据的搜集与存储,那么当这一特定目标实现了之后就涉及到数据的删除问题。但是由于数据无法删除,难免会被用作他途而导致对大数据生产者产生伤害。在这种情况下,二者也难免会出现各式各样的利益矛盾。因此大数据搜集者和大数据生产者也必将处于尖锐的利益矛盾之中。

从大数据使用者与大数据生产者之间的角度分析,他们之间的利益矛盾表现不仅与大数据搜集者和大数据生产者之间的利益矛盾表现相一致,还有自己的独特表现。第一是数据的新价值无法共享。由于数据能够持续不断地二次利用,进而获得源源不断的巨大新价值。这些新价值不仅大数据搜集者难以实现与大数据使用者共享,而且大数据生产者根本就无法与大数据使用者共享。因为大数据使用者到底是带有怎样的目标来持续二次利用数据也只有他们本人才清楚,对于大数据生产者而言只能“任人宰割”,因为他们基本上处于“无知”状态。

第二是产生持续伤害。在数据的二次利用中难免会对大数据生产者产生诸如隐私侵犯等伤害,并且这个伤害是随着数据的不断二次利用而对大数据生产者构成持续伤害,而将会产生怎样的伤害以及伤害多大,对于大数据生产者而言是无法预估的。

第三是必将导致大数据生产者要实现必要的补偿显得异常艰难,甚至无法实现。在自己生产的数据完全无法控制且不断被二次利用的前提条件下,大数据生产者根本就无法估量将对自己产生怎样的伤害以及产生多大的伤害,要实现必要的补偿就显得极其艰难,也许一个伤害得到了相应的补偿而下一个伤害又接踵而至,使大数据生产者处于循环往复的深渊之中。因此,大数据生产者与大数据使用者也处于紧张的利益矛盾之中。

总之,在大数据时代条件下,大数据利益相关者处于利益矛盾之中是有其必然性的。

三、大数据利益相关者的利益矛盾的伦理治理

为了协调好大数据利益相关者之间的利益矛盾,有必要进行相应的伦理治理,以实现数据共享的有序进行,进而实现大数据时代的顺利发展。因此,需要对大数据利益相关者制定出相应的伦理原则。

相对于大数据搜集者和大数据使用者而言,应该遵循如下原则:

原则一:授权。只要情况许可,无论是大数据搜集者还是大数据使用者在搜集、存储、挖掘、预测和利用数据时都必须得到大数据生产者的授权,如果采用秘密或者非法的手段进行,必将造成难以估量的伤害。没有得到对方授权而进行的数据搜集、存储、挖掘、预测和利用等行为本身就是不道德的,应该被谴责。这是进行数据搜集、存储、挖掘、预测和利用的前提原则。

原则二:告知。在搜集、存储、挖掘、预测和利用数据时必须告知大数据生产者其中的目标与用途,将产生怎样的巨大价值以及将产生怎样的消极影响。如果将产生重大的消极影响,那么大数据搜集者和大数据生产者将采取什么样的预防措施;如果对大数据生产者产生了伤害,又将采取什么样的补偿措施这些都必须告知大数据生产者。这样才能够实现在大数据利益相关者之间和谐有序地进行数据共享。

原则三:保密。在具体的数据搜集、存储、挖掘、预测和利用的过程中必须实现保密,特别是涉及到大数据生产者隐私的情况下必须采取匿名化技术处理措施,保证大数据生产者不会因为自身数据在共享过程中被非法盗取而产生不必要的伤害。这是保证大数据生产者权益不受到伤害的重要伦理原则。

原则四:自律。自律是大数据搜集者和大数据使用者必须努力养成的基本道德原则。大数据搜集者和大数据使用者必须在数据搜集、存储、挖掘、预测和利用的过程中养成良好的道德自律,保证符合最起码的道德规范和准则。当然,这是一个长期的过程,不是一天两天就能够实现,但是无论如何都应该养成良好的道德自律。

原则五:责任。这要求大数据搜集者和大数据使用者必须承担责任。按照著名技术哲学家汉斯·林克(Hans Lenk)的观点:在任何情况下,任何技术力量的强大都会导致某种系统的反弹,导致生态失衡,这其中的根本原因就是我们在利用技术时没有承担相应的责任。这就要求大数据搜集者和大数据使用者必须在努力实现数据价值的同时,勇于承担起相应的责任,特别是在产生消极后果的时候,否则大数据利益相关者之间的利益矛盾将永远无法得到圆满解决。

原则六:利益。利益原则就是要实现利益最大化。利益最大化不能仅仅从自身进行考量,更重要的是要从大数据利益相关者视角来实现。即既要实现大数据搜集者利益最大化,也是实现大数据使用者的利益最大化,更为重要的是要实现大数据生产者的利益最大化。这样才能真正有助于大数据利益相关者的利益矛盾解决。

原则七:伤害。有利益最大化就必然有伤害最小化,这对于大数据生产者而言具有特别重要的意义,也是解决大数据利益相关者利益矛盾的关键所在。绝不允许把实现利益最大化建立在导致伤害最大化的基础上,或者是建立在部分人伤害最大化的基础上。结合前面的论述,原则七的关键是要实现大数据生产者的伤害最小化。

原则八:补偿。大数据技术和以往的技术一样必然具有双刃性,在给我们带来巨大价值的同时,也不可避免地带来了消极影响。要真正利用好大数据技术,对其产生的消极影响绝对不能视而不见,更不能推波助澜,应该采取积极的补偿措施,避免伤害的扩大化。这是大数据技术产生消极影响的重要补救措施。

相对于大数据生产者而言,则应该遵循如下原则:

原则一:转变观念。“大数据的核心就是预测。”在大数据时代,基本上每一个人都是透明的,因为“大数据能读懂过去、预测未来”。这就要求大数据生产者必须转变观念,积极保护自己生产的数据,而不能像原子时代一样,对自己的生产出来的数据无动于衷。如果继续这样下去,大数据生产者就会出现人性危机,对隐私、机密、透明、身份和自由选择等等产生威胁。因此,大数据生产者必须时时刻刻关注自己的一言一行,关注自己生产的数据,估量这些数据将产生怎样的消极影响。而不是想当然地认为这些数据不会对自己的未来产生任何影响。

原则二:自我保护。由于大数据生产者处于被动地位,这就要求他们增强自我保护意识,积极拿起相应的法律道德武器来保护自己的合法权益,使其免受侵犯;当自己的合法权益受到侵犯时,要敢于拿起相应的法律道德武器与之斗争,并积极争取相应的精神与物质补偿。总之,大数据时代里大数据生产者的自我保护意识与行为不能停留在原子时代,而应该积极适合大数据时代的发展需要而变得更为主动与积极。

原则三:注重数据。数据被誉为是大数据时代的取之不尽用之不竭的“石油”,数据中蕴藏着无法估量的巨大价值,我们所能看到的价值仅仅是数据价值的冰山一角。而这些数据主要都是由大数据生产者生产。这就要求大数据生产者更加注重自己所产生的数据,特别是不能让这些数据用于非法用途而给整个社会带来消极影响。需要特别指出的是,大数据生产者应该积极关注数据权。

原则四:利益与伤害。大数据技术是一把双刃剑,既有积极的作用,也有消极的影响。因此,对于大数据生产者而言,必须努力实现数据价值的最大化和伤害的最小化。虽然大数据生产者很难与大数据搜集者、大数据使用者实现利益均沾,但是大数据生产者应该积极地参与到数据利益的分配中,特别是在数据能够成为商品的条件下。同时,在此过程中必须实现伤害最小化。

原则五:寻求补偿。在受到伤害时,大数据生产者应该积极寻求精神与物质的补偿。这是实现伤害最小化的一个补救措施,也是在伤害已经产生的条件下应该采取的一个重要措施。这种补偿不仅是物质补偿,更为重要的是精神补偿。


本文作者:陈仕伟

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
8天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
42 1
|
7天前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
34 2
|
5月前
|
数据采集 监控 大数据
大数据时代的数据质量与数据治理策略
在大数据时代,高质量数据对驱动企业决策和创新至关重要。然而,数据量的爆炸式增长带来了数据质量挑战,如准确性、完整性和时效性问题。本文探讨了数据质量的定义、重要性及评估方法,并提出数据治理策略,包括建立治理体系、数据质量管理流程和生命周期管理。通过使用Apache Nifi等工具进行数据质量监控和问题修复,结合元数据管理和数据集成工具,企业可以提升数据质量,释放数据价值。数据治理需要全员参与和持续优化,以应对数据质量挑战并推动企业发展。
1436 3
|
6月前
|
存储 SQL 分布式计算
闲侃数仓优化-大数据治理和优化
闲侃数仓优化-大数据治理和优化
68 0
|
6月前
|
存储 数据采集 算法
大数据平台治理——运营的角度看数仓
大数据平台治理——运营的角度看数仓
53 0
|
5月前
|
存储 分布式计算 DataWorks
MaxCompute产品使用问题之dataworks仅支持maxcompute上面的数据治理吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6月前
|
数据采集 存储 监控
大数据治理:确保数据质量和合规性
【5月更文挑战第30天】大数据治理涉及数据分类、访问控制和质量监控,以确保数据安全和合规性。企业需保护个人隐私,防止数据泄露,并遵守各地法规,如GDPR和CCPA。技术实践包括数据加密、匿名化和严格访问控制。管理策略则强调制定政策、员工培训和法律合作。全面的数据治理能保障数据质量,驱动组织的创新和价值增长。
234 0
|
6月前
|
存储 SQL 分布式计算
大数据平台治理资源成本化
大数据平台治理资源成本化
88 0
|
6月前
|
算法 大数据 数据挖掘
python数据分析——大数据伦理风险分析
大数据伦理风险分析在当前数字化快速发展的背景下显得尤为重要。随着大数据技术的广泛应用,企业、政府以及个人都在不断地产生、收集和分析海量数据。然而,这些数据的利用也带来了诸多伦理风险,如隐私泄露、数据滥用、算法偏见等。因此,对大数据伦理风险进行深入分析,并采取相应的防范措施,对于保障数据安全、维护社会公平正义具有重要意义。
150 0
|
6月前
|
存储 监控 大数据
数据仓库(11)什么是大数据治理,数据治理的范围是哪些
什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战。最基础的调整也是大数据的计算和管理,数据治理是一个特别重要的大数据基础,他保证着数据能否被最好的应用,保证着数据的安全,治理等。那么数据治理到底能治什么,怎么治?
156 0