打开大数据研究的潘多拉魔盒

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

导语

近年来,大数据研究方法逐渐应用于社会学科领域,运用大规模用户数据,社科领域研究者得以从新的视角理解用户媒介使用习惯、语言、与情感。然而,在大数据研究不断普及的背景下,如何规范大数据研究的伦理准则,如何保证研究对象的隐私权,以及如何研究现有互联网公司的伦理问题,这些问题看似遥远,但是却直接影响大数据研究者的行为准则。此外,回答与大数据研究、实践相关的伦理问题,将有助于增加普通公众对大数据的了解。本期【大数据与社会】栏目将以案例讨论的形式梳理在大数据研究和实践中所涌现出的若干问题,解释大数据研究的潘多拉魔盒是如何被打开的,而它又将如何改变我们的生活。


作为大数据资源的管理者,社交网站拥有丰富的用户数据资源。传统意义上,网站运营者的主要角色在于提供社交平台、优化服务与产品、吸引更多用户加入。然而,在近年来出现的部分用户行为研究中,社交网站的研究人员通过大规模用户实验研究用户行为习惯超越了其传统单纯的网络运行者角色。一方面,该类研究为社会学科补充了大规模实验的实证结果;然而另一方面,用户行为实验,尤其是涉及操控用户社交媒体内容的实验,也触碰到了社交网络使用者的权利。其中,Facebook的一项关于情绪感染(emotional contagion)的实验更是引发了社会科学内部对于大数据研究伦理的广泛讨论。



Facebook情绪感染实验:关于研究伦理的争议

在《美国国家科学院》2014年6月17日院刊中,Facebook首席数据科学家亚当·卡拉默(Adam Kramer),康奈尔大学交流与信息科学学院教授贾米·古伊洛瑞(Jamie Guillory)和杰弗瑞·汉考克(Jeffrey Hancock)通过修改689,003名Facebook用户可以接触到的好友新鲜事的情绪帖研究情绪在社交媒体上的传播与扩散方式。


在为期一周的实验中(2012年1月11日-2012年1月18日),研究人员通过用户ID随机选取689,003名Facebook英语版用户,并将其分为两组。一组减少刷新好友新鲜事时显示的正面情绪帖占比,另一组则减少刷新时显示的负面情绪贴占比。


研究人员发现当好友正能量新鲜事被有意减少后,用户在发帖时会使用更多比例负面词汇和更少比例正面词汇。当减少负能量新鲜事时,则出现相反的表达方式。与此同时,研究者还发现一种退出效果(withdrawal effect):越少接触情绪性状态的人,在接下来的日子里也会减少感情流露。这项发现与此前认为“阅读朋友Facebook上正面情绪状态会带来负面影响”的观点相左,基于此发现,研究人员认为负面影响的产生原因是接触正面情绪不足所导致的。


该研究证实:情绪可以通过情绪传染(emotional contagion)的形式传递给他人,使他人在无意识中感受到同样的情绪。此外,大规模社交网络的情绪传染还证实面对面的交流和非言语上的暗示并非情绪传染的必要条件,即情绪传染可以通过社交媒体,如Facebook,经由线上社会网络进行。


然而,由于该实验过程涉及操纵用户的好友消息推送(译者注:通过推送包含积极或消极情绪的好友消息,Facebook用户被动接受了研究者处理过的信息),Facebook的实验也引发了学术界和社会对其法律和道德层面的激烈探讨。最为广泛的批评在于:被动接受负面信息的用户很有可能收到了负面情绪的不良影响,在其不知情的情况下体会到了情绪感染导致的焦虑(anxiety)。


鉴于论文发表后强大舆论批判, Facebook的数据实验团队强调,所有的数据分析全部基于计算机算法,他们没有阅读或篡改用户发布的内容,只是调整了新鲜事的排列顺序。好友的其他新鲜事和状态,在进入其个人主页后仍能看到。实验的目的旨为提升用户体验,以使用户在facebook上看到的内容更具相关性。


然而,该研究的争议性依然持续发酵,该研究的第一作者亚当·卡拉默(Adam Kramer)最终不得不在其博客中公开向Facebook用户道歉,并保证今后将不会在用户不知情的情况下进行类似实验。


对Facebook实验伦理的讨论不仅限于该个案本身,牛津大学互联网研究所教授拉尔夫·施罗德(Ralph Schroeder)撰文质疑Facebook实验背后更广泛的大数据研究伦理问题,并延伸讨论了我们应当如何应对大数据研究对公众的影响。



施罗德教授援引赫胥黎在《美丽新世界》一书中展现的在信息繁盛的文明中日渐被动、麻木的社会。借此警示:社会研究所使用的大数据,因其对数据学习前所未有的深度和广度,对我们的生活越来越有影响力。这一特质很容易会被掌握了大数据影响力的企业或机构利用,借此操纵人的好恶。


施耐德教授认为,当下热议的大数据道德问题的关键在于数据多大程度上属于用户私人数据(an essential infrastructure for citizens),假如实验者所操纵的是用户的私人数据而非公共数据,那么类似研究将不可避免地侵犯用户利益。


关于大数据研究,施耐德教授还提出了两种不同导向:第一种研究为学术导向(Academic Research),另一种则是应用导向(AppliedResearch)。两种研究都利用大数据增加对人类社会的理解,区别却在于前者意图创造可推广的知识(generalizableknowledge);后者则致力于向特定受众(particular audience)提供可应用的知识(implementing knowledge),从而影响用户决策行为。两种不同导向虽然有重合之处,但是对于我们理解研究伦理却又不同的指导意义。


按照施耐德教授的定义,Facebook研究可以归类于致力于提供可推广知识的学术导向研究,尽管涉及研究伦理及侵犯用户隐私等问题,该研究为行为科学研究提供了一定实证支持。然而,对于大数据的使用和操控的另一种导向:应用导向通常更加隐蔽,但同样威胁用户权利,甚至可能操控用户商业、政治等决策行为。


Google搜索与印度大选:搜索引擎可能操控我们的决策


罗伯特·爱泼斯坦(Robert Epstein)是美国行为研究和技术研究所(AmericanInstitute for Behavioral Research and Technology)高级心理学研究员及科学美国人心灵杂志(Scientific American Mind)的特约编辑。他也是马萨诸塞州的剑桥行为学研究中心的创始人和名誉主任。他的团队抽取了2014年印度人民议会选举最后投票前4556位中间选民,样本来自美国和印度具有有效投票资格的印度选民。


该实验使用了模拟搜索引擎,随机将被试分为不同组,每一组所接受的搜索引擎结果经过研究者设计为偏向于某个特定竞选人。在实验前后,研究被试均被问及其投票偏好(voting preferences)。通过该实验,研究人员希望发现:有倾向的搜索结果是否可以改变选民意见和偏好?如果有,将在多大程度上改变中间选民的偏好?


研究发现:1)有偏倚的搜索排名可以改变20%或更多的中间选民的投票取向;2)这种转变在某些特定人口群体中比例更高达60%;3)搜索排名的偏好可以很隐蔽,以至于人们无法意识到自己被操纵。


爱泼斯坦团队将这种现象归因于搜索引擎的操纵效应(SEME,译者注:Search Engine Manipulation Effect)。在现实选举中,很多选举都由于竞选团队实力不相上下,最终多数党以小幅优势取胜,因此,该研究的意义在于证实了:单凭对搜索结果排名的操控,一家搜索引擎公司便有实力影响选民决策、操纵竞选结果。


虽然该研究使用的是模拟搜索引擎,但是研究者希望借由该模拟结果引起公众对索索引擎操纵效应的警惕:由于当下对搜索引擎公司监管并不完善,研究者认为这些公司有可能影响,甚至已经开始影响政治选举的结果。借由操纵搜索排名偏好该公司所青睐的候选人,从而操纵犹豫不决的选民是一个极其微妙但是却行之有效的政治操纵方式。更为令人警惕的是该种操纵对于民主制度将有可能造成威胁。


有趣的是,在爱泼斯坦团队研究的过程中,谷歌并非不知情,甚至有可能派出员工参与该研究的实验中。据爱泼斯坦在接受媒体采访时介绍,当研究团队在第二个实验中从互联网招募志愿者时,两个IP地址都来自谷歌的总部。


学术界对于搜索引擎可能的操纵行为早有预警,作为互联网信息的接口,学术界对于搜索引擎未来是否会沦为政治派系斗争的工具有着诸多顾虑。


Introna和Nissenbaum撰文指出互联网具有科技和政治的二重性。一方面,互联网是科技发展的产物;另一方面,互联网作为新兴媒体,同传统媒体一样可能会遭受政治派系的影响和操控。


在搜索引擎的案例中,政治偏见的产生可能体现于搜索引擎和被搜索信息的关系里:即网页是否能够收录于搜索引擎结果中,又能够被给予怎样的排名。这两个过程中算法的不公开性都会为政治偏见的产生提供温床。从微观层面讲,大多数搜索者并不了解搜索引擎的收录和排名机制。信息的不对称使得搜索者无法做出理性的决策,他(她)们只会根据偏好或者随机进行选择。


Introna和Nissenbaum强调,搜索引擎的算法不公开和商业导向会导致其违背互联网成立之初所确立的基本原则和最初理想。网页搜索算法的重要地位使得它不应该单由市场所控制。搜索引擎是市场的市场,当人们在搜索一个特定市场时,实际上是处于信息市场当中。而搜索引擎会在信息市场中倾向于选择突出更受欢迎和金钱能力更强的网站。如果单单由市场所控制,随着互联网变得更普遍,这种偏见问题就会更尖锐。因此,两位研究者提倡在搜索引擎的市场机制以外引入其他制约机制,规范搜索引擎的运行。


结语

在学术研究领域,大数据所带来的勇敢新世界不断扩展着社会研究的边界,为研究者提供全新的视角,更大规模的样本,增加我们对人类社会结构与人类情感行为的理解。于此同时在实践与应用领域,大数据也对商业公司提供了更多的机遇,尤其是大规模的用户数据资料为企业提供了细分用户市场、剖析用户行为偏好的资源。然而,正如传统社会研究与社会应用,大数据研究与实践同样应当受伦理与法律的双重制约。当大数据的弄潮儿打开大数据的潘多拉魔盒,看到一个“勇敢新世界”(brave newworld)的同时,更应该意识到与之并存的危机。大数据不仅仅是生硬死板的数字,其背后是用户的日常生活,社会交往,甚至是情感表达。定义哪些数据是用户的私人数据,界定商业公司实践操作的边界和尺度。这些必须,也必将会成为大数据研究的重点课题之一。


原文发布时间为:2015-12-16

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
12月前
|
人工智能 分布式计算 大数据
超级计算与大数据:推动科学研究的发展
【9月更文挑战第30天】在信息时代,超级计算和大数据技术正成为推动科学研究的关键力量。超级计算凭借强大的计算能力,在尖端科研、国防军工等领域发挥重要作用;大数据技术则提供高效的数据处理工具,促进跨学科合作与创新。两者融合不仅提升了数据处理效率,还推动了人工智能、生物科学等领域的快速发展。未来,随着技术进步和跨学科合作的加深,超级计算与大数据将在科学研究中扮演更加重要的角色。
|
存储 数据可视化 数据挖掘
大数据环境下的房地产数据分析与预测研究的设计与实现
本文介绍了一个基于Python大数据环境下的昆明房地产市场分析与预测系统,通过数据采集、清洗、分析、机器学习建模和数据可视化技术,为房地产行业提供决策支持和市场洞察,探讨了模型的可行性、功能需求、数据库设计及实现过程,并展望了未来研究方向。
599 4
大数据环境下的房地产数据分析与预测研究的设计与实现
|
机器学习/深度学习 数据采集 大数据
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题一建模方案及代码实现详解
本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的题目——北京移动用户体验影响因素研究,提供了问题一的建模方案、代码实现以及相关性分析,并对问题二的建模方案进行了阐述。
285 0
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题一建模方案及代码实现详解
|
机器学习/深度学习 自然语言处理 数据可视化
基于Python大数据的京东产品评论的情感分析的研究,包括snwonlp情感分析和LDA主题分析
本文探讨了基于Python大数据技术对京东产品评论进行情感分析的研究,涵盖了文本预处理、情感分类、主题建模等步骤,并运用了snwonlp情感分析和LDA主题分析方法,旨在帮助电商企业和消费者做出更明智的决策。
479 1
基于Python大数据的京东产品评论的情感分析的研究,包括snwonlp情感分析和LDA主题分析
|
机器学习/深度学习 数据采集 大数据
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题二建模方案及代码实现详解
本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的问题二的建模方案和Python代码实现,包括数据预处理、特征工程、模型训练以及预测结果的输出,旨在通过数据分析与建模方法帮助中国移动北京公司提升客户满意度。
228 2
|
数据采集 搜索推荐 大数据
基于大数据的市场分析与消费者行为研究
【6月更文挑战第5天】大数据在市场分析与消费者行为研究中扮演关键角色。通过海量数据分析,企业能更全面、精准地了解消费者偏好和市场趋势。Python等工具帮助处理数据,揭示购买习惯,支持个性化营销策略。同时,大数据使深入理解消费者心理、决策过程成为可能,助力企业优化产品,提升客户满意度和忠诚度。在这个数据驱动的时代,大数据是洞悉市场和消费者的魔法力量。
563 2
|
SQL 分布式计算 Hadoop
[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark:Java大师的大数据研究之旅
[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark:Java大师的大数据研究之旅
339 0
|
人工智能 安全 大数据
喜报|瓴羊Dataphin入选上海市经信委2023创新攻关成果、IDC企业大数据治理研究代表产品
喜报|瓴羊Dataphin入选上海市经信委2023创新攻关成果、IDC企业大数据治理研究代表产品
275 0
|
存储 人工智能 Cloud Native
云原生大数据架构实践与思考-DataFunTalk
导读: 作者:振策-阿里云计算平台-产品解决方案, 20230805 本文将分享当前云原生大数据架构的发展历程/架构定义/核心能力/应用场景及趋势思考。主要包括以下四个部分: - 从大数据上云看架构 - 云原生数据平台的核心能力 - Data+AI with Cloud-Native - 未来趋势与思考
2769 0
|
分布式计算 Cloud Native 数据可视化
重磅报告发布,从102个开源大数据项目深度研究开源大数据技术发展!
《2022年开源大数据热力报告》,由开放原子开源基金会、X-lab开放实验室和阿里巴巴开源委员会联合出品。报告基于公开数据研究最活跃的102个开源大数据项目,探寻出开源大数据技术发展背后的“摩尔定律”。
重磅报告发布,从102个开源大数据项目深度研究开源大数据技术发展!

热门文章

最新文章