今日工资到账8美元?!AI行业剥削严重,ImageNet仅4%数据标记工人收入过最低线

简介: 今日工资到账8美元?!AI行业剥削严重,ImageNet仅4%数据标记工人收入过最低线

尽管随着AI的普及,我们在生活中越来越依赖于人工智能,但“人工智障”的相关调侃也从来没有消失过。

相信大家都知道,如果我们想要让AI准确识别出图中的鸟,我们需要在数据集中手动将这些照片标记为鸟,然后让算法和图像之间产生关联性的判断识别。

要是小规模的实验性数据还好,一旦遇到那种规模多达数百万个的标记需求,个中消耗的时间真是难以想象。

俗话说,哪里有需求,哪里就有市场。

根据普林斯顿大学、康奈尔大学、蒙特利尔大学和统计科学研究所的联合调查,研究者们发现,这项标记工作大部分是由欧美国家以外的来自全世界各地的工人共同完成的。

论文中指出,类似数字经济公司Samasource等会大量雇佣来自撒哈拉以南非洲和东南亚的廉价工人,让他们完成这些枯燥的工作,每天给他们支付8美元的薪水,同时这些公司每年能够收入上千万美元。

论文链接:
https://arxiv.org/pdf/2102.01265.pdf

为ImageNet工作的工人只能拿到2美元时薪

由于许多深度学习技术需要大量的数据来训练模型,数据标签的需求也日渐增加,超过80%的机器学习开发过程包括数据的收集、清洗和标签等工作。

对于Uber和Alphabet等大型科技公司而言,这些服务显得更为重要。

但是,当我们换个角度,尽管这些工人正在为当前最热的人工智能行业做出贡献,这些系统最终可能并不会直接惠及到他们所在的社区,更令人唏嘘的是,不少系统可能会对他们的种族或性别等产生带有偏见的判断。

比如ImageNet,这个大型公开的图像数据集可以说是人工智能历史上影响力最大的数据集之一了。

研究者指出,为ImageNet标记的工人只能拿到2美元的时薪,只有4%的工人时薪超过了美国联邦最低工资标准的7.25美元。

同时,由于ImageNet是使用WordNet进行注释的,根据一项名为“ImageNet Roulette”的实验指出,如果人们将照片提交给由ImageNet训练出来的神经网络,该神经网络将使用数据集中的标签来描述这些。

但当人们在系统中输入的是他们最感兴趣的照片:自拍时,软件会输出一些种族主义和冒犯性的标签来进行描述。

虽然数据标签不像传统工厂劳动那样耗费体力,但不少工人们报告表示,他们的任务速度和数量是“令人疲惫”和“单调”的,因为他们必须严格按照客户的规格要求来标记图像、视频和音频。

“幽灵工人”无谈判立场,基本权益也难以被保障

近几年,在全球南部,不少本土科技公司大量涌现,比如肯尼亚的Fastagger、南非的Sebenz.ai和马来西亚的Supahands。随着人工智能发展不断扩大规模,这些公司的扩张也为低技能劳动者进入劳动力市场打开了大门,但相关的劳动剥削行为也仍然在发生着。

研究者们将这些数据标记工人称为“幽灵工人”(ghost worker),因为外界往往看到的只是一个系统的高识别率,而忽略了这些工人为训练数据集做出的劳力工作。

研究者们提出,在美国,这种低工资结构很大程度上是由于花在没有补偿的活动上的时间,比如从事一项最终会被拒绝的任务。

这就引出了Amazon Mechanical Turk这样的平台在权力动态上的另一个问题。我们就以该平台为例,在这个平台上,所有的权力都集中在任务的请求者那边,请求者有权力设定他们预计的价格,这个价格可以低至0.01美元,同时请求者还可以回绝工人已经完成的工作,并声称该项任务所需的时间远远少于工人们花费的时间。

在美国,处于这种工作中的标记工人往往被认为是独立承包商而非雇员,因此《公平劳动标准法》所保障的保护措施并不能在他们身上适用。

讨论美国的相关情况只是因为这些数据是最容易获取的,在全球范围内,更糟糕的劳工现象只会更多。

“流水线”工人正在成为企业的竞争力

2018年,BBC记者Dave Lee走访了生活在肯尼亚贫民窟的标记工人,也发现了相同的问题。

根据报道,生活在Kibera的单身母亲Brenda每天的工作内容就是把大多数的图像数据处理成计算机能够理解的形式。

比如说,在一张上传的照片上,Brenda需要用鼠标跟踪出现的物体,包括人、车辆、路牌、车道、天空,还要特别说明是晴朗的还是阴霾的天空。把数百万张这样的输入到人工智能系统中,对于自动驾驶汽车这类产品而言,就能够提高系统的识别准确率。

Brenda的工作环境也绝称不上友好。她和所有的同事都挤在狭小的办公室里,整个工作她必须紧盯显示屏、放大图像,防止标错哪怕是一个像素。

上级人员会检查他们的工作,如果没有达到要求,还需要返工。

当然奖励也是有的,速度最快、准确率最高的标记员的名字会出现在办公室多台电视机屏幕上,以兹鼓励。当然他们最喜欢的,还是商场的购物券。

Samasource是他们最大的雇主,根据首席执行官Leila Janah表示,公司能够与谷歌等科技巨头建立合作关系,除了准确性和安全性之外,还有一个原因是他们拥有全球最廉价的劳动力,并且当地人迫切需要稳定的工作。

当时,Samasource给出的日薪是9美元,他们希望借此帮助到那些日薪低于2美元、还需要从事地下工作的人。

“确实,它有很高的成本效益”,Janah说,“但我们工作中的一个关键点在于,我们不会提供可能破坏当地劳动市场的薪酬水平。如果我们给出的薪酬过高,我们会给整个社会带来麻烦。比如,可能会对我们员工所生活的社区的住房成本、还有食物成本等带来潜在负面影响”。

在论文中被提及的另一组织Masakhane,该组织致力于通过AI保护非洲语言。值得注意的是,Masakhane不会为AI研究者们标记数据,而是建立了一个为非洲大陆标记、研究和构建算法的社区。

官网上写道:“我们建议将AI开发视为经济发展的前进之路”,“此开发活动不应专注于低生产率活动,例如数据标记,而应专注于高生产率活动,例如模型开发/部署和研究”。

最后,论文指出,对于这种现象,潜在的解决方案是将这些数据标记器简单地集成到AI开发过程中,而不是让他们作为流水线工人为每个图像进行标记来赚钱。如此,工人会获得公平的薪水,况且得益于他们的生活经验和专业知识,数据收集过程中的差异也能被很好的发现并解决,系统的整体准确率也将得到提升。

相关文章
|
2月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
2月前
|
人工智能 关系型数据库 分布式数据库
拥抱Data+AI|“全球第一”雅迪如何实现智能营销?DMS+PolarDB注入数据新活力
针对雅迪“云销通App”的需求与痛点,本文将介绍阿里云瑶池数据库DMS+PolarDB for AI提供的一站式Data+AI解决方案,助力销售人员高效用数,全面提升销售管理效率。
|
2月前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
86 6
|
22天前
|
人工智能 安全 DataX
【瓴羊数据荟】 Data x AI :大模型时代的数据治理创新实践 | 瓴羊数据Meet Up城市行第三期
第三期瓴羊数据Meetup 将于2025年1月3日在线上与大家见面,共同探讨AI时代的数据治理实践。
87 10
【瓴羊数据荟】 Data x  AI :大模型时代的数据治理创新实践 | 瓴羊数据Meet Up城市行第三期
|
3天前
|
传感器 机器学习/深度学习 人工智能
智能电网巡检与传感器数据AI自动分析
智能电网设备巡检与传感器数据分析利用AI技术实现自动化分析和预警。通过信息抽取、OCR技术和机器学习,系统可高效处理巡检报告和实时数据,生成精准报告并提供故障预判和早期识别。AI系统24小时监控设备状态,实时发出异常警报,确保设备正常运行,提升运维效率和可靠性。
|
22天前
|
存储 人工智能 人机交互
PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化
PC Agent 是上海交通大学与 GAIR 实验室联合推出的智能 AI 系统,能够模拟人类认知过程,自动化执行复杂的数字任务,如组织研究材料、起草报告等,展现了卓越的数据效率和实际应用潜力。
126 1
PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化
|
8天前
|
传感器 机器学习/深度学习 人工智能
技术分享:智能电网巡检与传感器数据自动分析——AI助力设备状态实时监控与故障预警
这篇文章介绍了AI在智能电网巡检与传感器数据分析中的应用,通过信息抽取、OCR识别和机器学习等技术,实现设备状态监控和故障预警的自动化。AI系统能够高效处理巡检报告和传感器数据,精准识别设备故障并实时预警,显著提升了电网运营的安全性和可靠性。随着AI技术的发展,其在智能电网管理中的作用将日益重要。
|
1月前
|
存储 机器学习/深度学习 人工智能
【AI系统】完全分片数据并行 FSDP
本文深入探讨了AI框架中针对权重数据、优化器数据和梯度数据的分布式并行实现,特别是在PyTorch框架下的具体方案。文章首先回顾了通用数据并行和分布式数据并行的概念,重点讨论了同步与异步数据并行的差异。接着,文章详细介绍了如何在PyTorch中实现弹性数据并行,特别是完全分片数据并行(FSDP)的机制,包括其如何通过分片模型状态和剩余状态来减少内存消耗,提高训练效率。此外,文章还探讨了混合精度训练、损失缩放和内存消耗估算等关键技术,为理解和实施高效的分布式训练提供了全面的指导。
69 9
【AI系统】完全分片数据并行 FSDP
|
15天前
|
存储 数据采集 算法
构建AI数据管道:从数据到洞察的高效之旅最佳实践
本文探讨了大模型从数据处理、模型训练到推理的全流程解决方案,特别强调数据、算法和算力三大要素。在数据处理方面,介绍了多模态数据的高效清洗与存储优化;模型训练中,重点解决了大规模数据集和CheckPoint的高效管理;推理部分则通过P2P分布式加载等技术提升效率。案例展示了如何在云平台上实现高性能、低成本的数据处理与模型训练,确保业务场景下的最优表现。
|
1月前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】数据并行
数据并行是一种在分布式AI系统中广泛应用的技术,通过将数据集划分成多个子集并在不同计算节点上并行处理,以提高计算效率和速度。在大规模机器学习和深度学习训练中,数据并行可以显著加快模型训练速度,减少训练时间,提升模型性能。每个计算节点接收完整的模型副本,但处理不同的数据子集,从而分摊计算任务,提高处理速度和效率。数据并行按同步方式可分为同步数据并行和异步数据并行,按实现方式包括数据并行、分布式数据并行、完全分片的数据并行等。其中,分布式数据并行(DDP)是当前应用最广泛的并行算法之一,通过高效的梯度聚合和参数同步机制,确保模型一致性,适用于大型NPU集群和AI系统。
116 7
【AI系统】数据并行

热门文章

最新文章