今日工资到账8美元?!AI行业剥削严重,ImageNet仅4%数据标记工人收入过最低线

简介: 今日工资到账8美元?!AI行业剥削严重,ImageNet仅4%数据标记工人收入过最低线

尽管随着AI的普及,我们在生活中越来越依赖于人工智能,但“人工智障”的相关调侃也从来没有消失过。

相信大家都知道,如果我们想要让AI准确识别出图中的鸟,我们需要在数据集中手动将这些照片标记为鸟,然后让算法和图像之间产生关联性的判断识别。

要是小规模的实验性数据还好,一旦遇到那种规模多达数百万个的标记需求,个中消耗的时间真是难以想象。

俗话说,哪里有需求,哪里就有市场。

根据普林斯顿大学、康奈尔大学、蒙特利尔大学和统计科学研究所的联合调查,研究者们发现,这项标记工作大部分是由欧美国家以外的来自全世界各地的工人共同完成的。

论文中指出,类似数字经济公司Samasource等会大量雇佣来自撒哈拉以南非洲和东南亚的廉价工人,让他们完成这些枯燥的工作,每天给他们支付8美元的薪水,同时这些公司每年能够收入上千万美元。

论文链接:
https://arxiv.org/pdf/2102.01265.pdf

为ImageNet工作的工人只能拿到2美元时薪

由于许多深度学习技术需要大量的数据来训练模型,数据标签的需求也日渐增加,超过80%的机器学习开发过程包括数据的收集、清洗和标签等工作。

对于Uber和Alphabet等大型科技公司而言,这些服务显得更为重要。

但是,当我们换个角度,尽管这些工人正在为当前最热的人工智能行业做出贡献,这些系统最终可能并不会直接惠及到他们所在的社区,更令人唏嘘的是,不少系统可能会对他们的种族或性别等产生带有偏见的判断。

比如ImageNet,这个大型公开的图像数据集可以说是人工智能历史上影响力最大的数据集之一了。

研究者指出,为ImageNet标记的工人只能拿到2美元的时薪,只有4%的工人时薪超过了美国联邦最低工资标准的7.25美元。

同时,由于ImageNet是使用WordNet进行注释的,根据一项名为“ImageNet Roulette”的实验指出,如果人们将照片提交给由ImageNet训练出来的神经网络,该神经网络将使用数据集中的标签来描述这些。

但当人们在系统中输入的是他们最感兴趣的照片:自拍时,软件会输出一些种族主义和冒犯性的标签来进行描述。

虽然数据标签不像传统工厂劳动那样耗费体力,但不少工人们报告表示,他们的任务速度和数量是“令人疲惫”和“单调”的,因为他们必须严格按照客户的规格要求来标记图像、视频和音频。

“幽灵工人”无谈判立场,基本权益也难以被保障

近几年,在全球南部,不少本土科技公司大量涌现,比如肯尼亚的Fastagger、南非的Sebenz.ai和马来西亚的Supahands。随着人工智能发展不断扩大规模,这些公司的扩张也为低技能劳动者进入劳动力市场打开了大门,但相关的劳动剥削行为也仍然在发生着。

研究者们将这些数据标记工人称为“幽灵工人”(ghost worker),因为外界往往看到的只是一个系统的高识别率,而忽略了这些工人为训练数据集做出的劳力工作。

研究者们提出,在美国,这种低工资结构很大程度上是由于花在没有补偿的活动上的时间,比如从事一项最终会被拒绝的任务。

这就引出了Amazon Mechanical Turk这样的平台在权力动态上的另一个问题。我们就以该平台为例,在这个平台上,所有的权力都集中在任务的请求者那边,请求者有权力设定他们预计的价格,这个价格可以低至0.01美元,同时请求者还可以回绝工人已经完成的工作,并声称该项任务所需的时间远远少于工人们花费的时间。

在美国,处于这种工作中的标记工人往往被认为是独立承包商而非雇员,因此《公平劳动标准法》所保障的保护措施并不能在他们身上适用。

讨论美国的相关情况只是因为这些数据是最容易获取的,在全球范围内,更糟糕的劳工现象只会更多。

“流水线”工人正在成为企业的竞争力

2018年,BBC记者Dave Lee走访了生活在肯尼亚贫民窟的标记工人,也发现了相同的问题。

根据报道,生活在Kibera的单身母亲Brenda每天的工作内容就是把大多数的图像数据处理成计算机能够理解的形式。

比如说,在一张上传的照片上,Brenda需要用鼠标跟踪出现的物体,包括人、车辆、路牌、车道、天空,还要特别说明是晴朗的还是阴霾的天空。把数百万张这样的输入到人工智能系统中,对于自动驾驶汽车这类产品而言,就能够提高系统的识别准确率。

Brenda的工作环境也绝称不上友好。她和所有的同事都挤在狭小的办公室里,整个工作她必须紧盯显示屏、放大图像,防止标错哪怕是一个像素。

上级人员会检查他们的工作,如果没有达到要求,还需要返工。

当然奖励也是有的,速度最快、准确率最高的标记员的名字会出现在办公室多台电视机屏幕上,以兹鼓励。当然他们最喜欢的,还是商场的购物券。

Samasource是他们最大的雇主,根据首席执行官Leila Janah表示,公司能够与谷歌等科技巨头建立合作关系,除了准确性和安全性之外,还有一个原因是他们拥有全球最廉价的劳动力,并且当地人迫切需要稳定的工作。

当时,Samasource给出的日薪是9美元,他们希望借此帮助到那些日薪低于2美元、还需要从事地下工作的人。

“确实,它有很高的成本效益”,Janah说,“但我们工作中的一个关键点在于,我们不会提供可能破坏当地劳动市场的薪酬水平。如果我们给出的薪酬过高,我们会给整个社会带来麻烦。比如,可能会对我们员工所生活的社区的住房成本、还有食物成本等带来潜在负面影响”。

在论文中被提及的另一组织Masakhane,该组织致力于通过AI保护非洲语言。值得注意的是,Masakhane不会为AI研究者们标记数据,而是建立了一个为非洲大陆标记、研究和构建算法的社区。

官网上写道:“我们建议将AI开发视为经济发展的前进之路”,“此开发活动不应专注于低生产率活动,例如数据标记,而应专注于高生产率活动,例如模型开发/部署和研究”。

最后,论文指出,对于这种现象,潜在的解决方案是将这些数据标记器简单地集成到AI开发过程中,而不是让他们作为流水线工人为每个图像进行标记来赚钱。如此,工人会获得公平的薪水,况且得益于他们的生活经验和专业知识,数据收集过程中的差异也能被很好的发现并解决,系统的整体准确率也将得到提升。

相关文章
|
1月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
29天前
|
人工智能 关系型数据库 分布式数据库
拥抱Data+AI|“全球第一”雅迪如何实现智能营销?DMS+PolarDB注入数据新活力
针对雅迪“云销通App”的需求与痛点,本文将介绍阿里云瑶池数据库DMS+PolarDB for AI提供的一站式Data+AI解决方案,助力销售人员高效用数,全面提升销售管理效率。
|
1月前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
62 6
|
11天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】数据并行
数据并行是一种在分布式AI系统中广泛应用的技术,通过将数据集划分成多个子集并在不同计算节点上并行处理,以提高计算效率和速度。在大规模机器学习和深度学习训练中,数据并行可以显著加快模型训练速度,减少训练时间,提升模型性能。每个计算节点接收完整的模型副本,但处理不同的数据子集,从而分摊计算任务,提高处理速度和效率。数据并行按同步方式可分为同步数据并行和异步数据并行,按实现方式包括数据并行、分布式数据并行、完全分片的数据并行等。其中,分布式数据并行(DDP)是当前应用最广泛的并行算法之一,通过高效的梯度聚合和参数同步机制,确保模型一致性,适用于大型NPU集群和AI系统。
67 7
【AI系统】数据并行
|
1月前
|
人工智能 算法 BI
聚焦AI与BI融合,引领数智化新潮流 | 【瓴羊数据荟】瓴羊数据Meet Up城市行第一站完美收官!
当BI遇见AI,洞见变得触手可及 —— 瓴羊「数据荟」数据Meet Up城市行·杭州站启幕,欢迎参与。
413 5
聚焦AI与BI融合,引领数智化新潮流 | 【瓴羊数据荟】瓴羊数据Meet Up城市行第一站完美收官!
|
21天前
|
存储 人工智能 编译器
【AI系统】昇腾数据布局转换
华为昇腾NPU采用独特的NC1HWC0五维数据格式,旨在优化AI处理器的矩阵乘法运算和访存效率。此格式通过将C维度分割为C1份C0,适应达芬奇架构的高效计算需求,支持FP16和INT8数据类型。此外,昇腾还引入了NZ分形格式,进一步提升数据搬运和矩阵计算效率。AI编译器通过智能布局转换,确保在不同硬件上达到最优性能。
45 3
|
1月前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
1月前
|
人工智能 自然语言处理 关系型数据库
从数据到智能,一站式带你了解 Data+AI 精选解决方案、特惠权益
从 Data+AI 精选解决方案、特惠权益等,一站式带你了解阿里云瑶池数据库经典的AI产品服务与实践。
|
1月前
|
存储 人工智能 大数据
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
1月前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。
下一篇
DataWorks