今日工资到账8美元?!AI行业剥削严重,ImageNet仅4%数据标记工人收入过最低线-阿里云开发者社区

开发者社区> -技术小助手-> 正文

今日工资到账8美元?!AI行业剥削严重,ImageNet仅4%数据标记工人收入过最低线

简介: 今日工资到账8美元?!AI行业剥削严重,ImageNet仅4%数据标记工人收入过最低线
+关注继续查看

尽管随着AI的普及,我们在生活中越来越依赖于人工智能,但“人工智障”的相关调侃也从来没有消失过。

相信大家都知道,如果我们想要让AI准确识别出图中的鸟,我们需要在数据集中手动将这些照片标记为鸟,然后让算法和图像之间产生关联性的判断识别。

要是小规模的实验性数据还好,一旦遇到那种规模多达数百万个的标记需求,个中消耗的时间真是难以想象。

俗话说,哪里有需求,哪里就有市场。

根据普林斯顿大学、康奈尔大学、蒙特利尔大学和统计科学研究所的联合调查,研究者们发现,这项标记工作大部分是由欧美国家以外的来自全世界各地的工人共同完成的。

论文中指出,类似数字经济公司Samasource等会大量雇佣来自撒哈拉以南非洲和东南亚的廉价工人,让他们完成这些枯燥的工作,每天给他们支付8美元的薪水,同时这些公司每年能够收入上千万美元。

论文链接:
https://arxiv.org/pdf/2102.01265.pdf

为ImageNet工作的工人只能拿到2美元时薪

由于许多深度学习技术需要大量的数据来训练模型,数据标签的需求也日渐增加,超过80%的机器学习开发过程包括数据的收集、清洗和标签等工作。

对于Uber和Alphabet等大型科技公司而言,这些服务显得更为重要。

但是,当我们换个角度,尽管这些工人正在为当前最热的人工智能行业做出贡献,这些系统最终可能并不会直接惠及到他们所在的社区,更令人唏嘘的是,不少系统可能会对他们的种族或性别等产生带有偏见的判断。

比如ImageNet,这个大型公开的图像数据集可以说是人工智能历史上影响力最大的数据集之一了。

研究者指出,为ImageNet标记的工人只能拿到2美元的时薪,只有4%的工人时薪超过了美国联邦最低工资标准的7.25美元。

同时,由于ImageNet是使用WordNet进行注释的,根据一项名为“ImageNet Roulette”的实验指出,如果人们将照片提交给由ImageNet训练出来的神经网络,该神经网络将使用数据集中的标签来描述这些。

但当人们在系统中输入的是他们最感兴趣的照片:自拍时,软件会输出一些种族主义和冒犯性的标签来进行描述。

虽然数据标签不像传统工厂劳动那样耗费体力,但不少工人们报告表示,他们的任务速度和数量是“令人疲惫”和“单调”的,因为他们必须严格按照客户的规格要求来标记图像、视频和音频。

“幽灵工人”无谈判立场,基本权益也难以被保障

近几年,在全球南部,不少本土科技公司大量涌现,比如肯尼亚的Fastagger、南非的Sebenz.ai和马来西亚的Supahands。随着人工智能发展不断扩大规模,这些公司的扩张也为低技能劳动者进入劳动力市场打开了大门,但相关的劳动剥削行为也仍然在发生着。

研究者们将这些数据标记工人称为“幽灵工人”(ghost worker),因为外界往往看到的只是一个系统的高识别率,而忽略了这些工人为训练数据集做出的劳力工作。

研究者们提出,在美国,这种低工资结构很大程度上是由于花在没有补偿的活动上的时间,比如从事一项最终会被拒绝的任务。

这就引出了Amazon Mechanical Turk这样的平台在权力动态上的另一个问题。我们就以该平台为例,在这个平台上,所有的权力都集中在任务的请求者那边,请求者有权力设定他们预计的价格,这个价格可以低至0.01美元,同时请求者还可以回绝工人已经完成的工作,并声称该项任务所需的时间远远少于工人们花费的时间。

在美国,处于这种工作中的标记工人往往被认为是独立承包商而非雇员,因此《公平劳动标准法》所保障的保护措施并不能在他们身上适用。

讨论美国的相关情况只是因为这些数据是最容易获取的,在全球范围内,更糟糕的劳工现象只会更多。

“流水线”工人正在成为企业的竞争力

2018年,BBC记者Dave Lee走访了生活在肯尼亚贫民窟的标记工人,也发现了相同的问题。

根据报道,生活在Kibera的单身母亲Brenda每天的工作内容就是把大多数的图像数据处理成计算机能够理解的形式。

比如说,在一张上传的照片上,Brenda需要用鼠标跟踪出现的物体,包括人、车辆、路牌、车道、天空,还要特别说明是晴朗的还是阴霾的天空。把数百万张这样的输入到人工智能系统中,对于自动驾驶汽车这类产品而言,就能够提高系统的识别准确率。

Brenda的工作环境也绝称不上友好。她和所有的同事都挤在狭小的办公室里,整个工作她必须紧盯显示屏、放大图像,防止标错哪怕是一个像素。

上级人员会检查他们的工作,如果没有达到要求,还需要返工。

当然奖励也是有的,速度最快、准确率最高的标记员的名字会出现在办公室多台电视机屏幕上,以兹鼓励。当然他们最喜欢的,还是商场的购物券。

Samasource是他们最大的雇主,根据首席执行官Leila Janah表示,公司能够与谷歌等科技巨头建立合作关系,除了准确性和安全性之外,还有一个原因是他们拥有全球最廉价的劳动力,并且当地人迫切需要稳定的工作。

当时,Samasource给出的日薪是9美元,他们希望借此帮助到那些日薪低于2美元、还需要从事地下工作的人。

“确实,它有很高的成本效益”,Janah说,“但我们工作中的一个关键点在于,我们不会提供可能破坏当地劳动市场的薪酬水平。如果我们给出的薪酬过高,我们会给整个社会带来麻烦。比如,可能会对我们员工所生活的社区的住房成本、还有食物成本等带来潜在负面影响”。

在论文中被提及的另一组织Masakhane,该组织致力于通过AI保护非洲语言。值得注意的是,Masakhane不会为AI研究者们标记数据,而是建立了一个为非洲大陆标记、研究和构建算法的社区。

官网上写道:“我们建议将AI开发视为经济发展的前进之路”,“此开发活动不应专注于低生产率活动,例如数据标记,而应专注于高生产率活动,例如模型开发/部署和研究”。

最后,论文指出,对于这种现象,潜在的解决方案是将这些数据标记器简单地集成到AI开发过程中,而不是让他们作为流水线工人为每个图像进行标记来赚钱。如此,工人会获得公平的薪水,况且得益于他们的生活经验和专业知识,数据收集过程中的差异也能被很好的发现并解决,系统的整体准确率也将得到提升。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
bboss数据库标签系列一 分页列表详细信息标签预编译sql查询数据
本系列文章详细介绍bboss标签库的数据库标签具体使用方法,涉及到的功能包括: db查询(普通查询、预编译查询,分页查询),db新增、修改、删除、批处理操作(预编译)。 bboss数据库标签系列一 分页列表详细信息标签预编译sql查询数据 beaninfo标签,pager标签,list标签预编译sql获取数据功能相关属性和标签: sqlparamskey-指定将绑定变量参数存储在request 属性集中的变量名称,以便pager,beaninfo,list标签获取sql的绑定变量参数值。
746 0
Vineyard 加入 CNCF Sandbox,将继续瞄准云原生大数据分析领域
Vineyard 是一个专为云原生环境下大数据分析场景中端到端工作流提供内存数据共享的分布式引擎,我们很高兴宣布 Vineyard 在 2021 年 4 月 27 日被云原生基金会(CNCF)TOC 接受为沙箱(Sandbox)项目。
363 0
一起谈.NET技术,.NET并行(多核)编程系列之七 共享数据问题和解决概述
  之前的文章介绍了了并行编程的一些基础的知识,从本篇开始,将会讲述并行编程中实际遇到一些问题,接下来的几篇将会讲述数据共享问题。   本篇的议题如下:   1.数据竞争   2.解决方案提出   3.
636 0
用 Flask 来写个轻博客 (4) — (M)VC_创建数据模型和表
目录 目录 前文列表 扩展阅读 定义数据模型 models 创建表 前文列表 用 Flask 来写个轻博客 (1) — 创建项目 用 Flask 来写个轻博客 (2) — Hello World! 用 Flask 来写个轻博客 (3) — (M)V...
1116 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4479 0
数据库存储图像及使用Image控件显示
在数据库中存取并显示到页面Image控件的功能。原来认为并不复杂,但是实际中却遇到了一些问题。 首先来看看保存图片: 图片在数据库中使用二进制方式存储,所以要把图片转化为二进制流文件在存储到数据库中,代码如下:     private void Save()     {         MyImage img = new MyImage();         img.
659 0
Jupyter Notebook数据科学高效技巧
本文有一些关于Jupyter Notebook的干货,希望看完文章可以给你带来收获
4787 0
1457
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载