「人类高质量数据」从标注指南开始!Google 发布数据分析工具Know Your Data

简介: 由于标注人员的社会背景不同,所标注的数据也可能存在着固有偏见,从而导致训练的模型继承了这种偏见。Google 对于这个问题发布了一个数据分析平台Know Your Data,能做三件事,让数据变得公平、公平、还是公平!

数据是机器学习研究和开发的基础,划分数据能够帮助构建机器学习模型,以及评估和基准化模型。 然而实际上,数据收集任务是很复杂的。无意识的偏见、数据访问的限制和隐私问题,都可能使数据收集和标注变得不可预测,并失去部分真实性。 但反过来说,机器学习数据集可以反映种族、性别、年龄等方面的不公平社会偏见。

1.jpg

测验数据集(examing datasets)可以展现出不同社会群体在数据中的不同表现方式,这也是确保机器学习模型和数据集的发展与人工智能原则(AI principles)保持一致的关键。它可以告知用户如何有效使用机器学习数据集,并缓解数据集中包含潜在不公平结果的可能。 先前的研究已经表明这种偏见普遍存在于数据集中,例如一些物体识别数据集由于收集者来自欧美世界,所以他们收集到的物体或者人物图像也更偏向于来自北美和西欧,这也促使谷歌的众包服务应当更努力地去平衡、添加世界上其他地区的图像表示。 

2.jpg

Google 的方案名叫了解你的数据(Know Your Data, KYD),这个平台能够有助于机器学习研究、创造相关产品和协同团队理解数据集。 KYD的目标是提高数据质量,从而缓解公平性和偏见问题。KYD 还提供了一系列特性,包括允许用户探索和检查数据集,用户可以基于给定数据集中已经存在的注释进行过滤、分组和相关性研究。 KYD 还提供了来自谷歌云视觉 API 的自动计算标签,为用户提供了一种简单的方法预分类,可以基于数据集中原本没有的信号来探索他们的数据。 

3.jpg


目前KYD还处于beta测试版本,新增的功能包括数据可视化等。 COCO Captions是一个图像数据集,包含超过30万张图像,并且每一张图像都包含人工生成的标题,这种非结构化文本实际上是对图片的一种注释,可以用来帮助分析数据集中包含的公正性和偏见。4.jpg先前的研究已经证明了计算机视觉数据集中存在不良的性别偏见,一些固有成见可能导致中性词和性别相关,如护士与女性、工人与男性。5.jpg使用KYD很容易发现标题中包含的性别相关性,如标注人员在描述数据集中不同活动、不能性别的人时存在的偏见。 研究人员们研究了描述不同活动的文字标题图片,并分析了它们与性别标题词的关系,如“男人”或“女人”。 KYD 关系标签通过可视化两个信号(男/女)同时出现的概率相比偶然出现的概率更高或更低,用蓝色表示正相关,红色表示负相关,颜色的深浅表示相关程度。 KYD 还允许用户基于子字符串匹配过滤关系表的行。使用这个功能,可以探测例如“-ing”的标题词,作为一种按动词过滤的简单方法。根据动作立即看到了强烈的性别相关性。6.gif通过进一步研究这些相关性,可以发现一些与女性有关的定型活动,如配有 woman 或 women 标题的图片比配有 man 或 men 标题的图片在购物 shopping 和 做饭 cooking 出现的频率更高。 例如下面的图片的标题为Two women cooking in a beige and white kitchen., 其中 women 和 cooking 同时出现。 7.jpg相比之下,描述诸如滑板 skateboarding、冲浪 surfing 和滑雪 snowboarding 等体力活动的说明文字与标有man 或 men 的标题有更高概率同时出现,也就是说与男性更相关。 尽管每个图片标题不应该使用特定的或贬损性语言描述,但如果某些性别群体在整个数据集的特定活动中代表过多或过少,那么根据这个数据集训练的模型就有可能学习到这种特殊关联,尽管他是错误的。 通过上面的KYD可视化,可以很容易地显示、量化和制定计划来减轻这种风险。 除了研究不同活动所描绘的社会群体的偏见,研究人员还探讨了标注人员如何描述他们认为是男性或女性的人的外貌的偏见。 受到那些嵌入在其他形式的视觉媒体中的男性凝视(male gaze)的媒体学者的启发,Google 还研究了 COCO captions 中,标注人员如何用男性或女性来描述图片中的人。 KYD 能够很容易地检查与二元性别相关的单词(例如 female/girl/woman 或 male/man/boy)和与评价吸引力(physical attractiveness)相关的单词之间的共现现象。 最重要的是,这些都是人类标注人员写的说明文字,他们对图片中人物的性别做出主观评价,并选择一个描述吸引力的描述符。 最后可以发现,有吸引力的attractive 、美丽 beautiful、漂亮 pretty 和性感 sexy 这些词更容易出现在描述女性时使用,这也证实了之前的研究所说的视觉媒体如何考虑性别。8.jpg至于年龄的偏见,通常65岁以上的成年人在数据集中的数量相比其他年龄段是不足的。 通过观察描述不同活动的标题词并分析它们与描述年龄的标题词之间的关系,KYD 可以帮助找到哪些词可以用于描述老年人。根据环境和活动判断成年人的年龄对于各种任务来说是很重要的,例如图像字幕或行人检测。9.jpg可以看出,标注人员很少在详细描述不同活动的标题中将一个人描述为老年人。关系标签还显示出一种趋势,即 elderly, old 和 older 倾向于描述各种不需要体力活动的动词,而这些体力活动可能对系统检测来说很重要。 需要注意的是,相对于young 来说,old 更多地用来描述人以外的东西,比如财产或衣服,因此这些关系也捕捉到了一些不能用来描述人的用法。 10.jpg

但这项研究的包含老年人参考的标题表达不足的根源可能是缺乏描述老年人的图像,以标注人员在描述图像中的人时倾向于省略与老年人相关的术语。 通过使用 KYD, 能够定量和定性地检查哪些关系来识别数据集中哪些类别的数据不足,需要补充。 了解机器学习数据集的内容是制定合适的策略以减轻数据集偏见的关键,并且不公正的数据也会影响到下游任务的表现。 社会的刻板印象体现在标注人员身上,但KYD给出了缓解措施,通过平衡数据集,增加代表性不足的类别数据的数量。 然而,仅仅关注数据集平衡是不够的,因为标注人员对图像中人物的主观判断反映在最终的数据集中,这表明需要更深入地研究图像标注的方法。 对于正在开发图像标题数据集的数据从业者来说,一个解决方案是考虑整合已经开发的用于编写对种族、性别和其他身份类别敏感的图像描述的指南。

相关文章
|
2月前
|
数据挖掘 PyTorch TensorFlow
|
25天前
|
机器学习/深度学习 并行计算 数据挖掘
R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域
【10月更文挑战第21天】R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域。本文将介绍R语言中的一些高级编程技巧,包括函数式编程、向量化运算、字符串处理、循环和条件语句、异常处理和性能优化等方面,以帮助读者更好地掌握R语言的编程技巧,提高数据分析的效率。
42 2
|
25天前
|
数据采集 数据可视化 数据挖掘
R语言与Python:比较两种数据分析工具
R语言和Python是目前最流行的两种数据分析工具。本文将对这两种工具进行比较,包括它们的历史、特点、应用场景、社区支持、学习资源、性能等方面,以帮助读者更好地了解和选择适合自己的数据分析工具。
27 2
|
1月前
|
机器学习/深度学习 人工智能 搜索推荐
某A保险公司的 数据图表和数据分析
某A保险公司的 数据图表和数据分析
59 0
某A保险公司的 数据图表和数据分析
|
3月前
|
数据采集 DataWorks 数据挖掘
提升数据分析效率:DataWorks在企业级数据治理中的应用
【8月更文第25天】本文将探讨阿里巴巴云的DataWorks平台如何通过建立统一的数据标准、规范以及实现数据质量监控和元数据管理来提高企业的数据分析效率。我们将通过具体的案例研究和技术实践来展示DataWorks如何简化数据处理流程,减少成本,并加速业务决策。
444 54
|
1月前
|
机器学习/深度学习 数据采集 数据可视化
如何理解数据分析及数据的预处理,分析建模,可视化
如何理解数据分析及数据的预处理,分析建模,可视化
49 0
|
2月前
|
机器学习/深度学习 数据挖掘 TensorFlow
🔍揭秘Python数据分析奥秘,TensorFlow助力解锁数据背后的亿万商机
【9月更文挑战第11天】在信息爆炸的时代,数据如沉睡的宝藏,等待发掘。Python以简洁的语法和丰富的库生态成为数据分析的首选,而TensorFlow则为深度学习赋能,助你洞察数据核心,解锁商机。通过Pandas库,我们可以轻松处理结构化数据,进行统计分析和可视化;TensorFlow则能构建复杂的神经网络模型,捕捉非线性关系,提升预测准确性。两者的结合,让你在商业竞争中脱颖而出,把握市场脉搏,释放数据的无限价值。以下是使用Pandas进行简单数据分析的示例:
45 5
|
3月前
|
存储 数据挖掘 数据处理
DataFrame探索之旅:如何一眼洞察数据本质,提升你的数据分析能力?
【8月更文挑战第22天】本文通过电商用户订单数据的案例,展示了如何使用Python的pandas库查看DataFrame信息。首先导入数据并使用`head()`, `columns`, `shape`, `describe()`, 和 `dtypes` 方法来快速概览数据的基本特征。接着,通过对数据进行分组操作计算每位顾客的平均订单金额,以此展示初步数据分析的过程。掌握这些技能对于高效的数据分析至关重要。
41 2
|
2月前
|
机器学习/深度学习 数据挖掘 TensorFlow
从数据小白到AI专家:Python数据分析与TensorFlow/PyTorch深度学习的蜕变之路
【9月更文挑战第10天】从数据新手成长为AI专家,需先掌握Python基础语法,并学会使用NumPy和Pandas进行数据分析。接着,通过Matplotlib和Seaborn实现数据可视化,最后利用TensorFlow或PyTorch探索深度学习。这一过程涉及从数据清洗、可视化到构建神经网络的多个步骤,每一步都需不断实践与学习。借助Python的强大功能及各类库的支持,你能逐步解锁数据的深层价值。
65 0
|
3月前
|
SQL 数据挖掘 关系型数据库
SQL中的聚合函数:数据分析的强大工具
【8月更文挑战第31天】
110 0