「人类高质量数据」从标注指南开始!Google 发布数据分析工具Know Your Data

简介: 由于标注人员的社会背景不同,所标注的数据也可能存在着固有偏见,从而导致训练的模型继承了这种偏见。Google 对于这个问题发布了一个数据分析平台Know Your Data,能做三件事,让数据变得公平、公平、还是公平!

数据是机器学习研究和开发的基础,划分数据能够帮助构建机器学习模型,以及评估和基准化模型。 然而实际上,数据收集任务是很复杂的。无意识的偏见、数据访问的限制和隐私问题,都可能使数据收集和标注变得不可预测,并失去部分真实性。 但反过来说,机器学习数据集可以反映种族、性别、年龄等方面的不公平社会偏见。

1.jpg

测验数据集(examing datasets)可以展现出不同社会群体在数据中的不同表现方式,这也是确保机器学习模型和数据集的发展与人工智能原则(AI principles)保持一致的关键。它可以告知用户如何有效使用机器学习数据集,并缓解数据集中包含潜在不公平结果的可能。 先前的研究已经表明这种偏见普遍存在于数据集中,例如一些物体识别数据集由于收集者来自欧美世界,所以他们收集到的物体或者人物图像也更偏向于来自北美和西欧,这也促使谷歌的众包服务应当更努力地去平衡、添加世界上其他地区的图像表示。 

2.jpg

Google 的方案名叫了解你的数据(Know Your Data, KYD),这个平台能够有助于机器学习研究、创造相关产品和协同团队理解数据集。 KYD的目标是提高数据质量,从而缓解公平性和偏见问题。KYD 还提供了一系列特性,包括允许用户探索和检查数据集,用户可以基于给定数据集中已经存在的注释进行过滤、分组和相关性研究。 KYD 还提供了来自谷歌云视觉 API 的自动计算标签,为用户提供了一种简单的方法预分类,可以基于数据集中原本没有的信号来探索他们的数据。 

3.jpg


目前KYD还处于beta测试版本,新增的功能包括数据可视化等。 COCO Captions是一个图像数据集,包含超过30万张图像,并且每一张图像都包含人工生成的标题,这种非结构化文本实际上是对图片的一种注释,可以用来帮助分析数据集中包含的公正性和偏见。4.jpg先前的研究已经证明了计算机视觉数据集中存在不良的性别偏见,一些固有成见可能导致中性词和性别相关,如护士与女性、工人与男性。5.jpg使用KYD很容易发现标题中包含的性别相关性,如标注人员在描述数据集中不同活动、不能性别的人时存在的偏见。 研究人员们研究了描述不同活动的文字标题图片,并分析了它们与性别标题词的关系,如“男人”或“女人”。 KYD 关系标签通过可视化两个信号(男/女)同时出现的概率相比偶然出现的概率更高或更低,用蓝色表示正相关,红色表示负相关,颜色的深浅表示相关程度。 KYD 还允许用户基于子字符串匹配过滤关系表的行。使用这个功能,可以探测例如“-ing”的标题词,作为一种按动词过滤的简单方法。根据动作立即看到了强烈的性别相关性。6.gif通过进一步研究这些相关性,可以发现一些与女性有关的定型活动,如配有 woman 或 women 标题的图片比配有 man 或 men 标题的图片在购物 shopping 和 做饭 cooking 出现的频率更高。 例如下面的图片的标题为Two women cooking in a beige and white kitchen., 其中 women 和 cooking 同时出现。 7.jpg相比之下,描述诸如滑板 skateboarding、冲浪 surfing 和滑雪 snowboarding 等体力活动的说明文字与标有man 或 men 的标题有更高概率同时出现,也就是说与男性更相关。 尽管每个图片标题不应该使用特定的或贬损性语言描述,但如果某些性别群体在整个数据集的特定活动中代表过多或过少,那么根据这个数据集训练的模型就有可能学习到这种特殊关联,尽管他是错误的。 通过上面的KYD可视化,可以很容易地显示、量化和制定计划来减轻这种风险。 除了研究不同活动所描绘的社会群体的偏见,研究人员还探讨了标注人员如何描述他们认为是男性或女性的人的外貌的偏见。 受到那些嵌入在其他形式的视觉媒体中的男性凝视(male gaze)的媒体学者的启发,Google 还研究了 COCO captions 中,标注人员如何用男性或女性来描述图片中的人。 KYD 能够很容易地检查与二元性别相关的单词(例如 female/girl/woman 或 male/man/boy)和与评价吸引力(physical attractiveness)相关的单词之间的共现现象。 最重要的是,这些都是人类标注人员写的说明文字,他们对图片中人物的性别做出主观评价,并选择一个描述吸引力的描述符。 最后可以发现,有吸引力的attractive 、美丽 beautiful、漂亮 pretty 和性感 sexy 这些词更容易出现在描述女性时使用,这也证实了之前的研究所说的视觉媒体如何考虑性别。8.jpg至于年龄的偏见,通常65岁以上的成年人在数据集中的数量相比其他年龄段是不足的。 通过观察描述不同活动的标题词并分析它们与描述年龄的标题词之间的关系,KYD 可以帮助找到哪些词可以用于描述老年人。根据环境和活动判断成年人的年龄对于各种任务来说是很重要的,例如图像字幕或行人检测。9.jpg可以看出,标注人员很少在详细描述不同活动的标题中将一个人描述为老年人。关系标签还显示出一种趋势,即 elderly, old 和 older 倾向于描述各种不需要体力活动的动词,而这些体力活动可能对系统检测来说很重要。 需要注意的是,相对于young 来说,old 更多地用来描述人以外的东西,比如财产或衣服,因此这些关系也捕捉到了一些不能用来描述人的用法。 10.jpg

但这项研究的包含老年人参考的标题表达不足的根源可能是缺乏描述老年人的图像,以标注人员在描述图像中的人时倾向于省略与老年人相关的术语。 通过使用 KYD, 能够定量和定性地检查哪些关系来识别数据集中哪些类别的数据不足,需要补充。 了解机器学习数据集的内容是制定合适的策略以减轻数据集偏见的关键,并且不公正的数据也会影响到下游任务的表现。 社会的刻板印象体现在标注人员身上,但KYD给出了缓解措施,通过平衡数据集,增加代表性不足的类别数据的数量。 然而,仅仅关注数据集平衡是不够的,因为标注人员对图像中人物的主观判断反映在最终的数据集中,这表明需要更深入地研究图像标注的方法。 对于正在开发图像标题数据集的数据从业者来说,一个解决方案是考虑整合已经开发的用于编写对种族、性别和其他身份类别敏感的图像描述的指南。

相关文章
|
18天前
|
文字识别 算法 数据挖掘
视觉智能开放平台产品使用合集之对于统计研究和数据分析,有哪些比较好的工具推荐
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
2月前
|
数据可视化 数据挖掘 BI
数据分析工具
【5月更文挑战第17天】数据分析工具
43 6
|
12天前
|
机器学习/深度学习 数据可视化 数据挖掘
Python数据分析工具有哪些
【7月更文挑战第3天】Python数据分析工具有哪些
118 58
|
4天前
|
数据挖掘 大数据 Linux
探索Linux中的snice命令:一个虚构但启发性的数据分析工具
`snice`是一个想象中的Linux命令,用于低优先级地从大数据集中抽样数据。它结合`nice`和`sampling`,支持多种抽样策略,如随机和分层。参数包括指定样本数、策略、输入输出文件和进程优先级。示例:`snice -n 1000 -s random -i large_log.txt -o sample_log.txt`。使用时注意资源管理、数据完整性及权限,并与其它工具结合使用。虽然虚构,但体现了Linux工具在数据分析中的潜力。
|
7天前
|
数据挖掘 Python
利用Python进行数据分析PDF下载经典数据分享推荐
**Python数据分析大师作,Wes McKinney亲著,详述数据操作、清洗与分析。第2版面向Python 3.6,涵盖pandas、NumPy、IPython和Jupyter更新,实战案例丰富;第3版已升级至Python 3.10和pandas 1.4,继续引领数据科学潮流。[PDF下载](https://zhangfeidezhu.com/?p=337)**
15 0
利用Python进行数据分析PDF下载经典数据分享推荐
|
10天前
|
数据采集 机器学习/深度学习 数据可视化
关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理,进行数据探索,选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。
【7月更文挑战第5天】这是一个关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理(填充缺失值,处理异常值),进行数据探索(可视化和统计分析),选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。此案例展示了数据科学的典型流程。
31 2
|
10天前
|
数据可视化 数据挖掘 API
数据可视化秘籍聚焦Python的Matplotlib和Seaborn库,它们是数据分析的得力工具。
【7月更文挑战第5天】数据可视化秘籍聚焦Python的Matplotlib和Seaborn库,它们是数据分析的得力工具。Matplotlib是基础库,提供高度自定义的2D图表,而Seaborn在其上构建,提供美观的统计图形。文章介绍了如何用两者画线图、散点图、条形图、饼图和直方图,展示数据趋势和关系。
|
19天前
|
数据可视化 数据挖掘 知识图谱
精选:15款顶尖Python知识图谱(关系网络)绘制工具,数据分析的强力助手
这里有15款免费工具推荐:NetworkX(Python基础),Graph-tool(C++速度),Graphviz(可视化库),ipycytoscape(Jupyter集成),ipydagred3,ipySigma(NetworkX + Web),Netwulf(交互式),nxviz(Matplotlib绑定),Py3plex(复杂网络分析),Py4cytoscape(Python+Cytoscape),pydot(Graphviz接口),PyGraphistry(GPU加速),python-igraph,pyvis(交互式图形),SNAP(大规模网络分析)。绘制和理解网络图从未如此简单!
28 0
|
10天前
|
存储 消息中间件 数据挖掘
Python实时数据分析:利用丰富的库(如Pandas, PySpark, Kafka)进行流处理,涵盖数据获取、预处理、处理、存储及展示。
【7月更文挑战第5天】Python实时数据分析:利用丰富的库(如Pandas, PySpark, Kafka)进行流处理,涵盖数据获取、预处理、处理、存储及展示。示例代码展示了从Kafka消费数据,计算社交媒体活跃度和物联网设备状态,并可视化结果。适用于监控、故障检测等场景。通过学习和实践,提升实时数据分析能力。
19 0

热门文章

最新文章