《中国人工智能学会通讯》——12.26 基于众包的数据提纯

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.26节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

12.26 基于众包的数据提纯

随着基于位置服务的蓬勃发展 , 随之出现了大量相关的空间文本数据。空间文本数据包括两方面信息,一个空间位置信息 , 通常与一个空间兴趣点相关,由一个经纬度坐标点表示数据所处的地理位置;一个文本信息,通常是由一组关键词构成的类似标签的文本描述。目前,这些关键词标签的生成方式主要通过人工添加与机器算法自动生成,由于来源广泛,这些生成的关键词质量参差不齐,很多质量难以保证。这些错误的数据在实际应用中将带给用户非常糟糕的体验,甚至误导用户,造成损失。比如当前很多基于位置的服务通过关键词标签为用户提供兴趣点推荐服务,若兴趣点的标签是错误的,那会给用户带来极大的困扰。由此很多产生的空间文本数据很难在实际中使用。 为有效缓解这一问题,本文研究基于众包的空间文本数据提纯问题,通过众包方法优化收集到空间文本数据的关键词,排除其中错误不合理的关键词。

众包是这几年兴起的通过人力智慧解决问题的可靠途径。 很多计算机难以有效解决的问题,如复杂的图片标注、实体一致性判断等问题都可以通过众包得以解决。通常任务会被发布到众包平台 ( 如MTurk、ChinaCrowds) 上,然后由众包工人参与解答任务。本文采用同样的方式,当一个空间文本数据作为任务被发布在众包平台上后,按照图 1(a) 的框架执行任务。任务针对的是真实的动态场景,首先有一个总的花费预算 ( 如工人回答任务的总数,即每个工人回答一个任务需要消耗一定金钱 ),然后工人陆续地分批请求任务,当某个工人提供答案后还可以继续请求任务。当一批工人请求任务时,有一个任务分配模块会为每个工人分配一定数量的任务,然后通过众包平台收集工人的答案,并交由一个推断模型来得到包括工人质量在内的中间信息。这些中间信息会进一步指导分配模块对下一波请求任务的工人进行任务分配。这个分配 - 推断的过程一直重复进行,直到预算全部花费完毕。这时由推断模型根据所有收集到的工人答案,推断出每个数据关键词是否正确合理。下面介绍并解决这一过程中需要处理的问题。

image

相关文章
|
19天前
|
人工智能 自然语言处理 语音技术
人工智能语音数据的多样性
人工智能语音数据的多样性
31 2
|
19天前
|
人工智能 算法 语音技术
人工智能语音数据
人工智能语音数据
66 5
|
19天前
|
机器学习/深度学习 传感器 人工智能
人工智能图像数据
人工智能图像数据
43 3
|
19天前
|
机器学习/深度学习 人工智能 算法
人工智能中数据组合采样、特征层、算法层的讲解(图文详解)
人工智能中数据组合采样、特征层、算法层的讲解(图文详解)
79 0
|
19天前
|
机器学习/深度学习 人工智能 自然语言处理
【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
【5月更文挑战第4天】【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
|
19天前
|
传感器 人工智能 自然语言处理
人工智能数据
人工智能数据
47 1
|
19天前
|
人工智能 测试技术
测试数据不再难,人工智能批量生成给你用!
本文介绍了如何利用ChatGPT生成测试数据。测试数据是验证功能和触发异常场景的关键,设计时需全面考虑等价类、边界值和正交法。实践中,先明确数据类型、格式和需求,然后向ChatGPT提供相关信息。例如,对于只能输入中国手机号的输入框,初始提示可能只包含正常手机号,但应进一步补充异常场景,如非数字、长度错误、非中国号码、特殊字符、空输入等。此外,可通过指定yaml格式来满足代码使用需求。总结来说,生成测试数据需清晰定义需求,拆分任务,并系统测试各种变化。
31 2
|
19天前
|
机器学习/深度学习 SQL 人工智能
人工智能平台PAI产品使用合集之如何通过机器学习PAI 的Alink实现大量数据两两计算相关性
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
19天前
|
机器学习/深度学习 人工智能 运维
人工智能平台PAI 操作报错合集之请问Alink的算法中的序列异常检测组件,是对数据进行分组后分别在每个组中执行异常检测,而不是将数据看作时序数据进行异常检测吧
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
19天前
|
机器学习/深度学习 人工智能 API
人工智能平台PAI 操作报错合集之DSSM负采样时,输入数据不同,被哈希到同一个桶里,导致生成的embedding相同如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。