《中国人工智能学会通讯》——12.27 问题描述-阿里云开发者社区

《中国人工智能学会通讯》——12.27 问题描述

2017-09-04 1272

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章，第12.27节，更多章节内容可以访问云栖社区“CCAI”公众号查看。

12.27 问题描述

基于众包的空间文本数据提纯任务：给出需要质量优化的一个空间文本数据集合 T={t 1 , t 2 ,…,t |T| }，众包平台将这些数据发布作为任务，一个任务对应一个空间文本数据。每个任务 t={O t , L t } 由一个拥有地理位置的空间兴趣点 O t 和一个文本描述关键词集合 L t ={l t,1 , l t,2 ,…, l t,|L t | } 构成。每个关键词 l t,i都有一个真实结果 1/0 ( 是 / 否 )，其中 1 (0) 是指 l t,i是该数据的一个合理正确 ( 不正确 ) 的关键词。每个参与任务的众包工人w也有一个位置 (如家、工作位置等 )。对每个任务 t，工人需从 L t 中选择他们认为正确的关键词。将工人给出的判断答案记为 R={(w,t,R(w,t))}，其中 R(w,t) = {r w,t,k |1 ≤k ≤ |L t |} 是 w 对任务 t 的答案集合，且 r w,t,k =1/0是 w 对每一关键词 l t,k 的答案。图 1 展示了一个与“Beijing Olympic Forest Park”(“北京奥林匹克公园”) 这一兴趣点相关的任务。在这 10 个关键词中，如果工人 w 认为“1.Park”是一个正确的关键词，那么他可以勾选选择框中的对应关键词，即认为他给出答案 r w,t,1 =1；否则认为 r w,t,1 =0。显然，工人的答案不可能 100% 正确 , 可能出现判断错误，甚至多个工人会给出有分歧的答案。因此需要根据工人对任务的答案，推断任务关键词的真实结果，即推断任务中真正的正确关键词。基于众包的提纯任务以为所有数据筛选出正确的关键词作为目标，采用正确率来衡量筛选的结果优劣。正确率的计算方法为每个任务正确推断的关键词数量占关键词总数的百分比的平均值。

问题定义：为了获得高准确率的结果，结合众包任务执行框架，有两个需要考虑的子问题。① 正确关键词的推断问题。根据工人的回答 R，如何为每个任务推断出其中正确的关键词 ? ② 任务分配问题。当一群需要分配任务的工人 W 在请求任务时，如何为每个工人合理分配对应的 h 个任务 ? 由于无法预支未来请求任务的工人情况，因此必定无法给出一次性优化整体准确率的算法。这里采用另一种策略，对每次请求的工人集合 W，最大化地提升准确率值。由此一步一步地优化，当付给工人的预算全部花完后，达到一个较优的准确率。因此第二个问题是每次当工人请求任务时，寻找一个最优分配以最大幅度的提高总推断准确率。

为解决推断问题，在下一章节中提出了一个推断模型，并根据推断模型在第四章中提出了有效的任务分配方法。下面详细介绍推断模型与分配方法。