中国人工智能学会通讯——一种基于众包的交互式数据修复方法 3 给定质量约束下的交互式算法

简介:

3 给定质量约束下的交互式算法

为了生成一个有效的交互式方案,我们提出了自己的算法,其中的关键问题是在众包修复过程中如何选择被众包修复的值。

首先,我们倾向于选择引起数据冲突最多的值进行众包修复,这样就会有更多的值在下一步的基于规则的修复过程中可以被推导。为了找出引起数据间冲突最多的值,先评估每个值的不和谐度disharmonious degree(简称为dScore),表示这个值和数据集中其他所有值之间的不和谐度。将在3.1节中介绍如何计算每个值的dScore。

image

虽然是在一个动态情况下安排冲突的修复顺序,仍可以根据冲突之间的依赖关系,决定修复哪些值。在这一过程中,面临的挑战就是如何解决冲突间的依赖循环问题,我们将在3.2节中讨论这个问题。

3.1 dScore: 衡量值的不和谐度

一个值的不和谐度可以粗略地由它所引起的冲突的个数来表示。首先用一个简单的例子介绍一下如何计算每个值的dScore。首先,假设除了某个位置上的值,整个数据集都是一致的,即数据集上的其他所有值都是和谐的。然后,当该位置上的值出现后,可能会引起两种冲突:①该值本身和一些值发生了冲突;②该值使得某个冲突里的其他值发生了冲突。通常一个值带来的冲突越多,这个值越有可能是一个错误的值。换句话说,在这种简单的假设下,一个值的dScore就是它所引起的冲突的个数。

现在开始考虑实际情况,即数据集中已经存在错误的值和冲突。当一个新值出现时,不管它是否错误,都会带来一些改变,如产生新的冲突或者加剧已有的冲突。在这种情况下,一个值的dScore由以下两部分组成:

image
image

3.2 使用冲突之间的依赖关系

在安排冲突的修复顺序时,我们会考虑冲突间的依赖关系。首先要获得所有冲突之间的依赖关系,然后根据这些关系建立一个冲突依赖关系图。

image
image
image
image

正如之前介绍的,一个冲突只有在它所依赖的所有冲突都被解决之后,这个冲突才可以被解决。但是对于那些在同一个节点里面相互重叠的冲突,需要考虑冲突里的值被检测的优先顺序。同样,我们根据这些值的dScore来确定检测的顺序。一个值的dScore越高,这个值越先被检测。每次当有一个值被修改了,整个关系图就需要随之更新。

3.3 解决依赖环

image
image
image
image
image

3.4 考虑依赖关系的交互式算法

交互式算法如算法1所示。首先要为数据集建立一个冲突依赖关系图。不考虑其他因素,只选择每个节点中dScore最高的值进行众包修复,直至节点中的所有冲突都被解决。当没有这样的节点只有环时,计算这些环中所有节点的gbScore,选择gbScore最高的节点进行处理从而分裂环。每次只要有一个值被修改,关系图、所有节点的bScore和gbScore都需要及时更新。当整个依赖关系图中没有一个节点时,算法就会结束。算法1的时间复杂度是O(mlogm+n),m是依赖关系图中所有环中的节点个数,n指图中不在环内的节点个数。

image
image
image
image
image

相关文章
|
10月前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
839 55
|
9月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
492 5
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
10月前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
490 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
11月前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法与应用
探索人工智能中的强化学习:原理、算法与应用
|
11月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
435 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
11月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
388 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
11月前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
540 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
11月前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
367 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
179 3
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-16
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-16
144 1

热门文章

最新文章