中国人工智能学会通讯——一种基于众包的交互式数据修复方法 2 前期工作和问题陈述

简介:

2 前期工作和问题陈述

2.1 基于规则的修复方法

定义1一个集合被定义为正确集合当且仅当集合中所有的值均正确。如果这两个集合不可以同时都是正确集合,我们说这两个集合之间存在冲突(Conflict)。

基于规则的修复方法依赖预定义的质量规则检测数据之间的冲突,并希望通过
清洗引起冲突的错误达到解决这些冲突的目的。本文以FD/CFD为例来展示我们的方法是如何执行的。为了便于理解,给出一个运行示例。

例1如图1(a)所示,对于给定的一个个人联系方式数据表,每个元组不仅包含一个人的Name和Inst,还包含这个人的地址信息如City、State、Country和Zip。我们在表中标出了错误数据。图1(b)中显示的是一组约束条件(FD/CFDs)。

image

(1)冲突检测根据给定的FD/CFDs,表中的许多冲突数据可以被检测出来。例如,根据规则φ2,t1和t3的Inst(UQ)相同,但t1City和t3City不一致,所以这两个City的值是互相冲突的。图2(a)显示了根据约束条件找出的表1(a)中的26个冲突,图中每一个节点表示表中的一个属性值(错误的数据已被标出),两个节点间的连线表示这两个节点发生了冲突。

(2)冲突解决当属性值之间发生冲突时,为了解决冲突我们就需要修改一些值。为了解决数据库中所有的冲突,有些方法偏向于对数据集做尽量少的修改[2,4],有些方法倾向于用一些简单的预测模型做最有可能正确的修改[1,3]。例如图2(a)所示,因为t4Inst和其他三个值(UQ)都冲突,为了解决这三个冲突,我们可以把t4Inst改成UQ(代价是1),也可以把三个UQ改成QUT(代价是3)。这两种方法都倾向于选择第一种修改方案,实际情况中第一种修正是正确的。

但是在以下三种情况中,这些方法会做出错误的决定。

image
image
image

image

(3) 修复的置信度估计基于规则修复的准确率是由FD/CFD和推导中用到的值共同决定的。因此,一个修复的质量是由用于推导的值和使用的FD/CFD的置信度决定的,即

image

2.2 交互过程中的问题陈述

我们仍然使用FD/CFDs来发现数据之间的冲突,但在确认和修正这些冲突中的错误数据时,考虑将众包加入这个过程中,以达到在一个有效的交互方式下提高修复质量的目的。需要说明的是在本文中我们暂时忽略众包修复可能带来的错误修复,在未来工作中会再考虑这个问题。

最基本的交互过程描述如下:首先设置一个质量约束条件,并根据这一质量约束对那些冲突做基于规则的修复。然后选择一些值进行众包修复,使更多的值能够用被规则修复或推导。我们迭代地进行这种交互式修复,直至没有更多的值可以被修改为止。

image
image
image
image

相关文章
|
4月前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
3月前
|
人工智能 安全 Anolis
中兴通讯分论坛邀您探讨 AI 时代下 OS 的安全能力 | 2024 龙蜥大会
操作系统如何提供符合场景要求的安全能力,构建更加安全可信的计算环境。
|
4月前
|
数据采集 人工智能 自然语言处理
GPT被封锁了怎么办?轻松获取高质量的数据,训练自己的人工智能和大语言模型。
2023年标志着AI大模型时代的到来,GPT-4等模型在多个领域展现巨大潜力。然而,OpenAI对中国区服务的限制提出了挑战。本文探讨如何使用亮数据代理获取训练大模型所需的数据,包括确定目标、选择代理、数据抓取、清洗,并以西方历史为例,展示如何使用亮数据的静态住宅代理稳定获取DE区域数据,最终在国产AI平台上训练模型,提升知识库的丰富度和准确性。尽管面临外部障碍,但自主获取和训练数据能增强本土AI能力。
|
4月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI使用问题之如何在MaxCompute上使用Protobuf处理数据
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI使用问题之如何实现数据在MaxCompute中是永久的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5月前
|
机器学习/深度学习 人工智能 前端开发
人工智能平台PAI产品使用合集之创建了实时特征视图,里面的数据是通过什么传入的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5月前
|
机器学习/深度学习 人工智能 监控
人工智能平台PAI产品使用合集之设置了7个特征,但在最后生成的数据表中只包含了6个id_feature的特征,是什么导致的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
存储 人工智能 安全
人工智能浪潮下的数据隐私保护技术
在大数据与人工智能(AI)的高速发展中,数据隐私保护成为亟待解决的关键议题。本文将探讨当前AI时代下数据隐私保护的技术手段及其面临的挑战,并分析未来发展趋势。文章首先介绍数据隐私的重要性和当前面临的风险,然后深入讨论加密技术和匿名化处理等保护措施,最后评估这些技术的有效性及潜在的改进方向。
180 0
|
5月前
|
机器学习/深度学习 人工智能 算法
人工智能伦理:机器学习中的数据偏见与公平性挑战
在机器学习领域,算法的公正性与透明度日益成为社会关注的焦点。本文深入探讨了AI系统在处理数据时可能遇到的偏见问题及其对社会公平性的影响。通过分析具体案例和最新研究成果,本文揭示了数据偏见如何影响算法决策,并提出了减轻这些偏见的策略。文章呼吁开发更加负责任的AI系统,以促进技术与社会价值的和谐共存。
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
【5月更文挑战第4天】【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
下一篇
无影云桌面