中国人工智能学会通讯——一种基于众包的交互式数据修复方法 2 前期工作和问题陈述

简介:

2 前期工作和问题陈述

2.1 基于规则的修复方法

定义1一个集合被定义为正确集合当且仅当集合中所有的值均正确。如果这两个集合不可以同时都是正确集合,我们说这两个集合之间存在冲突(Conflict)。

基于规则的修复方法依赖预定义的质量规则检测数据之间的冲突,并希望通过
清洗引起冲突的错误达到解决这些冲突的目的。本文以FD/CFD为例来展示我们的方法是如何执行的。为了便于理解,给出一个运行示例。

例1如图1(a)所示,对于给定的一个个人联系方式数据表,每个元组不仅包含一个人的Name和Inst,还包含这个人的地址信息如City、State、Country和Zip。我们在表中标出了错误数据。图1(b)中显示的是一组约束条件(FD/CFDs)。

image

(1)冲突检测根据给定的FD/CFDs,表中的许多冲突数据可以被检测出来。例如,根据规则φ2,t1和t3的Inst(UQ)相同,但t1City和t3City不一致,所以这两个City的值是互相冲突的。图2(a)显示了根据约束条件找出的表1(a)中的26个冲突,图中每一个节点表示表中的一个属性值(错误的数据已被标出),两个节点间的连线表示这两个节点发生了冲突。

(2)冲突解决当属性值之间发生冲突时,为了解决冲突我们就需要修改一些值。为了解决数据库中所有的冲突,有些方法偏向于对数据集做尽量少的修改[2,4],有些方法倾向于用一些简单的预测模型做最有可能正确的修改[1,3]。例如图2(a)所示,因为t4[Inst]和其他三个值(UQ)都冲突,为了解决这三个冲突,我们可以把t4[Inst]改成UQ(代价是1),也可以把三个UQ改成QUT(代价是3)。这两种方法都倾向于选择第一种修改方案,实际情况中第一种修正是正确的。

但是在以下三种情况中,这些方法会做出错误的决定。

image
image
image

image

(3) 修复的置信度估计基于规则修复的准确率是由FD/CFD和推导中用到的值共同决定的。因此,一个修复的质量是由用于推导的值和使用的FD/CFD的置信度决定的,即

image

2.2 交互过程中的问题陈述

我们仍然使用FD/CFDs来发现数据之间的冲突,但在确认和修正这些冲突中的错误数据时,考虑将众包加入这个过程中,以达到在一个有效的交互方式下提高修复质量的目的。需要说明的是在本文中我们暂时忽略众包修复可能带来的错误修复,在未来工作中会再考虑这个问题。

最基本的交互过程描述如下:首先设置一个质量约束条件,并根据这一质量约束对那些冲突做基于规则的修复。然后选择一些值进行众包修复,使更多的值能够用被规则修复或推导。我们迭代地进行这种交互式修复,直至没有更多的值可以被修改为止。

image
image
image
image

相关文章
|
1月前
|
人工智能 自然语言处理 物联网
GEO优化方法有哪些?2025企业抢占AI流量必看指南
AI的不断重塑传统的信息入口之际,用户的搜索行为也从单一的百度、抖音的简单的查找答案的模式,逐渐转向了对DeepSeek、豆包、文心一言等一系列的AI对话平台的更加深入的探索和体验。DeepSeek的不断迭代优化同时,目前其月活跃的用户已破1.6亿,全网的AI用户规模也已超过6亿,这无疑为其下一阶段的迅猛发展提供了坚实的基础和广泛的市场空间。
|
6月前
|
机器学习/深度学习 人工智能 算法
智创 AI 新视界 -- 提升 AI 推理速度的高级方法(16 - 2)
本文深度聚焦提升 AI 推理速度,全面阐述模型压缩(低秩分解、参数量化)、硬件加速(GPU、TPU)及推理算法优化(剪枝感知推理、动态批处理)。结合图像识别等多领域案例与丰富代码示例,以生动形象且专业严谨的方式,为 AI 从业者提供极具价值的技术指南,助力突破 AI 推理速度瓶颈,实现系统性能跃升。
|
2月前
|
人工智能 数据安全/隐私保护 异构计算
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
371 8
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
如何让AI更“聪明”?VLM模型的优化策略与测试方法全解析​
本文系统解析视觉语言模型(VLM)的核心机制、推理优化、评测方法与挑战。涵盖多模态对齐、KV Cache优化、性能测试及主流基准,助你全面掌握VLM技术前沿。建议点赞收藏,深入学习。
580 8
|
2月前
|
人工智能
AI推理方法演进:Chain-of-Thought、Tree-of-Thought与Graph-of-Thought技术对比分析
大语言模型推理能力不断提升,从早期的规模扩展转向方法创新。2022年Google提出Chain-of-Thought(CoT),通过展示推理过程显著提升模型表现。随后,Tree-of-Thought(ToT)和Graph-of-Thought(GoT)相继出现,推理结构由线性链条演进为树状分支,最终发展为支持多节点连接的图网络。CoT成本低但易错传,ToT支持多路径探索与回溯,GoT则实现非线性、多维推理,适合复杂任务。三者在计算成本与推理能力上形成递进关系,推动AI推理向更接近人类思维的方向发展。
227 4
|
3月前
|
人工智能 JSON 监控
从零开始构建AI Agent评估体系:12种LangSmith评估方法详解
AI Agent的评估需覆盖其整个生命周期,从开发到部署,综合考量事实准确性、推理路径、工具选择、结构化输出、多轮对话及实时性能等维度。LangSmith作为主流评估平台,提供了一套全面的评估框架,支持12种评估技术,包括基于标准答案、程序性分析及观察性评估。这些技术可有效监控Agent各组件表现,确保其在真实场景中的稳定性和可靠性。
1668 0
从零开始构建AI Agent评估体系:12种LangSmith评估方法详解
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
人机融合智能 | 数据与知识双驱动式人工智能
本章系统介绍了数据驱动、知识驱动及双驱动人工智能的理论与应用。数据驱动方法依赖大数据和深度学习,在图像识别、自然语言处理等领域取得突破,但面临标注成本高、可解释性差等问题。知识驱动方法通过知识表示与推理提升系统理解能力,却在泛化性和适应性上受限。为弥补单一范式的不足,数据与知识双驱动融合两者优势,致力于构建更智能、可解释且安全可靠的AI系统,兼顾伦理与隐私保护。文章还回顾了AI发展历程,从早期神经网络到当前大规模语言模型(如GPT、BERT)的技术演进,深入解析了各类机器学习与深度学习模型的核心原理与应用场景,展望未来AI发展的潜力与挑战。
310 0
|
7月前
|
数据采集 机器学习/深度学习 人工智能
数据驱动智能,智能优化数据——大数据与人工智能的双向赋能
数据驱动智能,智能优化数据——大数据与人工智能的双向赋能
537 4

热门文章

最新文章