中国人工智能学会通讯——基于众包的数据清洗模型研究 2 基于众包的主动学习模型

简介:

2 基于众包的主动学习模型

本章根据不同的应用场合设计了两种不同的主动学习模型,对劣质数据进行清洗。

由于主动学习是以少量的有标记样本作为初始训练集来标记大量的无标记样本,因此,我们在无标记大量样本中进行信息评估,选出价值更高的一类样本利用众包平台进行人工标记。根据获得的人工标记是否加入初始训练集进行再次训练,我们将基于众包的主动学习模型分为直接主动学习模型和交互主动学习模型两种。我们将分别详细阐述在不同的模型中,如何解决具体的数据清洗问题。

2.1 直接主动学习模型

针对直接法我们的基本思想是只采用初始训练集来训练我们的学习模型,其模型见图1。该方法适用于一些初始训练集信息量就已经非常有效的情况,还有对精度要求非常高而使训练集的记录只能是正确记录的情况。

image

直接主动学习算法概述如下。

image
image
image
image
image
image

2.2 交互主动学习模型

交互主动学习模型是指将众包标记过的记录反馈到训练集,对学习组件进行重新训练。在众包准确率高和效率高的情况下这种方法能够在一定程度上提高学习组件的准确率。交互主动学习模型的模型如图2所示。

image

下面给出交互主动学习算法概述。

(1)学习模型的初始化。这一阶段和直接主动学习模型是一致的(1~2行)。

(2)选择待标记记录。对每个候选修复记录,每个分量分类器都给出其预测结果,最后根据各个分量分类器的判决结果选择信息价值最大的记录进行修复。这个阶段主要是利用候选修复记录在各个分量分类器中的不一致分数来排序,将不一致分数最高的n个记录作为待标记记录。本文通过三种方法来衡量不一致分数。这n个实例经过标记加入到训练集后可以最大程度加强学习模型分类的正确性(3~4行)。

(3)结果 反馈和学习模型重训练。在这个阶段,众包平台上的工人对学习模型挑选出来的待标记记录进行标记,收集众包平台的结果,通过优化算法得到已标记记录。学习模型重新训练,去除掉那些已经得到标记的记录,在剩下的记录产生待标记记录集合。由于阶段2中选择了价值最大的记录进行标记,因此在下次迭代中已标记记录加入到初始训练集中进行再训练后,学习模型的分类正确性将得到最大加强(5~8行)。

(4)循环训练。重复阶段1~3,直到已经达到一定准确率Q,则数据集的修复完成(9~10行)。

image
image

相关文章
|
1月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
253 120
|
2月前
|
人工智能 数据挖掘 大数据
人工智能模型决策过程:机器与人类协作成效
决策智能(DI)融合AI与人类判断,提升商业决策质量。通过数据驱动的预测与建议,结合人机协作,实现更高效、精准的业务成果,推动企业迈向数据文化新阶段。(238字)
|
7月前
|
机器学习/深度学习 人工智能 算法
普通人怎么学人工智能?这些隐藏学习秘籍大揭秘,生成式人工智能认证(GAI认证)来助力
在人工智能(AI)快速发展的今天,普通人学习AI已成为必然趋势。本文从明确学习目标与路径、利用多元化资源、注重实践应用、关注GAI认证及持续自我提升五个方面,为普通人提供系统化的AI学习指南。通过设定目标、学习编程语言、参与项目实践和获取专业认证,普通人可逐步掌握AI技能,在未来职场中占据优势并开启智能时代新篇章。
|
7月前
|
人工智能 算法 安全
深度:善用人工智能推动高等教育学习、教学与治理的深层变革
本文探讨人工智能技术与高等教育深度融合带来的系统性变革,从学习进化、教学革新与治理重构三个维度展开。生成式AI作为技术前沿代表,正通过标准化认证体系(如培生的Generative AI Foundations)提升职场人士、教育者及学生的能力。文章强调批判性思维、高阶认知能力与社交能力的培养,主张教师从经验主导转向数据驱动的教学模式,并提出构建分布式治理结构以适应技术迭代,最终实现人机协同的教育新生态,推动高等教育在智能时代焕发人性光辉。
|
8月前
|
人工智能 自然语言处理 算法
生成式人工智能认证(GAI认证)与标准化进程协同发展及就业市场赋能研究
本文探讨生成式人工智能认证(GAI认证)在人工智能标准化进程中的重要性,分析其对就业市场的积极影响及未来发展趋势。GAI认证不仅是个人AI能力的权威认可,还推动行业标准化与技术创新。文章指出,随着技术融合加速和应用场景拓展,GAI认证标准需不断完善,以应对技术更新、数据安全等挑战,为AI健康发展贡献力量。
|
7月前
|
数据采集 人工智能 缓存
深挖“全栈智算”之力 中兴通讯开启AI普惠新纪元
深挖“全栈智算”之力 中兴通讯开启AI普惠新纪元
241 1
|
机器学习/深度学习 人工智能 机器人
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
301 95
|
机器学习/深度学习 人工智能 图形学
如何将图形学先验知识融入到人工智能模型中?
如何将图形学先验知识融入到人工智能模型中?
323 94
|
11月前
|
人工智能 JSON 算法
魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了!
现在,魔搭上的众多模型支持在阿里云人工智能平台PAI-Model Gallery上使用阿里云算力资源进行模型训练和部署啦!
712 22

热门文章

最新文章