中国人工智能学会通讯——基于众包的数据清洗模型研究 2 基于众包的主动学习模型

简介:

2 基于众包的主动学习模型

本章根据不同的应用场合设计了两种不同的主动学习模型,对劣质数据进行清洗。

由于主动学习是以少量的有标记样本作为初始训练集来标记大量的无标记样本,因此,我们在无标记大量样本中进行信息评估,选出价值更高的一类样本利用众包平台进行人工标记。根据获得的人工标记是否加入初始训练集进行再次训练,我们将基于众包的主动学习模型分为直接主动学习模型和交互主动学习模型两种。我们将分别详细阐述在不同的模型中,如何解决具体的数据清洗问题。

2.1 直接主动学习模型

针对直接法我们的基本思想是只采用初始训练集来训练我们的学习模型,其模型见图1。该方法适用于一些初始训练集信息量就已经非常有效的情况,还有对精度要求非常高而使训练集的记录只能是正确记录的情况。

image

直接主动学习算法概述如下。

image
image
image
image
image
image

2.2 交互主动学习模型

交互主动学习模型是指将众包标记过的记录反馈到训练集,对学习组件进行重新训练。在众包准确率高和效率高的情况下这种方法能够在一定程度上提高学习组件的准确率。交互主动学习模型的模型如图2所示。

image

下面给出交互主动学习算法概述。

(1)学习模型的初始化。这一阶段和直接主动学习模型是一致的(1~2行)。

(2)选择待标记记录。对每个候选修复记录,每个分量分类器都给出其预测结果,最后根据各个分量分类器的判决结果选择信息价值最大的记录进行修复。这个阶段主要是利用候选修复记录在各个分量分类器中的不一致分数来排序,将不一致分数最高的n个记录作为待标记记录。本文通过三种方法来衡量不一致分数。这n个实例经过标记加入到训练集后可以最大程度加强学习模型分类的正确性(3~4行)。

(3)结果 反馈和学习模型重训练。在这个阶段,众包平台上的工人对学习模型挑选出来的待标记记录进行标记,收集众包平台的结果,通过优化算法得到已标记记录。学习模型重新训练,去除掉那些已经得到标记的记录,在剩下的记录产生待标记记录集合。由于阶段2中选择了价值最大的记录进行标记,因此在下次迭代中已标记记录加入到初始训练集中进行再训练后,学习模型的分类正确性将得到最大加强(5~8行)。

(4)循环训练。重复阶段1~3,直到已经达到一定准确率Q,则数据集的修复完成(9~10行)。

image
image

目录
打赏
0
0
0
0
1408
分享
相关文章
图形学领域的研究热点会给人工智能带来哪些挑战和机遇?
图形学中的一些研究热点,如 3D 模型生成与重建,需要大量的 3D 数据来训练模型,但 3D 数据的获取往往比 2D 图像数据更困难、成本更高。而且,3D 数据的多样性和复杂性也使得数据的标注和预处理工作更加繁琐,这对人工智能的数据处理能力提出了更高要求。例如,在训练一个能够生成高精度 3D 人体模型的人工智能模型时,需要大量不同姿态、不同体型的 3D 人体扫描数据,而这些数据的采集和整理是一项艰巨的任务.
141 50
人工智能浪潮下的编程实践:构建你的第一个机器学习模型
在人工智能的巨浪中,每个人都有机会成为弄潮儿。本文将带你一探究竟,从零基础开始,用最易懂的语言和步骤,教你如何构建属于自己的第一个机器学习模型。不需要复杂的数学公式,也不必担心编程难题,只需跟随我们的步伐,一起探索这个充满魔力的AI世界。
84 12
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
193 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
191 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
人工智能在图形学领域的研究热点有哪些?
AIGC:通过生成对抗网络(GAN)、变分自编码器(VAE)及其变体等技术,能够根据用户输入的文字描述、草图等生成高质量、高分辨率的图像,在艺术创作、游戏开发、广告设计等领域应用广泛。如OpenAI的DALL-E、Stable Diffusion等模型,可生成风格各异、内容丰富的图像,为创作者提供灵感和素材.
人工智能与教育:个性化学习的未来
【10月更文挑战第31天】在科技飞速发展的今天,人工智能(AI)正深刻改变教育领域,尤其是个性化学习的兴起。本文探讨了AI如何通过智能分析、个性化推荐、智能辅导和虚拟现实技术推动个性化学习,分析了其带来的机遇与挑战,并展望了未来的发展前景。
人工智能与未来教育:重塑学习方式的双刃剑
在21世纪,人工智能(AI)技术正以前所未有的速度发展,深刻影响着社会的各个方面,其中包括教育领域。本文探讨了AI如何改变传统教育模式,提出其既带来积极影响也伴随着挑战的观点。通过分析具体案例和数据,文章旨在启发读者思考如何在保留人类教师不可替代价值的同时,有效利用AI技术优化教育体验。

热门文章

最新文章