中国人工智能学会通讯——基于众包的数据清洗模型研究 2 基于众包的主动学习模型

简介:

2 基于众包的主动学习模型

本章根据不同的应用场合设计了两种不同的主动学习模型,对劣质数据进行清洗。

由于主动学习是以少量的有标记样本作为初始训练集来标记大量的无标记样本,因此,我们在无标记大量样本中进行信息评估,选出价值更高的一类样本利用众包平台进行人工标记。根据获得的人工标记是否加入初始训练集进行再次训练,我们将基于众包的主动学习模型分为直接主动学习模型和交互主动学习模型两种。我们将分别详细阐述在不同的模型中,如何解决具体的数据清洗问题。

2.1 直接主动学习模型

针对直接法我们的基本思想是只采用初始训练集来训练我们的学习模型,其模型见图1。该方法适用于一些初始训练集信息量就已经非常有效的情况,还有对精度要求非常高而使训练集的记录只能是正确记录的情况。

image

直接主动学习算法概述如下。

image
image
image
image
image
image

2.2 交互主动学习模型

交互主动学习模型是指将众包标记过的记录反馈到训练集,对学习组件进行重新训练。在众包准确率高和效率高的情况下这种方法能够在一定程度上提高学习组件的准确率。交互主动学习模型的模型如图2所示。

image

下面给出交互主动学习算法概述。

(1)学习模型的初始化。这一阶段和直接主动学习模型是一致的(1~2行)。

(2)选择待标记记录。对每个候选修复记录,每个分量分类器都给出其预测结果,最后根据各个分量分类器的判决结果选择信息价值最大的记录进行修复。这个阶段主要是利用候选修复记录在各个分量分类器中的不一致分数来排序,将不一致分数最高的n个记录作为待标记记录。本文通过三种方法来衡量不一致分数。这n个实例经过标记加入到训练集后可以最大程度加强学习模型分类的正确性(3~4行)。

(3)结果 反馈和学习模型重训练。在这个阶段,众包平台上的工人对学习模型挑选出来的待标记记录进行标记,收集众包平台的结果,通过优化算法得到已标记记录。学习模型重新训练,去除掉那些已经得到标记的记录,在剩下的记录产生待标记记录集合。由于阶段2中选择了价值最大的记录进行标记,因此在下次迭代中已标记记录加入到初始训练集中进行再训练后,学习模型的分类正确性将得到最大加强(5~8行)。

(4)循环训练。重复阶段1~3,直到已经达到一定准确率Q,则数据集的修复完成(9~10行)。

image
image

相关文章
|
3天前
|
机器学习/深度学习 人工智能 人机交互
图形学领域的研究热点会给人工智能带来哪些挑战和机遇?
图形学中的一些研究热点,如 3D 模型生成与重建,需要大量的 3D 数据来训练模型,但 3D 数据的获取往往比 2D 图像数据更困难、成本更高。而且,3D 数据的多样性和复杂性也使得数据的标注和预处理工作更加繁琐,这对人工智能的数据处理能力提出了更高要求。例如,在训练一个能够生成高精度 3D 人体模型的人工智能模型时,需要大量不同姿态、不同体型的 3D 人体扫描数据,而这些数据的采集和整理是一项艰巨的任务.
|
2天前
|
机器学习/深度学习 人工智能 机器人
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
|
2天前
|
机器学习/深度学习 人工智能 图形学
如何将图形学先验知识融入到人工智能模型中?
如何将图形学先验知识融入到人工智能模型中?
|
3天前
|
机器学习/深度学习 人工智能 数据可视化
人工智能在图形学领域的研究热点有哪些?
AIGC:通过生成对抗网络(GAN)、变分自编码器(VAE)及其变体等技术,能够根据用户输入的文字描述、草图等生成高质量、高分辨率的图像,在艺术创作、游戏开发、广告设计等领域应用广泛。如OpenAI的DALL-E、Stable Diffusion等模型,可生成风格各异、内容丰富的图像,为创作者提供灵感和素材.
|
13天前
|
人工智能 自然语言处理 搜索推荐
人工智能与教育:个性化学习的未来
【10月更文挑战第31天】在科技飞速发展的今天,人工智能(AI)正深刻改变教育领域,尤其是个性化学习的兴起。本文探讨了AI如何通过智能分析、个性化推荐、智能辅导和虚拟现实技术推动个性化学习,分析了其带来的机遇与挑战,并展望了未来的发展前景。
|
15天前
|
人工智能 搜索推荐 语音技术
人工智能与未来教育:重塑学习方式的双刃剑
在21世纪,人工智能(AI)技术正以前所未有的速度发展,深刻影响着社会的各个方面,其中包括教育领域。本文探讨了AI如何改变传统教育模式,提出其既带来积极影响也伴随着挑战的观点。通过分析具体案例和数据,文章旨在启发读者思考如何在保留人类教师不可替代价值的同时,有效利用AI技术优化教育体验。
|
14天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
55 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与未来教育:重塑学习体验
【10月更文挑战第20天】 在21世纪的今天,人工智能(AI)技术正以前所未有的速度改变着我们的生活、工作和学习方式。本文探讨了AI如何深刻影响未来教育的各个方面,从个性化学习路径的设计到智能辅导系统的开发,再到虚拟现实(VR)和增强现实(AR)技术在学习中的应用。通过分析这些变革,我们不仅能够预见一个更加高效、互动和包容的教育未来,而且还能理解这一过程中所面临的挑战和机遇。文章强调了持续创新的重要性,并呼吁教育工作者、技术开发者和政策制定者共同努力,以确保技术进步惠及每一个学习者。
45 2
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
44 2
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-16
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-16
26 1
下一篇
无影云桌面