2 基于众包的主动学习模型
本章根据不同的应用场合设计了两种不同的主动学习模型,对劣质数据进行清洗。
由于主动学习是以少量的有标记样本作为初始训练集来标记大量的无标记样本,因此,我们在无标记大量样本中进行信息评估,选出价值更高的一类样本利用众包平台进行人工标记。根据获得的人工标记是否加入初始训练集进行再次训练,我们将基于众包的主动学习模型分为直接主动学习模型和交互主动学习模型两种。我们将分别详细阐述在不同的模型中,如何解决具体的数据清洗问题。
2.1 直接主动学习模型
针对直接法我们的基本思想是只采用初始训练集来训练我们的学习模型,其模型见图1。该方法适用于一些初始训练集信息量就已经非常有效的情况,还有对精度要求非常高而使训练集的记录只能是正确记录的情况。
直接主动学习算法概述如下。
2.2 交互主动学习模型
交互主动学习模型是指将众包标记过的记录反馈到训练集,对学习组件进行重新训练。在众包准确率高和效率高的情况下这种方法能够在一定程度上提高学习组件的准确率。交互主动学习模型的模型如图2所示。
下面给出交互主动学习算法概述。
(1)学习模型的初始化。这一阶段和直接主动学习模型是一致的(1~2行)。
(2)选择待标记记录。对每个候选修复记录,每个分量分类器都给出其预测结果,最后根据各个分量分类器的判决结果选择信息价值最大的记录进行修复。这个阶段主要是利用候选修复记录在各个分量分类器中的不一致分数来排序,将不一致分数最高的n个记录作为待标记记录。本文通过三种方法来衡量不一致分数。这n个实例经过标记加入到训练集后可以最大程度加强学习模型分类的正确性(3~4行)。
(3)结果 反馈和学习模型重训练。在这个阶段,众包平台上的工人对学习模型挑选出来的待标记记录进行标记,收集众包平台的结果,通过优化算法得到已标记记录。学习模型重新训练,去除掉那些已经得到标记的记录,在剩下的记录产生待标记记录集合。由于阶段2中选择了价值最大的记录进行标记,因此在下次迭代中已标记记录加入到初始训练集中进行再训练后,学习模型的分类正确性将得到最大加强(5~8行)。
(4)循环训练。重复阶段1~3,直到已经达到一定准确率Q,则数据集的修复完成(9~10行)。