网易易盾内容风控实践（2）-阿里云开发者社区

5. 数据标注

数据标注有一些需要注意的点。首先为了降低标注的难度，我们需要细化标注文档、细节、边界解释等。第二点，为了降低标注的成本，提高标注的有效性，模型的预标注非常重要，模型对标注的数据有一定的识别效果，如果全部从头去标，有很大的标注浪费，因此尤其是对一些复杂场景的模型标注，用模型的预标注结合人工标注是非常重要的一点。第三点，就是希望提高标注的命中率和有效性，比如抽烟行为的标注，希望能标出抽烟的行为，如果随机选择数据去标注，绝大多数都是正常的，标出这些数据是没有什么用的，所以要结合数据的选择和清洗去标注。第四点是从可信度的角度去考虑，比如在标注数据时，考虑的可能是违禁或者违规相关的属性，如果不关注那些与违禁无关的属性，可能会导致模型训练是有偏的。所以从可信度的角度来说，要降低这种数据的偏向，对于一些不关心的属性，也要做一个均匀的采集和采样。第五点是希望提高标注的准确率和可用性，需要一些交叉验证和标注质检的方式。第六点是很重要的一点，与第二点类似，标注和模型训练需要高频交叉进行，不建议一次提很大量级的数据去做标注，因为可能会浪费。我们希望用不是很大量级的数据去做高频的交互，这样可以降低数据标注的开销，提高数据标注的可用性。6. 数据增强数据增强这块大家都非常熟悉，这里就不做详细的介绍了。7. 数据选择与清洗

精细化的数据流程当中比较核心的点是数据的选择和清洗。数据可能是生成的，或是模型打标的，也可能是人工打标的。我们要做的事情是区分什么时候能生成，什么时候需要模型去标注，什么时候需要人工标注。在人工标注这块还要考虑一个很重要的点是用什么样的数据去标注才是最好的，能更大地利用标注的有效性，降低标记资源的开销。数据的选择与清洗，是比较重要的环节，这里应用的前提是模型已经越过冷启动阶段，有比较不错的能力，到达深层次迭代的环节。数据的选择应用的环节主要包括选择哪些数据直接应用到模型训练、选择哪些数据进行数据标注、从已有训练集中剔除哪些(简单的)训练数据、如何构建半监督unlabel data数据集等等。这里我们考虑的点主要是上图中所列的五个方面。在选择数据进行标注的时候我们考虑的一般是uncertainty、diversity、distribution三个方面，我们肯定是要选择不确定性高、丰富度高、并且数据分布广泛的数据用于标注。在应用模型打标的方面，我们还要额外考虑Accuracy和Balance的问题。针对上图左侧所列这些热点领域的研究和应用，在内容安全的场景中都取得了明确的收益。比如Active Learing，对应于Uncertainty和Diversity的要求。然而当你遇到的是完全adversarial的样本，或是当对域外的数据完全无召回能力的时候，通过结合OOD和few shot learning的方法可以进一步提升域外数据的召回能力，从而对应于distribution的要求。在我们提升样本accuracy的时候，置信学习、noisy training的方法也是有效的提升标签准确率的方法。这样，三条链路就非常清楚了，什么数据去生成，什么数据去标注，什么数据直接用，是一个半自动化的过程。这样相较于随机采数据去标这种最原始的方式，不仅减少了标注资源，效果也会有一个量级的提升。这样，从数据角度，我们可以更好更快地去响应需求，提升模型的效果。当真正去做业务落地的时候，很难做到全自动，肯定也要有一些人工的数据分析。数据分析的内容包括当前版本的整体进度召回的情况，特定类型的召回情况，历史反馈的召回情况，模型版本之间的差异以及易误判类型的归纳。我们会做一个定向的数据补充，与数据生成、数据选择清洗是互补的，这样可以更好地去完成数据运作的流程。还包括一些特定的场景分析，比如这个类型可能在某个固定的场景下的效果不好，这时就需要人工参与以及一些经验的总结。8. 数据迭代

关于数据迭代过程，在此不做详细讨论。前面介绍的数据标注、清洗、选择、增强、分析其实都结合在耦合了半监督和自监督的整个数据迭代的框架里。核心点是我们希望无论是数据的生产、模型的打标还是人工的打标，都能最大程度地发挥数据的价值。在尽量小的开销，尽量快的速度，尽量短的周期和尽量高的频率的前提下，最大程度去发挥数据的价值。9. 数据测试与验证

内容风控场景可能用到非常多的技术手段，但是归根到底可以理解为一个识别问题或者内容理解问题。数据测试需要对齐我们的任务。测试的内容，一个是数据，一个是指标，一定是要对齐最后的目标。测试的数据要对齐最终的目标，这个很好理解。测试的指标也是要对齐最后的应用。一些中间的环节，包括一些很偏算法的指标，不能很好地反映出最终端到端的效果。数据和指标都对齐，才能保证不会出现离线侧效果很好而线上效果很差这种情况。

上图是整体的内容安全的 AI 架构。除了数据之外，算法侧还包括算法模型的优化、算法的解决方案的优化、速度性能的优化。这三个方面也是非常重要的思考点。我们在做任何一个算法时，都是从这四个方面共同去努力的。数据的管理和价值的利用也为后续的几个方面提供了广阔的空间。以上从系统化、流程化、精细化的数据工作介绍了我们在内容安全领域对 Data-Centric AI 的理解和实践，我们的目标是，希望无论数据的生成、模型的打标，还是人工的打标，都能在尽量减小开销的前提下，最大程度地发挥数据的价值。04

算法创新和数据价值之间的关系和作用

1. 自监督

自监督这个方向，有着非常强的任务相关性和场景相关性，所以我们去构建任务和场景相关的自监督基础模型集合是非常有效的从最开始的阶段就去发挥数据价值的一种方式。比如武器大类，有非常多种类的违禁武器；服饰大类，有宗教服饰、公职服饰、暴恐服饰等。我们发现，在某个大类上做一个统一的基础模型是非常有效的。做一个具体垂类的任务，我们希望在这个大类有一个比较好的或者几个比较好的初始模型，作为以后这个方向具体的新业务模型的一个初始。2. 半监督

我们在业务中发现，半监督的方法很多时候解决的是稳定性的问题，难以实现域的跨越。针对这个问题，我们也做了一些尝试，篇幅有限就不在此介绍了。3. 弱监督弱监督这个方向，包括弱监督的定位、检测、分割等等，能帮助我们更加充分地发掘出更细粒度的内容信息，从而提升识别的效果。这个方向如果和解决方案联动，有非常多的方式可以去挖掘。比如部分场景问题，用分类标签就可以拿到非常好的分割结果。也就是说从这种标注难度非常低的监督入手，能获取到更细粒度的监督信息，再结合解决方案的改进，是一个非常好的提升数据利用价值的方向。另外，无监督，开放域识别、小样本等等都会包括在整个数据流程中，它们不能直接地解决一个业务问题，但可以在业务场景中的某些环节起到非常大的作用。05问答环节Q1：模型预标注和人工智能标注怎样才能有效地结合？A1：我认为结合方式是可以在构建标注系统的时候，有一个预标注的功能。我们标注的时候并不一定是从头去标注，因为有些标注比如 OCR 的标注，或是一些很细的类别的标注，如果从头去标，复杂度非常高。从标注的人员来看，如果有一个预标签，模型对标注数据肯定是有识别能力的，当然不包括冷启动阶段，但是绝大多数是在中间的这样一个迭代的环节中。如果有预标签，标注人员一扫过去，发现模型给的是对的，就不用再做操作了。如果有标注都要人工去点，操作的复杂度和操作的差距都是非常大的。所以模型的预标注是在开始做标注系统的时候就需要考虑的一个功能。Q2：请问对于类别边界模糊的问题，除了尽可能地将标签体系建立完备之外，从模型算法的角度还有经验可以分享吗？是否可以考虑采取相似图的检索的方式进行图像的鉴别和分类呢？A2：我觉得这也是非常好的一个问题。边界模糊在算法里是细粒度分类的问题。首先，分类标准一定要清晰，否则标注是标不出来的。第二个需要从解决方案去做设计。比如在一个模型里，有 A、B、C 三个类型，其中 C 是正常，A 和 B 是两个非常近的类型，但A是违规的，B 是不违规的，那其实 B 和 C 是一类的，A 是一类的。如果你的模型需要区分 A 和 BC 的话，就会出现一个非常大问题，即 AB 是属于两类的，而它们的类间距非常小，这其实是在给模型找麻烦。我觉得可以很好地去理解这样一个问题，在流行的流程设计中，我们可以做一些难易的区分，也就是前置的一些模型仅去区分 C 和 AB，但在后面的细粒度的模型当中，只是做细粒度的一个分类，并不需要去区分，数据分布划开了之后，针对性就会更强，模型效果也会有明显的提升。从模型设计上，这种层级的难易区分的设计和考虑是非常重要的，这同时也是从速度的角度去考虑的。你提到检索环节是肯定的，现在最好的方式就是模型加库，单对模型来说，即使我们现在的流程做得很完善，数据运作的流程，包括如何生成数据，如何去打标，如何机器打标做得很快，其实也有一个周转的过程，很难做到实时的响应。模型加库的方式，从特征检索的角度来看，有很快的响应的过程，但是检索也会有它的问题，两者之间是一个互补的关系。第一个是标注边界细化这种方向，第二个是流程解决方案的设计方向，第三，你说的检索也是一个比较通用的方向。所以，我觉得模型和库的配合也已经是非常重要的一点。今天的分享就到这里，谢谢大家。

网易易盾内容风控实践（2）

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件