内容安全(Content security)是信息安全的一个分支,其目的为识别、阻断不良信息传播,例如滥发电子消息(Spamming)、色情内容、犯罪内容、恐怖主义内容、政治敏感内容等。涉及技术包括自然语言处理、计算机视觉等,涉及内容包括文字、图片、音频、视频等。互联网数据爆炸式增长,充斥着大量不可控因素。内容安全机器审核已成为各大互联网公司内部主要的工具之一。
内容安全特点
内容安全范围
内容算法架构
主流内容安全算法介绍
- textcnn
- swem
- cnn_swem
- SCLstm(LSTM Network Model Combining TextCNN And Swem)
- 效果对比
- Bert
- Bert如何落地使用
Q:模型效果好,性能不能满足需求A:
(1)Cut Network:12层的必要性
(2)max_sen_length:512的必要性
(3)Bert Distill
基于transformer 结构蒸馏:减少transformer encoding 的层数和hidden size 大小,主要差异体现在loss 的设计。BERT-PKD 、DistilBERT、TinyBERT等。基于其它简单结构(CNN、BiLSTM )蒸馏。
- Bert_distill
How to do?
Teacher model finetuning
打标:train data (and unlabeled data ) 打标(soft label and hard label)
Distillation:硬标签和软标签联合训练,在student model 的基础上加一个soft label 的loss
function,loss = lambdahard_loss +(1-lambda)soft_loss使用蒸馏后的模型预测.
- Bert_distill效果