随着语音直播系统的发展,覆盖的用户群体越来越广泛,鱼龙混杂的用户所带来的负面影响就是语音直播系统中信息内容的不规范,为了降低这种情况对用户使用体验的影响,则需要做好敏感词屏蔽工作,以打造绿色的社交环境。
在语音直播系统中需要屏蔽的内容通常包含广告、非法词汇、谣言等,在不同的场景下所实现的屏蔽级别也会有所不同,常用的屏蔽方式通常有同步过滤和异步召回两种。在语音直播系统开发时,针对敏感词的具体的屏蔽流程是怎么样的呢?
一、敏感词的发现
1、用户举报
语音直播系统在开发时实现了举报功能,并且将其设置在了多个模块中,只要用户在使用过程中看到了不良的信息,都可以进行举报,系统就会对该举报内容进行处理。
2、内容聚合
所谓的内容聚合其实就是根据内容的相似性进行不良信息的判断,通常内容的相似性计算方式有两种,一种是可用于评论、标题等短文本的基于编辑距离的文本相似度计算方式,一种是在原始长文本中切分出有意义的Term,然后根据Term集合进行文本相似度计算。
二、敏感词的识别
1、特征识别
根据语音直播系统中后台设置的敏感词特征进行匹配。
2、模型匹配
在没有可以供参考的敏感词特征样本时,就可以通过模型匹配方式进行识别,该识别方式主要是基于机器学习。
3、规则匹配
在语音直播系统中,可使用的规则包含正则表达式、多模式匹配算法等。
三、敏感词的处理
1、基础处理
也是语音直播系统开发中比较常规的敏感词处理方式,包含封禁用户、删除用户、删除内容、封禁内容、封禁IP或设备等。
2、隐蔽操作
比较常见的隐蔽操作就是将敏感词内容设定为仅用户自己可见。
3、后续操作
将语音直播系统日常运营中发现的不良信息进行汇总,然后不断完善系统内的模型和规则,提升敏感词屏蔽效果。
在语音直播系统开发时,有很多不起眼的功能却有着不容忽视的作用,像敏感词屏蔽就是如此。其实无论是什么功能的实现,都是为了提升用户的使用体验,满足用户的使用需求,只有这样才能保证开发的语音直播系统能够吸引到更多用户。
声明:本文由云豹科技原创,转载请注明作者名及原文链接,否则视为侵权