在网络视听逐渐规范化与视频直播快速发展并行的时代下,我们为企业寻找到一种从海量的视频中快速找到违规视频的方式,帮助企业避免触犯监管风险。阿里云高级开发工程师高深在2018云栖大会·上海峰会中做了题为如何利用视频AI技术轻松应对视频直播内容审核挑战的分享,就视频内容审核、语音内容审核、复审及取证等方面做了深入的分析。
数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧!
直播视频回顾
PPT下载请点击
以下是精彩视频内容整理:
自16年以来,随着视频直播的快速发展,涌现出大量的视频直播平台,并且在各个行业和各个领域都有视频直播的影子。从17年数据来看,视频直播用户的规模已经达到3.98亿,网络直播市场整体营收规模已达304.5亿元,据统计报告显示,八大直播平台活跃主播数已达127万人。但随之而来也会产生一些问题,越来越多的私人主播出现在直播平台上,其直播的内容是很难监管的,所以这对平台监管带来了很大的风险,对于这个问题广电总局和网信办也出台了相关规定,要求各大直播平台能够对直播内容进行监管,但这并非易事。
直播内容监管痛点
监管的痛点在于监管难度大,因为其不同于以往的图片或者文字的监管,视频的监管是海量的,并且具有很强的实时性。其次就是监管成本非常高,绝大多数中小平台可能会采取人力审核的方式,但人工审核效率要低于机器的效率,另外人比较容易产生疲劳,这也是人工审核的一个难题。对于较大的直播平台会通过购买计算资源、存储资源或调用其他平台提供的算法搭建自己的审核平台,这种方式的成本也是非常高的。最后一个问题就是监管场景多,开始只是监管鉴黄这样的场景,随后对于涉政、暴恐以及广告等也需要进行监管。
视频内容审核
现如今视频直播已经可以提供涉黄、暴恐、涉证、广告以及无意义直播五大场景的监控。用户只要关心三件事,首先是用户推流;其次是回调服务,因为用户需要知道哪些流出现了问题;最后是OSS,它是用来存储取证信息的。用户只需要推流到直播中心,然后根据用户设置的配置启动一个直播审核的管控逻辑,通过媒体处理集群与智能审核集群进行实时地处理,一旦发现有问题的视频内容就会发送一个回调给用户,相关的证据也会存到OSS中。
提到AI解决问题就一定会用到高效精准的算法,这里用到的是基于深度学习技术的算法,以及阿里巴巴多年的海量数据支撑,因为数据量越大AI训练模型越好一些,此外还有200名优秀的算法工程师来维护算法的系统。
AI审核视频内容方法的优点
AI审核优势在于配置比较灵活,支持按需启动审核、支持按需调整检测频率、便捷的Feedback能力以及根据检测场景动态调整模型等;支持审核的场景丰富,包括鉴黄、暴恐、涉政和无意义直播五大场景;此外整套广告检测系统省去了很多OSS存储计算、ECS计算和网络传出等费用,并且接入简单;在算法方面提供了毫秒级延迟的高准确度的检测算法。
语音内容审核
以上都是针对图像内容的检测,声音检测也是非常必要的。声音检测逻辑很简单,首先把主播的声音分离出来,然后把语音转化成字幕,最后对文本内容场景进行分析,支持的场景主要有色情、广告、涉政、辱骂和自定义关键词。
复审
虽然有视频内容审核和语音内容审核,但AI系统的目的是帮助人解决难题而不是替代人,在处理了海量数据之后,还有少量数据需要人工审核,这就需要人工进行复审。回调实时通知就是将有问题的内容实时回调给用户,用户会根据不同的需求选择进行人工审核或者是设置阈值及时封掉,问题帧也会及时存储到用户的OSS中,但在某些场景下只看图片并不能解决问题,这时就需要直播时移快速回看,同时也支持播放器SD,做到更精准的复审。
取证
首先对问题帧已经进行了分类保存,例如涉黄的帧、暴恐的帧以及广告的帧等等,根据不同的直播流分开保存,同时也可以全量录制,但全量录制成本比较高。也可以实时按需录制,只需要在流出现问题时实时启动录制,流恢复正常时停止录制,这样就可以把有问题的这段内容录制下来以便在后续采证时用到。
成本问题
举个简单例子,假如某平台直播流为两万路,按照每两秒采样频率采样计算,检测三十天的话,如果是人工审核则需要1000人,人均企业成本为5000/月,总计每月500万元。若采用自建平台,则要包含截图费用、OSS存储费用以及内容安全接口调用费用等总计达每月374万元,但直接采用直播内容审核每月只需要108万元,所以在成本问题上是有明显优势的。