大数据和AI分析在内容安全中的应用

本文涉及的产品
内容审核增强版开发者实践包,10万次资源包1年有效
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 在中国政策下,互联网得利者如何进行内容安全管理。短信,文章,直播视频充斥着内容安全风险,本文详细介绍了阿里云盾可以为客户提供的内容安全的核心能力,适用的核心场景以及相关案例,希望与合作伙伴一起打造内容安全风险管理生态。
在中国政策下,互联网得利者如何进行内容安全管理。短信,文章,直播视频充斥着内容安全风险,本文详细介绍了阿里云盾可以为客户提供的内容安全的核心能力,适用的核心场景以及相关案例,希望与合作伙伴一起打造内容安全风险管理生态。

演讲嘉宾简介:
张钰,阿里云安全产品专家。


以下内容根据演讲嘉宾视频分享以及PPT整理而成。

本次的分享主要围绕以下三个方面:

一、内容风险治理 
二、阿里云内容安全的核心能力
三、核心场景
四、相关案例
五、我们的优势

一、内容风险治理 
1.为什么要治理内容风险?
在2017年6月1日,国家就已经正式发布网络安全法,并且在6月1日国家网申办也具备了执法权。而且在2017年刑九的修订,国家广电总局的56号令及公安部33号令,在2018年2月,网络游戏管理办法。意味着目前对应内容安全的管理,可能一年比一年严格。我们作为网络内容的运营者,对互联网内容安全是有一定的责任的。比如说,在明知道他人在提供违法犯罪信息,还支持互联网接入,服务器托管,为其提供网络存储空间,那么相关的主管责任人一样会被认为是共同犯罪。另外如果对发布的信息不进行审核管理,也会受到相关监管部门的六个月以内的整顿惩罚,甚至关停以及吊销。这些内容及条例早在我们国家的相关法律和规则上已经明确指出。
0b4ba68677682cccaf954d513628ad66b4f80c35
2.线上内容在哪些情况下会出现内容风险?
目前,平台上只要具备第三方的会员认证功能,或者对第三方的支持进行转展,以及自己发布的企业网站。都有可能存在网站的程序漏洞或者服务器安全管理漏洞,这样的话有可能被黑客利用,在网站上发布违法内容,所以内容安全的管理在这时是极其重要的。比如网站上的垃圾广告,色情内容,赌博内容,以及形形色色的违法信息的呈现。风险核心在这边主要分为三部分,第一部分,属于高危内容,影响国家安全风险内容。如涉政,暴恐,武器贩卖,高位信息的篡改,以及涉及到侮辱国家政府或者领导人的相关信息等。其次,是影响社会民生的风险。比如色情,赌博,在互联网上传播会影响未成年少年的信息,如影响未来意识形态的培养和发育的内容。第三个就是对自身业务影响,比如垃圾广告,使得推广传播的对方人员无法看到正常业务。
6100f144e4450fc230a7ec71e7efeade9e709a71
3.内部安全管理整个体系是个不断优化的数据闭环
内容风险在不断的迭代和变化,所以解决策略也会不断的更新。如果违法信息发布者的违法速度超前,可能会导致违法信息泛滥,这时需要的策略是不断的缩短攻击者的时间,降低有害信息的曝光时间。
5dff5418a40fa14e46eabac9a1a8e5eb9655de39

二、阿里云内容安全的核心能力
阿里云内容安全的核心能力分为四大部分:威胁情报,数据智能,然后必须从源头打击,最后是安全赋能的能力。
48fb7a86fe95fa8cea3f813469a4a9e3570073b6
1.数据智能
a.事前措施
在事前,对数据智能进行检测。阿里云通过外部的舆情采集,通过数据信息的大数据观点,制定数据风险模型,再通过大数据的分析,定位高危风险,并且通过关联用户信息,用户的行为信息,或者违法发布者的违法信息发布页面,从而推动线上方案,打击违法发布者,并从源头对其进行打击就可以彻底的控制内容风险。
5b616c45bdc8b33448aafa7691b2544ebb9b2237
b.事后措施
当违法信息已经产生之后,阿里云的内容安全是提供所有信息的内容安全检测,比如视频,图片,文本,语音等。目前来说,阿里云通过大数据+机器学习的智能识别,每天可以识别千亿级别的内容信息,恶意内容库已经到了过亿的内存。目前通过海量数据以及阿里云的核心产品,进行默认安全的功能,还有建立多元生态,可以保证在数据安全的情况下,进行数据智能检测,从而帮助用户满足内容安全的合规要求。
5835616c7dc499f239393c360be59fe686f399b9
c.建立蓝军形成风险检测的闭环
在上面提到过,我们和风险产生者是一个对抗的关系,那么如何解决不断变化的内容安全风险?我们会有一个蓝军的体系,蓝军体系目前包括接近5000人的志愿者。他们会在各个互联网的场景下为我们提供风险情报的内容,以及风险形容。我们有全国各个监管的一个情报通道,我们能够对国家的一些内容安全管控进行政策解读,我们可以建立新的规则,并且阿里云有自己的合作伙伴,目前我们已经与全国各地的安全联盟一起共享规则。目前我们的风险情报内容已经接近万条,而且调优规则基本上每天每周都在更新。
623b2233a001a759208860d448ec1ce57a830ac7
2.黑灰产的威胁情报能力
目前来说,我们肉眼可以看到的内容风险信息包括赌博,色情,诈骗等,其实这些内容的产生的背后其实隐藏了很多的产业链对上述犯罪信息的发布作支撑。比如说,灰帽SEO是专门针对这些非法信息提供推广服务。比如说我们去识别这些源头,他们是通过恶意注册,虚假认证和虚假交易的方式产生的。另外在市面上有提供技术支持的产业,比如提供软件,平台,工具,或者说有特殊的渠道承接这些业务。以上都是我们打击的目标和情报获取的来源。
f06301ddac157eb4361aefecaa56e8935db3ce06
3.源头打击
内容安全其实跟基础安全是一样的,安全问题的源头往往都是黑灰产。举例来说,一个企业网站,如果他的网站程序有漏洞或者服务器安全没有管理好的话,可能会被入侵,挂马甚至蹿改。比如寄生虫木马,如果访问一个页面,会产生千千万万个页面。那么如何去将产生的不属于自己业务的内容进行管理呢?需要从源头解决,比如解决本身漏洞问题,木马问题,从而保障我们的正常业务不被违法信息所攻陷。
3e141d41b5a84c15446bd558822942370dc3925d
下图是恶意发帖的产业链条分析,雇主是真正做违法产业的一些人,然后他通过下一个渠道,也就是职业发帖人,可能通过一些群或别的通道承接雇主的业务。再通过自动软件工具,进行违法内容的发布。发布最终的利益点就是推广,某些搜索引擎一旦被黑灰产所攻陷,整个信息渠道变成违法信息的推广,而不是正常信息的推广,这导致正常业务受到很大的损害。我们要将整个产业链里面的违法信息进行管理控制的话,必须要从源头上进行解决。
9569b12eeaa609196a773830b824faf49c87b397
4.安全赋能
最后是阿里云内容安全提供给客户的安全解决方案。首先了解一下如果客户要自建内容安全管理能力的话大概需要花费的成本。因为目前互联网的运营者对内容安全的管控是一个必须的工作,如果要投入自建的能力,假设日新增的图片达到百万级的话,大概需要投入的人力需要一百人的审核人力。而且这一百人,每个人要审大概一万张图片,前提是他们对违法信息的认知层面达到了一致,而且相当专业水平才能完成一万张的审核。如果用户要自建团队,需要两年的时间,并且要建算法能力,建平台,平台包含数据采集能力,数据审核能力,数据识别能力等。这样的话大概需要三十个人的开发工程师和算法工程师才能建立一个内容安全管理团队。所以如果每天新增一百万的图片的话,每年投入在内容安全管控的成本上达到一百万才能满足相关政策的要求。如果采用第三方提供的内容安全方案的话,可以节省90%的成本投入。并且阿里云内容安全服务具备相当成熟的能力。因为后端有庞大额算法工程师团队,而且已经有多年的实践经验,并且有相当庞大的政府情报渠道以及解决专家,随时可以为用户提供内容安全咨询服务。
da0efb271e3bcce611f31cac415133f466b8978d
目前云盾.内容安全可以提供文本,图片,视频以及语音的格式检测。并且支持一键接入,接入方式主要有三种,第一种是API,这种方式对本身有技术实力的用户比较适用。第二点,如果用户本身已经使用了阿里云的OSS,或者CDN,或是视频云,还是自己的一个网站,都可以为其提供一键绑定的内容安全检测,这一点适用于不具备开发能力的用户。另外是对于金融,政府,以及内容隐私性强烈要求的机构也提供本地化方案。目前识别能力分为两块,一个是通用的识别能力,线上内容安全检测分为三部分,第一部分对违法信息进行检测,比如色情,涉政,暴恐。第二部分是知识产权的检测,第三部分是定制检测。比如说不良场景,图片管理,,文本管理,以及视频管理的特殊图像的识别,我们是接受算法定制的。
10805b5672d39b818bf635d6442164eea7c0c768
云上解决方案,上面讲过,我们目前跟阿里云的核心产品,包括视频云,OSS,CDN等都有默认的合作,只需要在控制台对文件,视频一键设置和绑定。目前我们支持视频的拉流,拉流回来之后通过接口进行识别,然后通过算法进行决策之后接到控制台,在控制台可以安排管理人员对违法信息进行二次的审核和管理。
d38a587920b858fe60a58477fa1322d268009461
目前具备的回流的闭环数据体系,当产品接入之后会提供测试的环境,测试完了之后会有专业的算法运营工程师为用户提供7*24小时的专业算法调优,我们会合力一起来对标管理的内容,之后再为用户部署专属的策略,之后专业的运营中心对用户的识别接口做分析和确认。如果识别过程中出现信息数据外漏或者不准确的地方,我们会将数据进行数据回流,然后通过数据分析,对样本进行扩源,然后动态调优从而满足用户本身的适用场景。
4ee08f48e65924df410b76de4d251ccb7a9c3b87

三、核心场景
场景一:UGC内容智能审核
UGC内容主要分为几个场景。一个是会员区域,在互联网场景中,会员区域的内容很多都需要进行管理。会员的头像,会员的名字以及会员的切屏。对会员信息的更改是不允许的,所以说我们对会员区域的管理是必须要有的。另外一些交互类的,比如对发帖信息进行管理检测。第三是直播区域,如直播的封面,直播本身的视频内容以及弹幕和交互的信息。还有一部分是电商场景,这部分国家是有严禁的管控,比如烟草禁止在互联网上售卖。所以我们在电商场景也提供内容安全的检测和识别。商家的产品,产品描述需要通过管理,另外买家的买家秀也需要通过管理。另外一部分是新闻门户,如果是通过自助的媒体进行发布其实这一块的风险是较少的,但是如果是通过第三方转展的新闻,那么需要对第三方的转展内容进行内容审核,以免对平台造成进一步的风险。
0147e1a19b45d3c1ff8b613fb794d91323efee90
场景二:垃圾短信/彩信
目前中国很多运营商的公司是做短信业务的分发和售卖。对于短信,我们也提供文本反垃圾等识别服务,违法内容识别,如广告短信,赌博短信,促销短信等。
2a385668b8715a4c59d37170636d02144df8c155
功能一:智能鉴黄
目前支持图片和视频的鉴黄功能,我们的识别准确率基本上达到99%的标准。其中分为纯的色情,低俗等内容。通过国家政策的调控,我们是可以随时调配标准的。
191d6414e915af7135d455aa0b0f64383ddca47e
功能二:暴力涉政识别
我们支持暴力涉政的识别,目前包括武器,敏感人物,血腥场面,特定着装,烟光场面以及特殊符号等的识别。
52e0ca1fca15655ebc1ac2ada8aa9046079a69a1
功能三:广告识别
广告识别的特色是多层防护,层次过滤,以最快的速度达到最大的效果。其中主要包括二维码识别,OCR识别。我们可以把广告中的文字提取出来,再过一遍算法。
ad7eeaf82a1cf9ec104569e7e5fc1c30f2b2b2c5
功能四:不良场景
主要可以支持识别画中画,无意义直播,抽烟,纹身,自杀等不良场景。每个场景采用独立模型,解决了单一分类模型不同分类训练的相互干扰,准确度不高等文通。
44fcc93d9a469f12e49b6999bc035c10254f1d44
功能五:文本反垃圾
主要针对评论,正文,小说场景,文本场景。目前的技术除了关键词的提取以外,还有深度学习,语义分析的技术。语义分析主要针对小说场景。
4ed02f16facdf640bd9d7c52a1bfcb7459d8b0e8
功能六:语音反垃圾
语音识别主要包括两部分,一个是有语义,另一个是无语义。语音转文字场景中可以使用文本反垃圾的模型。第二个是声纹识别,主要在比较嘈杂的环境中识别违法的内容。
4600a8b7614fa4e78509cde6f638679afd3b2577
功能七:视频/直播流综合决策
这项功能主要包括两部分。一个是视频指纹识别,因为阿里积累了一个庞大的视频库,可以对视频中的指纹进行匹配,命中快速返回。第二是常见的直播截帧的方式,通过不同频度的截帧,多维综合决策,反馈在什么时间点出现了内容风险。
02dffaf624789ed09c3768261370db16da55aa6b
场景三:人脸定位
因为很多app有美颜的功能,化妆的功能。我们可以通过人脸识别功能,识别出人的姓名,性别,年龄,简单描述以及能够识别出敏感人物的脸。
764d1fbc362d23ae8316cdbfc080770f7053d708
场景四:人脸认证
利用人脸识别功能可以做到人脸认证,通常在实名认证的场景。比如说注册认证,远程开户等场景。比如在深圳入住酒店都有识别人脸,看这个人是不是存在风险的。阿里提供人脸1:1的比对功能,核对是否与身份证一致。
ee29583f9e2113fa45429758422dc969b8ec6057
场景五:人脸搜索
阿里可以为教育,安防机构提供相关的人脸搜索功能,比如前段时间的红黄蓝事件,帮助他们提示风险。另外在无人商店,餐饮做管理,识别风险。
6c1ad34b8011585ec02acf8f0232a20319f069c7
目前我们的功能是1:N的搜索,首先定位一个人脸,再从人脸库中进行对比搜索。
c4265e8eb7ea2f121c0d3f7721109d9e4e4ae548
场景六:图中文字抓取分析
垃圾广告中做图片文字分析,可以防止垃圾广告的宣传。另外票据信息的提取,可以帮助税务业务的执行。通过OCR功能,可以从很多图片中提取不同的文字,繁体字,特殊字符等等。
c3f0823b8797050da007c8f673f8a671e336c75d
场景七:特殊标识识别
很多标识被相关人士盗用了之后,无法保障用户的版权,阿里可以提供特殊标识识别做到版权保护。另外直播场景中的竞品屏障,如自己的直播场景中出现竞争对手的LOGO。使用LOGO检测,支持任何定制化的LOGO训练。
40046a677ee5c7e37e566dbe381f270dea91ab42

四、相关案例
1.相关案例一
目前阿里正在服务的某直播公司,每天的直播路数是2000-6000的范围内,如果单纯靠人力是无法完成识别的。阿里可以根据不同场景不同频度的截帧,利用智能化的算法,数据分析, 识别出具体的安全风险。阿里提供的方案帮助客户解决了因为无法全审所有的直播导致的风险漏洞带来的问题,并且将审核量降为了1%,为客户节省了很大的审核人力成本的投入。
c96a6f121de68b1760b768180e56710b691e32d2
2.相关案例二
阿里服务的某视频传播公司,比如有线电视,像小米电视,都是转入第三方的视频数据,阿里通过视频检测帮助客户检测不合规的内容,以免造成未成年人身心健康问题。
95f662c028f0ed8983917a258fc09325373174df

五、我们的优势
云盾在2017年8月1日正式发布,目前云盾日处理图片已经达到10亿张,并且覆盖了100种以上风险场景,而且已经有200多个算法工程师。截止2018年3月,以服务约10000+互联网企业,政府,房产,传媒公司。与50+集成厂商,虚拟运营商形成合作,希望在未来合作打造内容安全风险管理生态。
1a664537853b300cc69db1bb8daab617169ae14f

本文由云栖志愿小组董黎明整理

目录
相关文章
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
61 10
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
转载:【AI系统】AI的领域、场景与行业应用
本文概述了AI的历史、现状及发展趋势,探讨了AI在计算机视觉、自然语言处理、语音识别等领域的应用,以及在金融、医疗、教育、互联网等行业中的实践案例。随着技术进步,AI模型正从单一走向多样化,从小规模到大规模分布式训练,企业级AI系统设计面临更多挑战,同时也带来了新的研究与工程实践机遇。文中强调了AI基础设施的重要性,并鼓励读者深入了解AI系统的设计原则与研究方法,共同推动AI技术的发展。
转载:【AI系统】AI的领域、场景与行业应用
|
7天前
|
机器学习/深度学习 人工智能 算法
探索AI在医疗诊断中的应用与挑战
【10月更文挑战第21天】 本文深入探讨了人工智能(AI)技术在医疗诊断领域的应用现状与面临的挑战,旨在为读者提供一个全面的视角,了解AI如何改变传统医疗模式,以及这一变革过程中所伴随的技术、伦理和法律问题。通过分析AI技术的优势和局限性,本文旨在促进对AI在医疗领域应用的更深层次理解和讨论。
|
12天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
12月05日,由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·电子科技大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在自然语言处理中的突破:从理论到应用
AI在自然语言处理中的突破:从理论到应用
44 17
|
3天前
|
人工智能 Serverless API
尽享红利,Serverless构建企业AI应用方案与实践
本次课程由阿里云云原生架构师计缘分享,主题为“尽享红利,Serverless构建企业AI应用方案与实践”。课程分为四个部分:1) Serverless技术价值,介绍其发展趋势及优势;2) Serverless函数计算与AI的结合,探讨两者融合的应用场景;3) Serverless函数计算AIGC应用方案,展示具体的技术实现和客户案例;4) 业务初期如何降低使用门槛,提供新用户权益和免费资源。通过这些内容,帮助企业和开发者快速构建高效、低成本的AI应用。
36 12
|
2天前
|
数据采集 人工智能 分布式计算
探索 MaxCompute MaxFrame:AI 数据预处理的高效之选
探索 MaxCompute MaxFrame:AI 数据预处理的高效之选
|
7天前
|
传感器 机器学习/深度学习 人工智能
AI在自动驾驶汽车中的应用与未来展望
AI在自动驾驶汽车中的应用与未来展望
51 9
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
307 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
47 2

热门文章

最新文章