从人工到机器智能,盗版监测在 AI 时代如何破局?

简介: 随着 5G 时代来临,新媒体行业快速发展,盗版传播平台多样化、形式多样化,版权方难 以通过有限的人力实现最大限度的维权。根据 MUSO 报告显示 2017 年盗版网站访问量达到 3000 亿次。人工智能逐渐成熟,盗版监测覆盖难、查找难的问题将迎刃而解。那么如何运行将人工智能技术运用到盗版监测中?

作者| 阿里文娱高级开发工程师 千起

一、背景

随着 5G 时代来临,新媒体行业快速发展,盗版传播平台多样化、形式多样化,版权方难 以通过有限的人力实现最大限度的维权。根据 MUSO 报告显示 2017 年盗版网站访问量达到 3000 亿次。人工智能逐渐成熟,盗版监测覆盖难、查找难的问题将迎刃而解。
那么如何运行将人工智能技术运用到盗版监测中?我们先从一个例子开始:下面是一个普 通用户查找盗版资源的过程:

image.png

上面的例子中有两个操作:搜索查找 + 结果筛选。其中“结果筛选”是用户阅读搜索结果, 并确认当前结果是否包含盗版内容。这一过程在人工智能领域叫识别,因为用户阅读的是文字, 所以我们叫它:自然语言识别。
普通用户可以很容易的判断出“哪些搜索结果包含盗版内容?”,那么机器是怎样模拟阅搜 索结果呢?下面我们分析 3 个典型的盗版搜索例子。

二、盗版搜索结果分析

1. 用户搜索盗版影片示例

image.png

2.“判断难点”分析

1)归类“判断难点” 名称近似类:系列类影片、名称包含类影片;
(1)主题不相关类:结果是资讯、新闻、彩票、广告等等信息;
(2)同名影片类:相同影片的歌曲、游戏、戏剧、通用名词等有歧义的信息;
(3)变换类:影片名称缩写、人工故意添加的干扰信息。

image.png

1)自然语言识别中怎样处理这几种情况?
(1)名称近似类:
答:回想一下人是怎样处理的?如果一个人是它知道所有影片信息,那么他就知道两个影片是不一样的。这类问题在自然语言中属于知识图谱(Knowledge Graph,简写:KG)的范畴。
(2)主题不相关类:结果是资讯、新闻、彩票、广告等等信息;
答:普通人因为有一些背景知识,是知道哪些是属于新闻类,哪些属于广告类。由于这些分类是有限的,所以自然语言中通常使用文本分类(Text classification)。常见的文本分类有二分类和多分类(输出大于 2 种分类结果)。
(3)同名影片类:相同影片的歌曲、游戏、戏剧、通用名词等有歧义的信息;
答:识别同名需要有两步。第一步提取句子中的影片实体名称,第二步辨别句子描述的是哪个领域的影片。这里需要自然语言领域中的 实体识别 (Named-entity recognition,简写:NER)+文本分类。通俗讲,实体识别是找中句子中的影片,而文本分类是区分这个句子说的是哪个领 域的影片。
(4)变换类: 影片名称缩写、人工故意添加的干扰信息。
答:这类问题和问题 1)一样,这类问题在自然语言中属于知识图谱(Knowledge Graph, 简写:KG)的范畴。模型需要背景知识,知道影片有哪些缩写。

三、自然语言识别如何识别盗版呢?

在自然语言处理领域通过有三部分。分别为:文本预处理、特征计算、模型训练/预测。
文本预处理:清洗样本,并将文本格式、符号转化为统一的形式;
特征计算: 将文本转化为数字。这一步可以使用特征工程,或者 词袋(oneHot)、文 本嵌入(word embedding)模型、深度 Transformer 模型。
模型训练/预测:选择合适的模型算法,训练模型。模型方面可以使用决策树类型(例如: XGBoost、LightGBM、Deep Forest 等等),也可以使用深度网络(例如:LSTM、BERT、 Transformer-XL 等等)。当然也可以使用多个模型(一个模型的输出,作为一个模型的输入)

image.png

那么模型是什么样子的?

image.png

下面是从样本输入到模型产出,落地一个模型需要做的步骤:

image.png

四、总结

这篇文章中提到的方法已经落地到实际工程中,准确率可以达到超越人工盗版结果判断水 平。目前自然语言仍然有非常强的业务领域特点,不同业务领域会遇到不同的行业特定问题, 而且前沿的模型提供原生的英文支持,所以在工程落地场景中,需要结合实际业务场景不断的 优化模型。

相关文章
|
5月前
|
人工智能 自然语言处理 测试技术
从人工到AI驱动:天猫测试全流程自动化变革实践
天猫技术质量团队探索AI在测试全流程的落地应用,覆盖需求解析、用例生成、数据构造、执行验证等核心环节。通过AI+自然语言驱动,实现测试自动化、可溯化与可管理化,在用例生成、数据构造和执行校验中显著提效,推动测试体系从人工迈向AI全流程自动化,提升效率40%以上,用例覆盖超70%,并构建行业级知识资产沉淀平台。
从人工到AI驱动:天猫测试全流程自动化变革实践
|
7月前
|
机器学习/深度学习 人工智能 算法
从人工决策到AI自主规划:2025物流配送管理工具的智能化升级
物流配送管理工具正经历技术革新,从手工调度1.0迈向数字孪生与AI驱动的4.0时代。新一代系统融合IoT、强化学习与路径优化算法,实现智能调度、实时执行与资源优化。多模态感知、自适应路由与弹性网络设计推动物流数字化转型。未来,量子计算、自主物流网络与认知型AI将重塑行业格局,助力物流向高效、绿色、韧性发展。
1085 0
|
8月前
|
人工智能 安全 算法
山东电力调度的AI“向新力”:电力调度,从“人工经验”到“数智赋能”的跃迁之路
国网山东电力携手阿里云及南瑞集团,打造“电网调度智慧大脑”,通过AI技术实现电力调度从自动化向智能化的跨越。该系统基于国产算力和大模型,融合气象、电网运行等多源数据,提升负荷预测、故障处置等能力,为新型电力系统建设提供“山东方案”。
996 0
|
10月前
|
机器学习/深度学习 数据采集 人工智能
快瞳AI鱼类识别 —— AI赋能海洋生物智能监测
鱼类AI识别技术基于深度学习算法,通过大量鱼类图像训练,实现对鱼类的快速精准识别。该技术模仿人类视觉系统,利用卷积神经网络(CNN)提取鱼体特征,从浅层的鳞片纹理到深层的整体形态逐步分析。快瞳科技提出的MF-Net模型突破了鱼类种类繁多、数据不均衡等难点,通过多阶段特征融合、动态权重调整及三维特征建模,显著提升识别性能。这项技术不仅重塑水产科研方式,还为海洋生物多样性保护提供智能化解决方案,推动AI在生态保护领域的应用迈入新阶段。
|
12月前
|
传感器 人工智能 物联网
健康监测设备的技术革命:AI+物联网如何让你随时掌握健康数据?
健康监测设备的技术革命:AI+物联网如何让你随时掌握健康数据?
1358 19
|
6月前
|
机器学习/深度学习 人工智能 边缘计算
AI 奶茶店吸管监测识别解决方案技术开发说明
本方案针对奶茶店打包环节中吸管与奶茶数量不匹配问题,采用AI视觉识别技术,实现自动化精准监测。
233 0
|
人工智能 搜索推荐 API
AI尝鲜:使用dify监测金融市场情绪
本实验介绍了如何利用dify创建金融市场情绪工作流,通过输入公司名称(如英伟达),使用Tavily搜索引擎获取相关金融新闻,并借助大模型(如通义千问)进行情绪分析,输出介于-1到1之间的情绪评分。实验分为四步:安装dify、设置模型供应商、配置搜索引擎以及创建工作流。最终,用户可运行工作流,获得量化的市场情绪数据,为量化交易策略提供依据。
AI尝鲜:使用dify监测金融市场情绪
|
人工智能 边缘计算 算法
AI人流热力图分析监测技术
通过深度学习算法(如CSRNet)进行实时密度估算和热力图生成,结合历史数据分析预测高峰时段,优化人员调度与促销活动。采用边缘计算减少延迟,确保实时响应,并通过数据可视化工具提升管理决策效率。
1179 24
|
人工智能 自然语言处理 并行计算
ASAL:Sakana AI 联合 OpenAI 推出自动探索人工生命的系统,通过计算机模拟生命进化的过程
ASAL 是由 Sakana AI 联合 OpenAI 等机构推出的自动化搜索人工生命系统,基于基础模型实现多种搜索机制,扩展了人工生命研究的边界。
526 1
ASAL:Sakana AI 联合 OpenAI 推出自动探索人工生命的系统,通过计算机模拟生命进化的过程