视频云肖长杰:视频AI科技助力短视频生态

简介: 人工智能技术是当今炙手可热的技术领域,它在制造、家居、零售、交通、安防等行业的应用已经是大势所趋。在本月云栖Techday音视频技术沙龙中,阿里云视频云产品专家肖长杰为我们分享了一些AI技术在视频中应用的小趋势,带大家回顾了AI是如何渗透到了短视频生产中的各个环节中的。

人工智能技术是当今炙手可热的技术领域,它在制造、家居、零售、交通、安防等行业的应用已经是大势所趋。在本月云栖Techday音视频技术沙龙中,阿里云视频云产品专家肖长杰为我们分享了一些AI技术在视频中应用的小趋势,带大家回顾了AI是如何渗透到了短视频生产中的各个环节中的。

趋势一:AI技术创新已经渗透到了短视频各个环节。

可能我们没有注意到,其实人工智能技术已经应用到了视频的生产、传输、消费等各个阶段。比如,在用户创作阶段,基于人脸识别及跟踪技术实现瘦脸、大眼、美白功能已经相当常见;当视频上传到服务端之后,我们会对视频内容进行审核、去重、溯源等处理,并进一步对视频的打标、分类,同时采用AI技术去定义最有美学感的封面,便于完成用户个性化搜索、智能推荐等动作,提升用户的点击率和体验。

趋势二:算法在数据积累到一个临界点后,才会带来爆发。

image

这里举个我们非常熟悉的例子,今年9月,移动资讯的独角兽平台趣头条赴美上市了,股价更是一路飙涨。趣头条的安装用户数在2018年达到一定数量级,伴随着用户数增多,上传视频数也成倍增长,所以到达了某个数据积累的临界点之后,个性化推荐的算法开始发挥其强大的作用,用户DAU激增。

趋势三:用户对视频质量要求高,短视频虽短,但处理流程趋于精细化。

移动互联网时代视频量暴增起来,但是其中不乏一些低质量的内容,比如一些互联网搬运工的作品,他们在网上下载视频后经过批量地二次加工,再上传到网上去。这种情况对于原创者是个致命的打击,同时也影响了平台的用户体验。所以,现在一般平台都采用多重方式,对视频的质量进行把控审核。处理流程大概是:面对平台100个视频,去重和版权违规过滤掉一些视频,涉黄又过滤了一部分视频,最终到转码的时候可能只有70个视频,整个处理流程变成的好处是,转码和存储的量会大大降低,用户体验也会相应提升。

image

阿里云视频AI解决方案典型场景分析

采用视频DNA技术实现视频的去重、溯源与盗版打击

短视频平台通常会面临视频大量重复的情况,所以在整个视频AI的应用中,怎么样去辨别视频的唯一性,以及根据内容分析来追溯视频来源是第一步关键所在。比如下面的攻击举例中,视频左下角的黑色键盘被稍稍做了一点改动,又上传到平台上了,这样的重复内容破坏了用户的体验,又会给平台带来大量数据冗余,也损害了原创者的利益,视频AI就可以帮助平台高效地判定对视频的剪拼改编行为。

image

这里面所用到的视频DNA,它的技术原理是:当你上传一个视频的时候,可以生成唯一的指纹,指纹的特性是唯一性,即两个不同视频拥有相同DNA的几率低于千万分之一,接近于0,同时具有稳定性,它不会随音视频文件的格式转换、剪辑拼接、压缩、旋转、增加logo等变换而变化。所以当其他视频上传的视频,你就可以再在视频库中与现有视频做检索比对,相似性达到一定程度,就被证明重复性视频。

同时,我们运用视频DNA在做相似性溯源的时候,会对视频内容关联关系进行挖掘,对视频内容制作路径溯源。它的应用场景是:平台可以先将电视剧的长视频录入库中,当用户看了长视频后,可以把相应的短视频做推荐,根据用户偏好进行推送,提升用户体验。

此外,视频DNA可以配合DRM数字版权保护技术(没有授权的账号不能播放)和视频水印(专属LOGO识别),更好的打击行业盗版。

image

谈到盗版,还有非常关键的一步是存证。视频DNA和存证体系做关联,推出了可信数字内容版权服务。方案运用了区块链将DNA等关键信息上链,实现多方透明共享、无法篡改和删除,进而构建拥有版权存证、侵权追溯和版权交易等能力的平台。可以重塑版权价值,并提供侵权监测、法律维权、IP孵化等相关服务,进而助力提升全社会的版权意识。

image

更低成高效率的视频审核

在最开始第三个趋势中,我们也提到,视频在去重后会进入审核阶段。低成本高危视频审核方案可以针对色情、广告、暴恐、涉政、不良场景、视频黑库等做审核,它具备两个特点,第一是色情图片识别准确度高于90%,模型高度灵活,可根据用户要求实时调整生效;第二是能够针对二维码、文字、logo等内容多层防护,层层过滤,以最快的速度达到最大的效果。

通常内容审核需要截取视频帧进行排查,那在直播中,我们通过业务截帧策略决策系统,先判断是否是高危业务,如果是高危的话,进行高频截帧,加大审核力度,如果不是高危业务,可直接进行关键帧截取,排除违禁内容。这样可以实现成本的节约与效率提升。

image

更“智能”的视频转码——窄带高清2.0

对点播来说,单视频带来的流量带宽非常大,那么如果有一种技术能让热点视频的单视频带宽都相应减少的话,那对整个流量带宽的节省是非常有效的。

阿里的窄带高清技术精髓就在于使每一个码率分配到最需要它的地方,利用人眼习惯来强化聚焦区域的码率,在脱焦区域少配合一些码率,通过帧间、帧内的码率分配,让整个视频的质量更高。在节省码率的同时,也能提供更加清晰的观看体验,同等视频质量下最高节省 20-40%带宽。

image

基于视频内容分析搭建智能推荐与智能生产系统

内容分析和用户标签挖掘是搭建推荐系统的基石。它可以应用在两个场景之中,第一个场景是:当上传一个短视频,系统会将其先拆成最低的元素:声音、图片、文字等,对基本维度做一些识别与分析,进而对视频采取分类、打标签等动作,选取最佳的视频封面,对于后续的广告推荐、内容个性化推荐有了基础输出。以下整个过程可以在阿里云官网的视网膜系统中体验:https://retina.aliyun.com

image

第一个是通过内容分析帮助视频内容更好地消费,那么反过来思考,我们的视频如果都是人去产生,是不是效率太低了呢?我们能不能通过一篇文章、一句话、甚至一个标签,生成一段视频?
所以有了第二个应用场景,通过视频智能产生系统,输入视频、音频、文字等信息,一系列分析后,可以从库里拿一些图片、文字、声音,去生成一个视频。在今年世界杯的时候,阿里云视频AI技术通过下图的方案,在比赛结束后几分钟内快速生成了明星集锦视频,点击跳转查看集锦

以上视频都是机器自动生成的,极大地提高了视频生产效率。

image

以上就是本次肖长杰的分享内容,感兴趣的用户欢迎登陆官网了解阿里云视频AI产品家族:

视频审核-多维度精准识别违禁内容

视频DNA-视频查重 原创识别 视频溯源 广告分成

视频智能生产-将视频AI与视频基础服务打通,提高效率

视频多模态内容理解-自动输出视频的多维度内容标签

智能封面-最优关键帧作为视频封面,提升点击转化及用户体验

智能视觉-为零算法基础的开发者和企业提供定制化模型训练能力

阿里云开年Hi购季,视频直播、视频点播、CDN全线折扣,错过这次,再等一年!点击了解活动详情

image

image

目录
相关文章
|
1月前
|
机器学习/深度学习 数据采集 人工智能
未来的守护神:AI驱动的网络安全之盾,如何用智慧的光芒驱散网络黑暗势力?揭秘高科技防御系统背后的惊天秘密!
【10月更文挑战第3天】随着网络技术的发展,网络安全问题日益严峻,传统防御手段已显不足。本文探讨了构建AI驱动的自适应网络安全防御系统的必要性及其关键环节:数据采集、行为分析、威胁识别、响应决策和执行。通过Python库(如scapy、scikit-learn和TensorFlow)的应用实例,展示了如何利用AI技术提升网络安全防护水平。这种系统能够实时监控、智能分析并自动化响应,显著提高防护效率与准确性,为数字世界提供更强大的安全保障。
60 2
|
7天前
|
人工智能 算法 新制造
走进北京科技大学,通义灵码与企业高校共筑 AI 创意课堂
近日,通义灵码有幸参与到一场由伊利集团主办的 AIGC 生态创新大赛路演舞台,与高校专家、企业代表、青年学子共同探讨 AIGC 创意应用,交流企业在数智领域转型、青年开发者科技创新的思路和落地实践。
|
1月前
|
人工智能 编解码 API
【选择”丹摩“深入探索智谱AI的CogVideoX:视频生成的新前沿】
【选择”丹摩“深入探索智谱AI的CogVideoX:视频生成的新前沿】
|
1月前
|
机器学习/深度学习 人工智能 监控
AI与未来医疗:重塑健康产业的双刃剑随着科技的迅猛发展,人工智能(AI)正以前所未有的速度融入各行各业,其中医疗领域作为关系到人类生命健康的重要行业,自然也成为AI应用的焦点之一。本文将探讨AI在未来医疗中的潜力与挑战,分析其对健康产业可能带来的革命性变化。
在医疗领域,人工智能不仅仅是一种技术革新,更是一场关乎生死存亡的革命。从诊断到治疗,从后台数据分析到前端临床应用,AI正在全方位地改变传统医疗模式。然而,任何技术的发展都有其两面性,AI也不例外。本文通过深入分析,揭示AI在医疗领域的巨大潜力及其潜在风险,帮助读者更好地理解这一前沿技术对未来健康产业的影响。
|
2月前
|
人工智能
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM
【9月更文挑战第26天】中电金信与复旦大学合作,提出一种基于身份信息增强的多媒体伪造检测方法,并入选ACM MM国际会议。该方法利用身份信息作为检测线索,构建了含54位名人324个视频的多模态伪造数据集IDForge,设计了参考辅助的多模态伪造检测网络R-MFDN,显著提升了检测性能,准确率达到92.90%。尽管如此,该方法仍存在一定局限性,如对非英语国家数据及无明确身份信息的视频检测效果可能受限。
59 4
|
3月前
|
人工智能 运维 自然语言处理
从海量信息中脱颖而出:Workflow智能分析解决方案,大语言模型为AI科技文章打造精准摘要评分体系(总篇章)
【8月更文挑战第10天】从海量信息中脱颖而出:Workflow智能分析解决方案,大语言模型为AI科技文章打造精准摘要评分体系(总篇章)
从海量信息中脱颖而出:Workflow智能分析解决方案,大语言模型为AI科技文章打造精准摘要评分体系(总篇章)
|
1月前
|
人工智能 自然语言处理 搜索推荐
Sora - 探索AI视频模型的无限可能
这篇文章详细介绍了Sora AI视频模型的技术特点、应用场景、未来展望以及伦理和用户体验等方面的问题。
27 0
|
3月前
|
机器学习/深度学习 人工智能 人机交互
ICML 2024:AI也会刷抖音!清华领衔发布短视频全模态理解新模型
【8月更文挑战第20天】SALMONN是由清华大学在ICML 2024发表的一种开创性的多模态模型,专为短视频全模态理解设计。它集成了预训练文本大模型与语音、音频编码器,能直接处理多样音频输入,在自动语音识别、翻译、情绪识别等任务中表现出色。SALMONN展现了令人兴奋的新能力,如翻译未训练语言和基于语音的问答。通过少样本激活微调,可进一步发掘其跨模态潜能。尽管如此,模型的计算成本和泛化能力仍是待克服的挑战。SALMONN标志着AI在具备通用听觉理解方面迈出重要一步。[论文链接: https://arxiv.org/abs/2310.13289]
73 3
|
3月前
|
人工智能 自然语言处理 语音技术
使用AI识别语音和B站视频并通过GPT生成思维导图原创
AI脑图现新增语音及B站视频内容识别功能,可自动生成思维导图。用户可通过发送语音或上传语音文件,系统自动转换为文本并生成结构化的思维导图;对于B站视频,仅需提供链接即可。其工作流程包括:语音转文本、文本结构化、生成Markdown、Markdown转思维导图HTML以及输出最终的思维导图图片给用户。
80 0
|
3月前
|
机器学习/深度学习 人工智能 算法