阿里云视觉AI应用创新赛开启——技术公开篇之AlibabaWood

简介:

移动互联网时代以来,人工智能(AI)技术不断发展和完善,不断展现出巨大的商业潜力,并开始在各行各业落地开花,其中计算机视觉AI技术发展最快应用最广。阿里云为响应国家“加快新型基础设施建设“的号召,以“无行业不AI“为主题,特此举办阿里云视觉AI应用创新赛,为行业应用及解决方案落地提供展示创意和想法的舞台。

本次大赛向全行业开发者用户开放,针对优秀人才、优秀作品提供百万现金奖池,为创业人才提供包括阿里巴巴资源对接与扶持、技术培训和上云指导以及导师帮助等与初创企业相关的综合服务。同时为协助本次赛事,阿里云将会与参赛者共享阿里内部视觉AI开发的实践经验,从技术,资金,资源三方面帮助企业实现场景落地。

image.png


本文将会通过解析AlibabaWood视频生产工具的算法来介绍视觉AI技术在新零售电商领域中的应用,为参赛人员开发视觉AI应用提供一种可行的思路。

AlibabaWOOD介绍

AlibabaWOOD是阿里云为了提升电商营销视频制作效率和质量而推出的工具。在电商平台,投放商品视频展示可以增加信息传播途径提升引流曝光,针对同一商品,是否投放视频展示对各关键指标影响非常大,如下图所示。

image.png
图1 单一商品图像款对比视频款


但传统的批量视频制作通常依赖于设计师提前制作的固定模板,且大批量生产的视频通常千篇一律,缺乏感染力。为了解决这一问题,AlibabaWOOD充分利用目前最先进的AI技术,抛弃了死板的视频模板,而是通过智能分析用户输入的音视频素材以及用户需求,一键生成符合投放场景的营销短视频,从分析、设计到最后的编码输出用时不超过一分钟,远远超过人类制作视频的速度。并且,得益于AI技术的应用,AlibabaWOOD可以做到视频风格和内容千人千面,无论是时尚风、科技风还是土味视频,AlibabaWOOD都可以从容应对。下图展示了AlibabaWOOD智能生成视频的核心流程,下一章节也会对其中的核心AI技术进行解析。

image.png
图2 AlibabaWOOD智能视频生成流程

AlibabaWOOD核心AI技术解析
素材解析能力

• 素材质量评估/理解:
AlibabaWood利用最新的深度学习技术以及线上海量的电商图像视频数据,自研了素材质量评估模型和素材内容理解模型,质量评估模型可以快速准确的滤除不适合制作视频的图像视频素材,保证输出视频的质量。而内容理解模型能够为智能编排模块提供全方位的素材标签,方便为素材精确匹配智能特效,如下图所示:

image.png


图3 素材质量评估

image.png


图4 素材标签示例

• 故事线生成:
作为智能编排核心技术,故事线生成模型充分利用素材标签以及美学和吸引力评分,结合影视行业规范等先验知识,可以针对不同类型的图像视频素材推荐不同的素材排序故事线,如下图所示。使得生成的视频运镜更加合理,并更具吸引力和感染力。

image.png


图5 故事线生成示例


• 视频摘要:
通过学习大量在线营销视频摘要模式,AlibabaWood适配不同视频类别的视频剪辑手法,能够对用户输入的视频素材进行镜头分割,并根据投放场景选择最佳视频片段进行剪辑。

image.png


图6 视频摘要示例

智能特效
• 音画联动:
视频节奏感可以提升观看视频的舒适性。通过智能分析音频节奏点和视频内容的视觉“节奏点”,然后通过视频插帧技术实现视频播放速率的非线性变换,从而实现音视频节奏点的完美匹配,使得视频中的人物能够随音乐舞动,极大的提升了视频内容的吸引力。
• 静转动:
为了增强静态素材主体内容的吸引力,AlibabaWood在自研图像分割能力的基础上推出静转动等智能特效,这一能力可以自动识别模特展示图像,然后对模特主体进行抠图,再对前景和背景内容加入滑动变焦效果,将静态图像转化为动态的视频内容,使得内容展示更加生动,并凸显主体信息。下一代静转动技术可以使得运镜效果更符合透视原理,并让图像中模特的肢体真正动起来。

image.png


图7 图像分割示例


• 转场等特效智能推荐:
AlibabaWood联合设计师打造了可以根据素材内容自动匹配的转场动画特效体系。使得生成的视频动效更加丰富、更加个性化,真正做到千人千面。部分效果展示如下。

image.png


图8 智能转场特效


阿里云视觉AI开发者创意应用赛向社会各界免费开放所有视觉AI技术接口,邀请全社会的企业打造属于自己的AlibabaWood。开发者可以任意使用达摩院的技术打磨自己的产品,或者将自己的产品在大赛中展出,作为主办方,阿里云将会为优秀的作品对接创业资源和孵化环境,更有总计近百万的奖金和奖品等你来拿。

体验地址https://vision.aliyun.com/experience
大赛平台https://developer.aliyun.com/ai/activity/viapi

相关文章
|
3天前
|
人工智能 编解码 安全
[译][AI OpenAI-doc] 视觉
学习如何使用 GPT-4 来理解图像。具有视觉功能的 GPT-4 Turbo 允许模型接收图像并回答与之相关的问题。了解图像上传、处理、成本计算、模型限制等详细信息。
|
17天前
招募!阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用
招募!阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用
284 0
|
1天前
|
人工智能 监控 数据处理
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
12 0
|
1天前
|
人工智能 监控 数据可视化
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】0. 一文全览Tracing功能,让你的程序运行过程一目了然
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】0. 一文全览Tracing功能,让你的程序运行过程一目了然
5 0
|
1天前
|
人工智能 API 开发者
【AI大模型应用开发】0.2 智谱AI API接入详细步骤和简单应用
【AI大模型应用开发】0.2 智谱AI API接入详细步骤和简单应用
4 0
|
2天前
|
Cloud Native Serverless 开发者
阿里云助力开发者创新:探索云原生技术的新境界
阿里云开发者社区推动云原生技术发展,提供丰富产品(如容器服务、Serverless、微服务架构、服务网格)与学习平台,助力企业数字化转型。开发者在此探索实践,共享资源,参与技术活动,共同创新,共创云原生技术新篇章。一起加入,开启精彩旅程!
42 2
|
7天前
|
机器学习/深度学习 人工智能 算法
未来AI技术的发展与应用前景
随着人工智能(AI)技术的迅速发展,其在各个领域的应用前景备受关注。本文将探讨未来AI技术的发展趋势,以及其在医疗、交通、教育等领域的潜在应用,展望AI技术对未来社会的影响和改变。
15 1
|
11天前
|
人工智能 编解码 安全
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型(LMMs)在处理高分辨率图像时的局限,提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略,有效提升了处理任意比例和高分辨率图像的能力。实验显示,LLaVA-UHD在9个基准测试中超越现有模型,且在TextVQA任务上准确率提升6.4%,同时训练时间更短。然而,模型训练成本高、泛化能力待优化是未来需解决的问题。
21 8
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
|
13天前
|
机器学习/深度学习 人工智能 算法
AI战略丨AI原生时代,应用创新蓄势待发
通过热点AI应用创新项目的观察,我们可以看到新技术的突破方向,也能发现基于生成式AI迸发出的全新商业前景落地的可能性。
AI战略丨AI原生时代,应用创新蓄势待发
|
13天前
|
人工智能 数据可视化 大数据
从埃森哲《技术展望2024》看AI拐点下的数字化趋势
从埃森哲《技术展望2024》看AI拐点下的数字化趋势
16 0

热门文章

最新文章