AI生成式视频往何处去 “灵动 AI”亮相网易未来大会

简介: 12月22日-23日,以“智能涌现·发现未来”为主题的网易未来大会在浙江杭州举办。在AGI 论坛“AI 三人行”圆桌对话上,南京大学智能科学与技术学院副教授易子立、「灵动AI」创始人雷海波、AI 绘画知名博主娜乌斯嘉三人,共同就《AI 生成视频往何处去?》分享精彩观点,英诺天使基金合伙人王晟为本次对话主理人。

12月22日-23日,以“智能涌现·发现未来”为主题的网易未来大会在浙江杭州举办。在AGI 论坛“AI 三人行”圆桌对话上,南京大学智能科学与技术学院副教授易子立、「灵动AI」创始人雷海波、AI 绘画知名博主娜乌斯嘉三人,共同就《AI 生成视频往何处去?》分享精彩观点,英诺天使基金合伙人王晟为本次对话主理人。

易子立首先教授表示,随着AI 热潮的来临,很多企业已经在尝试使用AI工具,但文生图、文生视频的技术仍有待进一步成熟。目前,AI生成视频的主要技术路径是扩散模型,未来的趋势有可能是归回大模型训练的方式。国外在视频生成底层技术方面具有一定的领先优势,国内在像2D 数字人、AI 社交这样的细分应用上表现更好。相信伴随算力水平的提升和技术范式的革新,将来国内有可能在某些方面超越国外。

「灵动AI」 创始人雷海波

“「灵动AI」是将生成式AI图像技术应用于营销设计端的创业企业,我们过去20年一直在视觉设计和视觉影像行业探索”。「灵动AI」 创始人雷海波在谈及视觉大模型话题时表示,过去做设计社区、媒体和设计平台,几乎每天都与设计师、设计机构打交道。据我所知,目前国内一些顶尖艺术设计类高校,已在日常教学和设计项目中应用了文生图等大模型。因此,AI在生图领域的能力毋庸置疑,但生成视频,落地应用可能还需要半年到1年的时间。

面对国内大模型厂商为何竞争不过国外的问题。他直言,造成这一现象的原因,不仅仅是技术、算力、数据集方面的差距,从设计的维度来看,国内厂商对美学理解还存在欠缺。事实上,当下 Midjourney 生成图的调性、氛围、光影质感,已经远超越人类的表现。如果国内大厂能做出类似 Midjourney 视觉模型,并结合高品质的数据集,配合行业认知和产业化落地能力,垂直应用层面一定是有很大机会的。

被问及「灵动AI」的落地应用场景,他回答的简单而直接,“我们主要是面向前缀场景,比如营销,特别是电商营销。过去,数亿的商家和数十亿的SKU(单款商品)的营销物料都是靠人工来实现的。现在试想,如果上传的商品信息既能在文字、图像等模态上保持不变,又能够与文字、图片、视频等模态模型实现很好的融合,从而为商家产出AI商品图、海报、短视频,甚至是3D交互内容,这个市场需求是很大的。今年,「灵动AI」主要发力点在文生图、垂类模型的研发及探索行业应用,但我们看到了文生图、图生视频对创意生产力带来的解放,更期待AI在3D领域的高质量生成能力”。

作为AI领域的知识博主和模型训练师,娜乌斯嘉认为,AI在视频生成领域归结为四类场景:原视频风格转化、瞬息全宇宙、图生视频、场景转换视频。目前主要是广告制作、预告片制作、推文和短视频创作等领域尝试较多。在图片生成方面, AI 已能达到各种炫目的效果,但在视频生成领域由于控制手段较少,表现力受到一定限制。例如:人物表情在视频中的一致性不够,容易出现“恐怖谷效应”。她希望在视频生成效果控制上,技术能够做到更加精准。但在AI的世界里,创造性的想法一定是大于技术。

英诺天使基金合伙人王晟

站在投资人的角度,王晟表示,目前生成式视频的热度非常高。今年,风险投资主要表现为两端集中:一是资金端集中,只有部分VC敢于真正的出手;二是项目端集中,VC的资金主要投向了计算能力相关项目,如GPU、芯片、高速无损网络、大模型等。明年,大家比较期待的是多模态模型领域,以及多模态能力的落地应用。

当然,AI作为一项智能技术,需要全社会不断地对它加深认知,需要政府、科学家、企业、媒体、资本等共同参与,这样才能促使其获得更好的良性发展。

据悉,「灵动AI」目前已上线近千个商品图场景,初步形成AI工具矩阵。由于拥有特定风格场景的LoRA模型,多个亿级参数的专用AI模型以及智能审美评价系统,在主体控制下,使生成商品图呈现独特的视觉特征和美学调性,从而为企业级用户提供更好的服务。




http://www.cnaifm.com/gyl/2023-12-25/11838.html

http://www.cnaifm.com/aimx/2023-12-21/11777.html

相关文章
|
1月前
|
存储 人工智能 Serverless
一键解锁 AI 动画视频创作,赢好礼
短视频行业的快速增长使得内容创作的速度和质量成为竞争关键。传统动画故事制作复杂且昂贵,限制了创作者对市场热点的快速反应和创新实现。本方案通过 AI 生成剧本和动画,简化创作流程并降低技术门槛,使创作者能高效生产高质量作品,迅速适应市场需求。
107 10
|
1月前
|
人工智能 安全 机器人
重磅发布的「AI视频通话」如何10分钟就实现?
2024年,OpenAI发布GPT-4o,支持文本、音频和图像的组合输入与输出,使交互更接近自然交流。传统语音助手需经历多阶段处理,容易出现延迟或误解,体验感差。本文介绍如何在阿里云上快速创建可视频通话的AI智能体,实现拟人化交互、精准感知、情绪捕捉等功能,提供高质量、低延时的音视频通话体验。通过简单的部署流程,用户可以轻松创建并体验这一先进的人机交互技术。点击“阅读原文”参与活动赢取惊喜礼物。
|
23天前
|
数据采集 机器学习/深度学习 人工智能
SkyReels-V1:短剧AI革命来了!昆仑开源视频生成AI秒出影视级短剧,比Sora更懂表演!
SkyReels-V1是昆仑万维开源的首个面向AI短剧创作的视频生成模型,支持高质量影视级视频生成、33种细腻表情和400多种自然动作组合。
327 92
SkyReels-V1:短剧AI革命来了!昆仑开源视频生成AI秒出影视级短剧,比Sora更懂表演!
|
2月前
|
机器学习/深度学习 人工智能 算法
【AI问爱答-双十一返场周】第二场企业办公视频
【AI问爱答-双十一返场周】探讨AI大模型时代对企业办公的影响。AI员工旨在辅助而非替代人类,通过深度学习、大规模训练数据和自我监督学习提升效率。视频介绍生成式智能工具如全妙系列,助力企业内容生产。关注AI问爱答,了解更多AI技术与应用。
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
Story-flicks:AI一键生成高清故事视频,5分钟搞定全流程创作
Story-flicks 是一款基于AI大模型的视频生成工具,支持一键生成包含图像、文本、音频和字幕的高清故事短视频,适用于教育、内容创作、广告营销等多个领域。
328 7
Story-flicks:AI一键生成高清故事视频,5分钟搞定全流程创作
|
15天前
|
机器学习/深度学习 人工智能 编解码
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
Wan2.1是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务,具备强大的视觉生成能力,性能超越Sora、Luma等国内外模型。
590 2
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
|
23天前
|
人工智能 Python
Light-A-Video:好莱坞级打光自由!上海AI Lab开源视频打光AI,无需训练秒改画面氛围,3步让阴天变夕阳
Light-A-Video 是由上海AI Lab联合交大等高校推出的无需训练的视频重照明方法,支持高质量、时间一致的光照控制,零样本生成和前景背景分离处理。
44 9
|
25天前
|
人工智能 数据可视化 UED
DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成
DragAnything 是快手联合浙江大学和新加坡国立大学推出的基于实体表示的可控视频生成方法,支持多实体独立运动控制、高质量视频生成,并在 FID、FVD 和用户研究等评估指标上达到最佳性能。
70 10
DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成
|
27天前
|
存储 人工智能 编解码
Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节
Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。
130 9
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
Magma:微软放大招!新型多模态AI能看懂视频+浏览网页+UI交互+控制机器人,数字世界到物理现实无缝衔接
Magma 是微软研究院开发的多模态AI基础模型,结合语言、空间和时间智能,能够处理图像、视频和文本等多模态输入,适用于UI导航、机器人操作和复杂任务规划。
116 2

热门文章

最新文章