结合微帧编码引擎,从视频编解码角度对Sora浅析

简介: 2024年初,OpenAI发布的视频生成模型Sora成为焦点。Sora能生成长达1分钟的高质量视频,标志着生成式AI的重大突破。微帧分析了Sora的视频编码技术,发现其主要使用H.264编码,微帧的编码引擎WZ264和WZ265能显著降低视频码率,提升效率。

要问2024开年什么东西最火,那一定是OpenAI发布的轰动全球的视频生成模型——Sora,与之前的视频生成模型相比,Sora的特点是能够生成长达1分钟的视频,同时保持高视觉质量和视觉一致性,这无疑是生成式AI的一项重大突破,OpenAI亦表示,Sora是能够理解和模拟现实世界的模型的基础,这一能力将是实现AGI(通用人工智能)的重要里程碑。
OpenAI.png
随着以Sora为代表的视频生成模型的快速发展,它们在不同领域的应用也正在加速,如降低电影行业制造成本及门槛、为教育行业提供更具吸引力的视频讲解内容等等......可以预见,未来的视频量级将会呈指数型增长。

视频编解码作为视频底层核心技术之一,发挥着至关重要的作用,视频编码算法直接影响到视频的生产、传输、质量、成本等。微帧作为视频编码行业的领军企业,非常关注AIGC的行业动态,Sora发布后,微帧产研团队从编解码角度对Sora样例视频做了一系列的分析。

· Sora采用的编码器:开源软编x264、硬编

首先我们查看了所有视频的信息,发现均为H.264/AVC编码标准、帧率为30fps、分辨率最高为1080P的视频,且所用编码器输入的都是8bit YUV420格式。其中部分视频所采用的编码器为开源软编x264,另一部分未显示编码器信息,且这部分视频码率偏高,这里我们猜测可能使用的是硬编。

原始码率1.png
原始码率2.png
原始码率3.png

我们挑选了一组视频进行帧类型对比【x264编码的视频Tokyo-walk VS 未显示编码信息的视频Flower- blooming】,发现Flower-blooming视频并没有设置B帧,而无B帧这个特点也呈现了“未标注编码器信息的视频为硬件编码”的较大可能性。
源视频帧.png

· 对比x264,微帧编码引擎可节省45%~65%码率

Sora这次公开的经典视频Tokyo-walk,采用的就是开源x264软件编码器,分辨率为1080P,码率为6459kbps,体积大小为46.1MB。
Tokyo视频信息.png

我们将此视频分别用微帧编码引擎WZ264、WZ265进行了编码压缩处理,WZ264编码后的视频码率节省了45.3%(降低到3532kbps),WZ265编码后的视频码率节省了64.7%(降低到2281kbps),下面我们来看看对比效果。

从远景上看,无论是人眼感兴趣区域的人物主体,还是背景灯光、建筑物、虚化的人群,WZ264与WZ265编码压缩后的每一帧都与源视频无异。
封面2.png

再看细节,皮肤纹理、发丝、痘印瑕疵、眼镜反射物等,也基本与源视频一致。
Tokyo对比图31302.png

此经典视频的整体画面较为复杂,编码过程中需要处理的信息较多,如果是更简单的画面,微帧编码引擎的压缩率是否会更高?如果是硬编处理(未显示编码器信息)的源视频,压缩率又是如何?

· 对比硬编,微帧编码引擎可节省60%~90%码率

我们挑取10组画面相对简单、硬编处理的源视频,看看WZ264及WZ265的处理结果,可以发现,WZ264能够减小70%左右的码率,WZ265压缩率则更高,能够减小80%左右的码率。
硬编264.png
硬编265.png

其中,压缩率最高的视频为Flower-blooming,源视频码率为12049kbps,经WZ264编码后的视频码率节省了79.37%(降低到2487kpbs),WZ265编码后的视频码率节省了88.92%(降低到1335kbps),以下是与源视频的画面对比效果,可见在压缩率如此之高的情况下,画面质量依然保持每一帧都与源视频几乎无差异。
Flower封面.png

· 缘于编码技术,微帧与OpenAI建立联系

Sora目前对外展示的视频均为H.264标准视频,原因不言而喻,因其兼容性更高,能向所有用户展示研发成果。但更新一代的视频编码标准H.265及AV1的压缩率更高,待Sora向大众开放使用后,是否会考虑到视频体积问题而加入“可支持输出视频编码标准为H.265、AV1”的选择项,目前还未知,但值得期待。

再者,如果以Sora为代表的视频内容生成端,选择采用像微帧编码引擎这样的更高效率的编码器,为用户输出更高质量、更小体积的视频,也能为后续的视频传播分发带来极大价值。

基于以上分析,微帧海外团队联系了 VP of Research at OpenAl 。OpenAI表示,在目前Sora的初始阶段,主要精力投入在大模型优化改善上,视频编解码并非高优任务,也期望未来与微帧进行详细的技术交流和合作探讨。同样微帧也非常期待,当“AI生成”与“视频传播”深度链接以后,能够与OpenAI共同探讨AI与视频编码的结合,一起探索创新。

相关文章
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板
VideoWorld 是由字节跳动、北京交通大学和中国科学技术大学联合推出的自回归视频生成模型,能够从未标注的视频数据中学习复杂知识,支持长期推理和规划任务。
48 8
VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板
|
5天前
|
机器学习/深度学习 人工智能 测试技术
ParGo:字节与中山大学联合推出的多模态大模型连接器,高效对齐视觉与语言模态
ParGo 是字节与中山大学联合推出的多模态大模型连接器,通过全局与局部视角联合,提升视觉与语言模态的对齐效果,支持高效连接、细节感知与自监督学习。
44 6
ParGo:字节与中山大学联合推出的多模态大模型连接器,高效对齐视觉与语言模态
|
14天前
|
机器学习/深度学习 编解码 人工智能
STAR:南京大学联合字节开源视频超分辨率增强生成框架,视频清晰度一键提升,支持从低分辨率视频生成高分辨率视频
STAR 是由南京大学、字节跳动和西南大学联合推出的视频超分辨率框架,能够将低分辨率视频提升为高分辨率,同时保持细节清晰度和时间一致性。
122 13
STAR:南京大学联合字节开源视频超分辨率增强生成框架,视频清晰度一键提升,支持从低分辨率视频生成高分辨率视频
|
18天前
|
人工智能 物联网 Python
VMix:即插即用!字节联合中科大推出增强模型生成美学质量的开源适配器,支持多源输入、高质量视频处理
VMix 是一款创新的即插即用美学适配器,通过解耦文本提示和交叉注意力混合控制,显著提升图像生成的美学质量,支持多源输入和高质量视频处理。
51 11
VMix:即插即用!字节联合中科大推出增强模型生成美学质量的开源适配器,支持多源输入、高质量视频处理
|
18天前
|
机器学习/深度学习 人工智能 算法
RLCM:康奈尔大学推出文本到图像一致性模型优化框架,支持快速生成与任务特定奖励优化
RLCM 是康奈尔大学推出的基于强化学习的文本到图像生成模型优化框架,支持快速训练与推理,能够根据任务特定奖励函数生成高质量图像。
39 12
RLCM:康奈尔大学推出文本到图像一致性模型优化框架,支持快速生成与任务特定奖励优化
|
24天前
|
人工智能 自然语言处理
DynamicControl:腾讯推出动态地条件控制图像生成框架,结合了多模态大语言模型的推理能力和文生图模型的生成能力
DynamicControl 是腾讯优图联合南洋理工等机构推出的动态条件控制图像生成新框架,通过自适应选择不同条件,显著增强了图像生成的可控性。
61 11
DynamicControl:腾讯推出动态地条件控制图像生成框架,结合了多模态大语言模型的推理能力和文生图模型的生成能力
|
1月前
|
人工智能 编解码 机器人
NVILA:英伟达开源视觉语言大模型,高效处理高分辨率图像和长视频
NVILA是英伟达推出的视觉语言大模型,旨在高效处理高分辨率图像和长视频,同时保持高准确性。该模型通过“扩展-压缩”策略和多种优化技术,在多个领域如机器人导航和医疗成像中展现出广泛的应用潜力。
107 13
NVILA:英伟达开源视觉语言大模型,高效处理高分辨率图像和长视频
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
|
机器学习/深度学习 编解码 人工智能
【开放视觉】AI人像特效之「更快、更高、更强的互娱换脸解决方案」
换脸技术旨在将图像或者视频中的人脸替换成目标人脸,使生成的图像与目标人脸相似,且具有图像或视频中人脸的外貌特征。作为近几年计算机视觉和图形学领域较热门的应用之一,已被广泛用于互动娱乐,肖像替换,广告宣发,电影后期等场景中。本工作面向互动娱乐场景,扎根于学术前沿,聚焦于行业落地,提出了一个脸型自适应的换脸算法(SaSwap),并结合落地过程中的若干痛点难点逐一攻关,最终以高效的输出方式组成了一套完整的互娱换脸解决方案。
1941 5
【开放视觉】AI人像特效之「更快、更高、更强的互娱换脸解决方案」
|
存储 人工智能 弹性计算
重构计算,驱动视界:阿里云视觉计算思考与实践
2023年3月23日14:00(中国时间),NVIDIA GTC开发者大会阿里云开发者社区观看入口正式开放,阿里云弹性计算产品专家张新涛带来了题为《重构计算,驱动视界:阿里云视觉计算思考与实践》的分享
重构计算,驱动视界:阿里云视觉计算思考与实践