Sora:一个具有灵活采样维度的扩散变压器

简介: Sora:一个具有灵活采样维度的扩散变压器

生成模型领域也取得了重大进展。其中,Sora是一种具有灵活采样维度的扩散变压器,被广泛认为是实现高质量视频生成的有力工具。那么,Sora究竟是何方神圣?它有哪些独特之处?又采用了哪些技术来实现其卓越的性能呢?

image.png
Sora是一个具有灵活采样维度的扩散变压器,如图4所示。它有三个部分:(1)时空压缩器首先将原始视频映射到潜在空间。(2)ViT然后处理标记化的潜在表示,并输出去噪的潜在表示。(3)类似CLIP[26]的条件机制接收LLM增强的用户指令和可能的视觉提示,以指导扩散模型生成风格化或主题化的视频。经过多次去噪,生成视频的潜在表示被获得,然后通过相应的解码器映射回像素空间。
在深入了解Sora的技术细节之前,我们先来了解一下其背后的核心理念。Sora的设计原则是拥抱视觉数据多样性,实现从原始尺寸上训练、理解和生成视频及图像。与传统方法不同,Sora可以在原始尺寸上处理不同分辨率和宽高比的图像和视频,这使得它在生成更真实和吸引人的视频方面具有显著优势。此外,Sora还强调了在训练数据中的多样性对于生成高质量结果的重要性。

image.png

  1. 数据预处理:Sora采用统一视觉表示,旨在处理具有不同持续时间、分辨率和宽高比的图像和视频。为此,它首先将视频压缩到较低维度的潜在空间,然后将表示分解为时空补丁。这种方法可以有效地处理不同尺寸和分辨率的视频,同时保留原始视频的时空信息。
  2. 视频压缩网络:Sora的视频压缩网络(或视觉编码器)通过降低输入数据的维度,尤其是原始视频,来输出一个在时间和空间上都被压缩的潜在表示。根据技术报告中的参考文献,压缩网络是基于VAE或向量量化-VAE(VQ-VAE)构建的。这种方法可以在保持原始宽高比的同时,有效地将视觉数据映射到统一且固定大小的潜在空间。
  3. 时空潜在图块:在压缩网络部分,还有一个关键问题是如何处理潜在空间维度的变化性。为了解决这个问题,Sora采用了一种叫做时空潜在图块的方法。这种方法不仅仅分析静态帧,还考虑帧间的运动和变化,从而捕捉视频的动态方面。通过这种方法,Sora能够在处理不同视频类型的潜在特征块或图块时,保持纵横比的可变分辨率图像或视频。

image.png

  1. 条件机制:Sora的条件机制类似于CLIP,它接收LLM增强的用户指令和可能的视觉提示,以指导扩散模型生成风格化或主题化的视频。这种方法使得Sora具有很强的生成能力,可以根据用户的需求生成不同风格和主题的视频。

image.png

目录
相关文章
|
2月前
|
机器学习/深度学习 自然语言处理 PyTorch
LLM-Mixer: 融合多尺度时间序列分解与预训练模型,可以精准捕捉短期波动与长期趋势
近年来,大型语言模型(LLMs)在自然语言处理领域取得显著进展,研究人员开始探索将其应用于时间序列预测。Jin等人提出了LLM-Mixer框架,通过多尺度时间序列分解和预训练的LLMs,有效捕捉时间序列数据中的短期波动和长期趋势,提高了预测精度。实验结果显示,LLM-Mixer在多个基准数据集上优于现有方法,展示了其在时间序列预测任务中的巨大潜力。
89 3
LLM-Mixer: 融合多尺度时间序列分解与预训练模型,可以精准捕捉短期波动与长期趋势
|
11天前
|
机器学习/深度学习 算法 数据可视化
基于深度混合架构的智能量化交易系统研究: 融合SSDA与LSTM自编码器的特征提取与决策优化方法
本文探讨了在量化交易中结合时序特征和静态特征的混合建模方法。通过整合堆叠稀疏降噪自编码器(SSDA)和基于LSTM的自编码器(LSTM-AE),构建了一个能够全面捕捉市场动态特性的交易系统。SSDA通过降噪技术提取股票数据的鲁棒表示,LSTM-AE则专注于捕捉市场的时序依赖关系。系统采用A2C算法进行强化学习,通过多维度的奖励计算机制,实现了在可接受的风险水平下最大化收益的目标。实验结果显示,该系统在不同波动特征的股票上表现出差异化的适应能力,特别是在存在明确市场趋势的情况下,决策准确性较高。
45 5
基于深度混合架构的智能量化交易系统研究: 融合SSDA与LSTM自编码器的特征提取与决策优化方法
|
1月前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目DWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取分为区域残差化和语义残差化两步,提高了特征提取效率。它引入了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,优化了不同网络阶段的感受野。在Cityscapes和CamVid数据集上的实验表明,DWRSeg在准确性和推理速度之间取得了最佳平衡,达到了72.7%的mIoU,每秒319.5帧。代码和模型已公开。
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
|
2月前
|
人工智能 计算机视觉
时序=图像?无需微调,视觉MAE跨界比肩最强时序预测大模型
【10月更文挑战第15天】《VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters》提出了一种创新方法,通过将时序数据转化为图像,利用视觉掩码自编码器(MAE)进行自监督预训练,实现时序预测。该模型在未进行任何时序域适配的情况下,展现了出色的零样本预测性能,并且通过少量微调即可达到最先进水平。这一研究为时序预测领域带来了新希望,同时也引发了关于模型解释性和可信度的讨论。
110 1
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
基于Mamba架构的,状态空间音频分类模型AUM
【8月更文挑战第7天】随着AI技术的发展,音频分类在诸多领域变得至关重要。传统方法如CNN面临计算成本高的问题。新兴的Mamba架构,基于状态空间模型(SSM),展示出优秀性能。受此启发,研究者开发了Audio Mamba (AUM)模型,首个完全基于SSM且不依赖自注意力机制的音频分类模型。AUM利用SSM的高效性捕捉音频时频特征,大幅降低计算复杂度,尤其适合大规模数据。实验显示,AUM在多个任务上的表现与先进自注意力模型相当甚至更好。尽管如此,AUM在复杂任务及泛化能力方面仍存在讨论空间。[论文](https://arxiv.org/abs/2406.03344)
95 1
|
7月前
|
机器学习/深度学习 算法
ATFNet:长时间序列预测的自适应时频集成网络
ATFNet是一款深度学习模型,融合时域和频域分析,捕捉时间序列数据的局部和全局依赖。通过扩展DFT调整周期性权重,结合注意力机制识别复杂关系,优化长期预测。模型包含T-Block(时域)、F-Block(频域)和权重调整机制。实验证明其在时间序列预测任务中表现优越,已发布于arXiv并提供源代码。
288 4
|
7月前
|
人工智能 计算机视觉
论文介绍:MDTv2——提升图像合成能力的掩码扩散变换器
【5月更文挑战第18天】MDTv2是掩码扩散变换器的升级版,旨在增强图像合成模型DPMs处理语义关系的能力。通过掩码操作和不对称扩散变换,MDTv2能学习图像的完整语义信息,提升学习效率和图像质量。MDTv2采用优化的网络结构和训练策略,如长快捷方式、密集输入和时间步适应损失权重,实现SOTA性能,FID分数达到1.58,训练速度比DiT快10倍。尽管计算成本高和泛化能力待验证,MDTv2为图像合成领域开辟了新方向。[链接: https://arxiv.org/abs/2303.14389]
212 1
|
机器学习/深度学习 人工智能 算法
【CIKM 2023】扩散模型加速采样算法OLSS,大幅提升模型推理速度
近日,阿里云人工智能平台 PAI与华东师范大学陈岑副教授团队合作在深度学习顶级会议 CIKM 2023 上发表 OLSS (Optimal Linear Subspace Search) 算法,这是一种针对扩散模型的采样加速算法。在这篇论文中,扩散模型加速算法的本质被建模成线性子空间的扩张过程,给出了目前方法的统一分析,并基于此设计了新的加速算法,大幅度提升了扩散模型的生成速度。
|
机器学习/深度学习 传感器 编解码
2023最新 | 单目深度估计网络结构的通用性研究
单目深度估计已经被广泛研究,最近已经报道了许多在性能上显著改进的方法。然而,大多数先前的工作都是在一些基准数据集(如KITTI数据集)上进行评估的,并且没有一项工作对单目深度估计的泛化性能进行深入分析。本文深入研究了各种骨干网络(例如CNN和Transformer模型),以推广单目深度估计。首先,评估了分布内和分布外数据集上的SOTA模型,这在网络训练期间从未见过。然后,使用合成纹理移位数据集研究了基于CNN和Transformer的模型中间层表示的内部属性。通过大量实验,观察到transformer呈现出强烈的形状偏差,而CNN具有强烈纹理偏差。
2023最新 | 单目深度估计网络结构的通用性研究
|
机器学习/深度学习 人工智能 计算机视觉
Guidance,让扩散模型的指标更能打
Guidance,让扩散模型的指标更能打
834 0