【最新】火出圈的Sora到底是什么?5000字长文带你彻底了解Sora!

简介: 火出圈的Sora,是OpenAI最近发布的一款革命性文生视频大模型,引发了广泛的关注和讨论。在这篇5000字的长文中,我们将深入探讨Sora的技术特性、应用前景以及它对未来人工智能发展的潜在影响,带你彻底了解这个火出圈的Sora究竟是什么。

原文链接:【最新】火出圈的Sora到底是什么?5000字长文带你彻底了解Sora!

你好,我是扑扑特桔!

亲爱的读者你好,我是扑扑特桔,一个专注于AI的研究生。

点赞关注收藏,带你随时了解最新AI动态。

基本概念

OpenAI是一家致力于人工智能研究和推广的领先机构,自2015年成立以来,不断在深度学习、自然语言处理等领域取得突破。

通过GPT-4等模型,OpenAI巩固了其在人工智能技术创新和应用开发领域的领导地位,致力于推动AI技术的安全和伦理发展,以造福全人类。

(PS:如果你需要开通ChatGPT-4.0的话,请查看:订阅GPT4保姆级教程

OpenAI的最新成果Sora,一个先进的文生视频大模型,于2024年2月18日发布,标志着OpenAI在视频生成技术方面的重大进步。Sora的发布展现了OpenAI在生成视频质量、分辨率、文本语义还原等方面的卓越能力。

什么是Sora

Sora是OpenAI于2024年2月18日凌晨发布的新的文生视频大模型,名为 “ Sora ”。
从OpenAI在官网展示的Sora生成视频的效果来看,在生成视频质量、分辨率、文本语义还原、视频动作一致性、可控性、细节、色彩等方面非常好!

特别是可以生成最长1分钟的视频!生成的画面可以很好的展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系,并且镜头丝滑可变。超过Gen-2、SVD-XT、Pika等主流产品,一出手就是王炸。

image.png

Sora引发全球的关注

Sora的横空出世引发了全球的关注,网民纷纷惊叹于人工智能的高速发展,一众大V也发表观点。

360创始人周鸿祎对Sora给予了极高的评价,他认为,Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。

周鸿祎认为,科技竞争最终比拼的是让人才密度和深厚积累,“很多人说Sora的效果吊打Pika和Runway。这很正常,和创业者团队比,OpenAl这种有核心技术的公司实力还是非常强劲的。有人认为有了AI以后创业公司只需要做个体户就行,实际今天再次证明这种想法是非常可笑的。”

他还提到,尽管国内大模型发展水平表面看已经接近GPT-3.5,但实际上跟4.0比还有一年半的差距。OpenAl手里应该还有一些秘密武器,无论是GPT-5,还是机器自我学习自动产生内容,“奥特曼(OpenAI CEO)是个营销大师,知道怎样掌握节奏,他们手里的武器并没有全拿出来。这样看来中国跟美国的AI差距可能还在加大。

Sora发布后数小时,马斯克在社交媒体上回复了“gg humans”,gg为Good Games缩写,代指“打得好,我认输” 。之后马斯克还称,通过AI增强的人类将在未来几年创造出最好的作品。

GPT商店中有Sora GPT吗?

目前没有任何GPT可以使用Sora AI。有些可能使用“Sora”这个关键词来吸引注意,但实际上是不可用的。

Sora的能力

只需在提示框中输入单词、短语或句子,Sora就会根据这些信息自动生成场景。它目前可以达到这些效果:

  • 生成具有多个角色和特定动作的复杂场景。
  • 根据用户提示准确详细描述主题和背景。
  • 理解在生成的场景中请求元素的物理存在。

OpenAI表示,Sora可以生成包含几个角色、特定类型的动作以及详细的主题和背景的复杂场景。模型“不仅理解用户在提示中请求的内容,还理解这些事物在物理世界中是如何存在的”。

OpenAI的Sora有替代品吗?

目前没有。它在视频质量方面超越了其他产品,如Runway、Pika、Stable video。

Sora有多厉害?

根据OpenAI在twitter上发布的初始示例和创作者在社交媒体平台上的建议,Sora能够根据提示准确地创建视频。

image.png

但openai也承认,当前的Sora模型存在不足之处。即“它可能在准确模拟复杂场景的物理特性方面存在困难,可能不理解特定的因果关系实例。”

我可以在ChatGPT上使用Sora AI吗?

Sora目前还不能在ChatGPT系统或其他OpenAI产品中使用。由于访问权限仍然限于选定的测试组,因此尚未启用与公共工具如ChatGPT的集成。

Sora的当前限制

  • 在准确模拟复杂物理过程方面存在困难。
  • 有时会误解空间细节和特定事件序列。
  • 在创建合理的运动和准确建模对象与角色之间的交互方面存在问题。

Sora对未来影响几何?哪些人会因此失业

不可否认,技术的变革是把双刃剑,在关注应用前景的同时也有不少人担忧会被AI抢了饭碗。

目前最容易受到影响的或许是影视行业的从业者。例如视频剪辑师、后期制作这类岗位,视频模型Sora能够自动或半自动地生成视频,这可能会导致传统的视频制作和编辑职位的需求下降。后期制作包括剪辑、特效、音效等环节,这些工作也可以通过AI技术进行自动化或半自动化处理。

但是,Sora 的出现让世界看到了人工智能的无限可能。2024年第一块坚实的里程碑落下了,带给人类的依旧是希望大于绝望。因此不一定会造成失业潮。相反,它可能促使视频行业朝着更高端、更创新的方向发展。

如何使用Sora

Sora是否向公众开放,是否免费?

OpenAI表示,目前Sora向“红队成员”开放,即能够评估风险并识别潜在问题(如错误信息、偏见和仇恨内容)的专家。他们将“对抗性”地测试模型。

Sora还将对一些视觉艺术家、设计师和电影制作人开放——根据OpenAI首席执行官Sam Altman的说法,这是“有限数量的创作者”,以获取反馈,以改进平台,使其对创意专业人士更有用。

目前,对这些用户而言,Sora是免费的,他们将获得模型的早期访问权限。

然而,目前尚不清楚一旦Sora向公众开放,OpenAI是否会收取费用。OpenAI已经推出了ChatGPT和其图像创建工具Dall-E的付费模型。

如何获取Sora的访问权限并使用Sora?

您现在还无法登录使用Sora AI。目前还没有请求访问的方式。

Sora的访问权限目前仅限于一小部分测试者。OpenAI已授权给红队研究员、视觉艺术家、设计师和电影制作人,以评估潜在的危害、收集创意反馈,并推进Sora模型的能力。

image.png

然而,目前还没有公共API或更广泛的可用性。

OpenAI网站上展示的能力展示了这种文本到视频生成模型的潜力,但实际的手动访问权限仍限于内部测试和某些外部试点组。

OpenAI指出,他们可能会在将来将Sora集成到商业产品中时考虑更广泛的访问权限,但任何公共访问的时间表仍然未定义。

目前,创新的Sora模型仅对OpenAI之外的一小组测试用户启用。更广泛的公共访问可能取决于OpenAI自己的使用政策和风险容忍度,因为这项技术继续发展。

Sora的安全性

Sora是否安全?

就像任何其他AI平台一样,对Sora可以生成的内容存在担忧。OpenAI表示,它正在努力解决这些问题。

除了与红队成员合作外,OpenAI表示,它还在构建工具来帮助检测误导性内容,包括一个可以识别视频是否由Sora生成的“检测分类器”。

OpenAI的文本分类器将“检查并拒绝违反我们使用政策的文本输入提示”,例如当用户请求与极端暴力、色情内容、仇恨图像、名人肖像或他人的知识产权相关的内容时。

OpenAI还表示,它将与全世界的政策制定者、教育工作者和艺术家合作,“了解他们的担忧,并识别这项新技术的积极用例”。

Sora的内容限制

Sora遵循伦理指南和安全协议,限制推广暴力、侵犯版权或被认为有害的内容。它鼓励在一个安全、尊重的框架内创造力。

安全措施

  • 与红队合作评估潜在危害或风险。
  • 开发用于检测误导内容的工具。
  • 应用来自DALL·E 3的现有安全方法,包括文本和图像分类器,以确保遵守使用政策。

Sora API相关

OpenAI Sora API

根据OpenAI介绍Sora的博客文章,Sora模型目前没有公开的API可用。

这意味着目前Sora的访问权限仅限于特定的测试用户,并未向公众开放。这主要是考虑到潜在的风险。

该帖子还提到了将来可能在OpenAI的产品中部署Sora的计划。这表明从长远来看,OpenAI可能会为用户通过商业产品开放Sora的访问权限,但目前还没有公开的API或其他访问渠道。

总之,Sora模型目前没有启用任何形式的公开API,仅限于内部测试和选定用户。OpenAI是否决定开放API访问可能取决于他们的未来商业计划。如果需要对这个英文解释进行任何额外的澄清,请让我知道!

Sora定价及Sora API的定价

Sora AI是否免费使用?我不这么认为,因为生成视频需要GPU。

围绕OpenAI将对公开发布的Sora模型收取多少费用有很多好奇心。在回顾了OpenAI发布的有关Sora能力的研究之后,我预测他们将采取基于输出分辨率等因素的分层定价方法。对于需要最多计算资源的全高清质量视频,价格可能从每分钟生成10美元起;更高的价格也不会令人意外。我的感觉是,初始需求将最强烈地来自电影、流媒体节目和游戏开发等娱乐领域,这些领域可以充分利用视频AI助手。但成本将决定除这些行业之外的专业创作者能多广泛地利用Sora。

随着我们等待OpenAI正式的定价公告,围绕这个开创性但昂贵的模型可能对多个领域产生的影响有很多猜测。

Sora和其他工具的比较

Sora VS Diffusion

Sora与以前的扩散模型相比,在长达1分钟的视频中展现出了令人印象深刻的连贯性。DALL-E专注于图像,而Sora展示了将书面提示不

仅转化为独立场景,而且平滑过渡、多视角视频序列的能力。

这代表了从静态图像扩散技术向前的重大飞跃。通过在帧之间保持时间连贯性,Sora解决了其他生成视频方法所面临的核心挑战——在动态上下文中保持身份和物理可能性。

研究团队归功于变压器架构的使用,使得在空间和时间上更好地整合,以及新颖的基于补丁的训练方法,为解锁Sora的强大视频能力打开了大门。

虽然图像质量和保真度继续迅速进步,但Sora在连贯、连续生成视频方面取得了进展,这是其他扩散实现所缺乏的。其运动建模和物理意识显示了对长形式视频应用的独特前景。

展望未来,Sora似乎为进一步探索扩散方法在复制我们周围可见世界的核心原则方面的能力设定了基准。

Sora VS Midjourney

尽管Sora和Midjourney都展示了引人注目的文本到图像/视频生成能力,但他们的方法目前不允许直接比较。

Midjourney专注于使广泛的公众能够访问其图像扩散模型,在此过程中建立了一个强大的艺术社区。

然而,Sora的访问仍然受到严格限制,仅限于内部测试,限制了对其方法论强弱点的可见性。我们还没有观察到Midjourney为每个用户在提示和风格方面赋予的细微控制和定制程度。

而且,视频本身就比单个图像复杂。也就是说,Sora在连贯的长形视频平滑和视角方面的明显专业性似乎与Midjourney的核心竞争力不同。

最终,缺乏公共Sora访问意味着与Midjourney等创意平台的强健基准测试还不可行。

评估Sora的技术在多大程度上可能增强、扩展或取代像Midjourney这样的解决方案,将不得不等到OpenAI开放正式访问或提供更多透明度。

目前,两者都指向AI创造力的未来,但比较输出将需要Sora首先提供更多的公开可用性。

Sora VS DALL·E 3

Sora是OpenAI能够生成长达一分钟的高保真视频的最大模型。它是一个生成模型,经过训练,可以处理不同持续时间、分辨率和宽高比的视频和图像数据,使用基于变换器的架构,操作视频和图像潜在代码的时空补丁。Sora的开发是扩大视频生成模型规模努力的一部分,这被视为构建物理世界通用模拟器的有希望的路径。

Sora和DALL-E 3之间的关系主要在于它们对生成建模的共享方法以及它们在模拟物理世界方面的使用。

DALL-E 3以根据文本描述生成图像而闻名,使用了与Sora类似的方法来利用大规模生成模型。

Sora将这一能力扩展到视频生成,允许创建动态视觉内容。两个模型都展示了使用生成模型创建多样化和复杂的媒体输出的

潜力,为AI驱动的内容创建做出了贡献。

Sora VS Pika, Runway, Stable Video Diffusion

模型 发布日期 使用便捷性 特点 价格
OpenAI Sora 2024年2月 未知 强大、多功能 尚未开放
Pika 2023年1月 简单 用户友好,多种风格和效果 订阅制
Runway 2023年 困难 强大、多功能 订阅制
Stable Video Diffusion 2023年 困难 视频稳定和增强 自托管/订阅制

不同点

  • OpenAI Sora是最强大的文本到视频生成模型,但它仍在开发中,可能难以使用。
  • Pika是Sora的一个更用户友好的替代品,可用于生成具有多种风格和效果的视频。
  • Runway和Stable Video Diffusion是视频编辑平台,提供创建和编辑视频的多种工具,包括文本到视频生成。

Sora技术相关

Sora最大的技术突破是什么?

目前,文生视频领域因为帧间依赖处理、训练数据、算力资源、过拟合等原因,一直无法生成高质量的长视频。

Sora最大技术突破是,可以在保持质量的前提下,生成1分钟的视频,在业内非常罕见。这也再次展示了OpenAI在大模型领域超强的技术研发能力。

Sora原理概述

此前,openai发布了Sora技术报告,我也为大家准备了一份技术报告的思维导图分析。需要的话请查看:Sora原理?Sora技术报告解读(思维导图版)

Sora是一种扩散模型,主要通过静态噪音的视频开始生成视频,然后再通过多个步骤去除噪音,逐渐转换视频。

Sora与ChatGPT一样采用的是Transformer架构,并使用了DALL-E 3中的重述技术,是一种为视觉训练数据生成高精准描述性的字幕。所以,Sora在生成视频过程中精准还原用户的文本提示语义。

image.png

Sora未来发展

未来计划

  • 让红队、视觉艺术家、设计师和电影制作人访问Sora,以获取反馈。
  • 计划在未来部署中加入C2PA元数据。
  • 与全球的政策制定者、教育工作者和艺术家合作,了解潜在的积极用例和关切。
相关文章
|
自然语言处理 iOS开发
ChatGPT出圈,不在于技术牛
ChatGPT出圈,不在于技术牛
75 0
|
2月前
|
机器学习/深度学习 自然语言处理 测试技术
CoT神话破灭,并非LLM标配!三大学府机构联手证实,CoT仅在数学符号推理有用
【10月更文挑战第17天】链式思维(CoT)曾被认为是大型语言模型(LLM)激发推理能力的关键方法,但最新研究显示,CoT仅在数学和符号推理任务中有效,其他任务中效果不明显。加州大学伯克利分校、斯坦福大学和卡内基梅隆大学的联合研究打破了CoT作为LLM标配的神话,为重新评估LLM的推理能力提供了新视角。
49 1
|
3月前
|
人工智能 监控 算法
SORA问世,人类走向终局
SORA问世,人类走向终局
48 0
|
7月前
|
人工智能 自然语言处理 安全
GPT-4通过图灵测试,胜率高达54%!UCSD新作:人类无法认出GPT-4
【5月更文挑战第27天】GPT-4在图灵测试中达到54%的胜率,使人类无法辨别其身份,展示出强大的人工智能模拟人类行为的能力。这项由UCSD进行的研究超越了ELIZA的22%,但未及人类67%的真实水平。尽管成果显著,图灵测试的局限性及AI伦理问题也随之浮现,引发关于技术控制与安全性的讨论。该进展预示着人工智能在客户服务等领域有广阔应用前景。[[arXiv:2405.08007](https://arxiv.org/pdf/2405.08007)]
85 1
|
人工智能 关系型数据库 机器人
向量加成,亚运会文献AI培养
通过将历年来亚运的资料输入AI学习, 构建AI知识库问答应用
74 352
向量加成,亚运会文献AI培养
|
机器学习/深度学习 人工智能 API
一口气看完《哈利波特》:AI大模型「量子速读」,一分钟抵人类五小时
一口气看完《哈利波特》:AI大模型「量子速读」,一分钟抵人类五小时
239 0
一口气看完《哈利波特》:AI大模型「量子速读」,一分钟抵人类五小时
|
机器学习/深度学习 人工智能 算法
深度学习能否达到人类推理水平?三位图灵奖得主激辩海德堡论坛
深度学习能否达到人类推理水平?三位图灵奖得主激辩海德堡论坛
|
人工智能 人机交互
田渊栋等原班人马又一新作:AI生成长篇故事,数千字长文也能连贯、有趣
田渊栋等原班人马又一新作:AI生成长篇故事,数千字长文也能连贯、有趣
126 0
|
存储 机器学习/深度学习 SQL
今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3
今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3
106 0
|
人工智能
今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3(3)
今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3

热门文章

最新文章