Sora到底牛在哪 | AI爆发的大趋势下，普通人真正该学的是什么-阿里云开发者社区

Sora到底牛在哪 | AI爆发的大趋势下，普通人真正该学的是什么

2024-03-06 89

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Sora炸裂了的地方，在于它能理解自然语言，知道那个画面该是怎么样的，它学习很多视频内容（大力出奇迹，需要很多算力），而且一上来就是能制作60s的视频，刚好是短视频的需求，之前的AI视频生成的时间都很短（几秒钟).

Sora炸裂了的地方，在于它能理解自然语言，知道那个画面该是怎么样的，它学习很多视频内容（大力出奇迹，需要很多算力），而且一上来就是能制作60s的视频，刚好是短视频的需求，之前的AI视频生成的时间都很短（几秒钟).

就说Sora有多火吧，生成的视频上线一个，疯传一个。

明显能看出来Sora生成的视频中的各项细节都让人惊叹，一如去年的ChatGPT，Sora被认为是AGI（通用人工智能）的又一个里程碑时刻。

一. sora的出现可以如何看待:

对于许多行业来说，都应该关注Open AI和sora这些人工智能相关的产品。

尤其是对设计领域来说，比如以前做logo、做海报、宣传册、做操作视频剪辑、拍摄等等相关的行业。

其一是思考，面对这些新技术、新工具，对自己有哪些挑战，应对策略是什么。

其二是结合，基于自己当前的业务，哪些可以利用这些技术进行结合，从而提升自己的效率和业务场景。

比如美图秀秀、稿定设计、剪映等产品，就基于AI立马推出了相关的产品。

（PS：目前 openai 官方还未开放 sora 灰度，不过根据文生图模型 DALL·E 案例，一定是先给 ChatGPT Plus 付费用户使用，需要注册或者升级 GPT Plus 可以看这个教程: 升级 ChatGPT Plus 的教程，一分钟完成升级)

二. 以终为始地看，AI爆发的大趋势下，普通人真正该学的是什么？

我觉得有三点：讲故事的能力、结构化思考力和内容专业力。

1. 讲故事的能力

以文生视频为例，先不说Sora，很多人连Pika、Runway都用不利索。

用文字描述一件事、一个观点、一个诉求并不难，但描述一段画面、一个场景、一则完整故事，对绝大多数人是极高的门槛。

Sora不会让影视行业失业，正相反，如果视频生成的AI技术持续普及，会让真正会写故事的人发挥才能，而不是受限于影视行业的潜规则而灰心放弃。

2. 结构化思考力

很多写Sora的文章，都在讲它在模型算法、算力涌现、物理模拟上的创新。对我而言，会更惊讶它在训练视频数据时，以一种结构化提示词方法，解决了视频标注问题：

“We first train a highly descriptive captioner model and then use it to produce text captions for all videos in our training set”

本质上看，无论是B端训练数据，还是C端和大模型对话，都用到了结构化表达能力。包括那些所谓“Sora培训”，其实教你的也是怎么写好提示词。举个例子，对这样的场景：

该怎么描述呢？一个在沉思的老爷爷？一个戴眼镜的老爷爷？一个在咖啡厅发呆的老爷爷？可能大部分人想到这儿就结束了。但更加结构化的描述可以是：

主体人物：：一位 60 多岁留着胡须的白发老人

镜头景别：脸部特写

背景环境：巴黎的一家咖啡馆

人物状态：注视着窗外行走的人们，一动不动陷入沉思，后又抿嘴微微一笑

人物细节：穿着一件羊毛大衣和一件纽扣衬衫、头戴棕色贝雷帽，戴着眼镜，像是个教授

环境细节：金色的灯光和背景中的巴黎街道和城市

镜头技术：景深、35 毫米电影胶片，有电影感

具备写出上述提示词的能力，才能真正发挥多模态技术的价值。这背后蕴含着的，就是结构化总结和思考能力。

有句话很形象，写提示词就像客户讲brief，能把需求说清楚，就离正确答案不远了。

3. 内容专业力

这点又说回到创作者本身，我比较喜欢杨远骋老师（「躺岛」和「新世相」联合创始人）的一个观点：

最大的影响会是出现新的创作者，会出现完全不在人们视野里的新的内容偶像，他们有非常好的品位、思维方式和世界观，但受限于表达技术，在过去却连基本的视频制作能力都不具备。

Koji，公众号：十字路口CrossingSora 喧嚣过后，理性浮现 | 我问出了这 5 位顶级创作者的真实想法

是的，除了上文提到的讲故事能力。如果你具备对“好内容”的理解力，懂得怎样更合理地设计脚本、做分镜、上特效、画故事板、运镜、调度、选角、布景、调光、配音、后期等等，AI就是你发挥想象力最好的帮手。能用好 AI 的人，一定能做出更好作品、获得更多收入。

因此我坚定地认为，这波AI趋势，对高潜力的作家、画手、设计师、编剧等创作者，是绝对的利好。如果你也想从中获益，先把“创作一部好内容”作为目标学起来吧。

总的来讲，我认为围着Sora去追新闻没啥必要。能跳出对Sora本身铺天盖地的宣传，去思考这背后该真正掌握的技能是什么。用结构化思维去训练讲故事的能力，成为一名优秀创作者，才是值得为此付出时间的。

三、sora原理常见问题及解答:

Q：训练数据的一个 clip 中如果有场景/镜头的切换，那 casual 3D CNN 还是会和过往的帧都有关系吗？

A：训练数据中大概率是有：一个 clip 有镜头/场景的切换。如果有切换，那么使用 casual 3D CNN 可能会带来问题：在切换前后的内容是不同的，不仅会增加模型训练难度，也会带来瑕疵。这个可能就直接训练了，通过相应数据的训练就能解决。

Q：训练数据的来源？

A：大家猜测有 1）youtube 的视频。2）Shutterstock，之前有公告：Shutterstock 扩大与 OpenAI 的合作伙伴关系，签署新的六年协议以提供高质量的训练数据：渲染引擎的数据，这个网络上大家贴出了一些间接证据。渲染引擎的数据能够针对性地模拟出很多符合 3D 一致性、物理一致性的数据，对于模型的训练应该有很好的帮助。

Q：输出变长的长度、分辨率和长宽比是如何做到的？

A：1. diffusion 过程中，输入的 noise tokens 就添加 factorized positional embedding。比如最直接的实现方式，每个 token 对应有三个数字（t, h, w）分别表示时间、长和宽，然后添加相应的 position embedding 去区分。

训练的时候也采用了变长的长度、分辨率和长宽比。这些 examples 模型在训练的时候见过。

这样，可以做到技术报告中提到的：At inference time, we can control the size of generated videos by arranging randomly-initialized patches in an appropriately-sized grid。

Sora到底牛在哪 | AI爆发的大趋势下，普通人真正该学的是什么

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Sora到底牛在哪 | AI爆发的大趋势下，普通人真正该学的是什么

热门文章

最新文章

相关课程

相关电子书

相关实验场景