开发者社区> 问答> 正文

Transformer结构中的哪些关键点使Sora能够生成连贯且语义准确的长视频?

Transformer结构中的哪些关键点使Sora能够生成连贯且语义准确的长视频?

展开
收起
夹心789 2024-06-28 23:22:13 12 0
1 条回答
写回答
取消 提交回答
  • Transformer结构中的自注意力机制和交叉注意力机制是使Sora能够生成连贯且语义准确的长视频的两个关键点。
    自注意力机制让每一个视频patch关注其他所有patch,保持视频连贯性和持久性。
    交叉注意力机制则让每一个视频patch关注所有提示词文本token,使模型准确理解提示词语义意图。

    2024-06-28 23:40:28
    赞同 3 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载