开发者社区 问答 正文

Transformer结构中的哪些关键点使Sora能够生成连贯且语义准确的长视频?

Transformer结构中的哪些关键点使Sora能够生成连贯且语义准确的长视频?

展开
收起
夹心789 2024-06-28 23:22:13 32 分享 版权
1 条回答
写回答
取消 提交回答
  • Transformer结构中的自注意力机制和交叉注意力机制是使Sora能够生成连贯且语义准确的长视频的两个关键点。
    自注意力机制让每一个视频patch关注其他所有patch,保持视频连贯性和持久性。
    交叉注意力机制则让每一个视频patch关注所有提示词文本token,使模型准确理解提示词语义意图。

    2024-06-28 23:40:28
    赞同 3 展开评论
问答地址: