"Genie是一个生成式交互环境,它是首个从未标记的互联网视频中以无监督方式训练出来的环境。这个模型能根据提示生成多种动作可控的虚拟世界,这些世界可以通过文本、合成图像、照片甚至草图来描述。
Genie由三个主要部分组成:一个时空视频标记器,用于识别和标记视频中的时空特征;一个自回归动态模型,用于预测视频帧的演变;以及一个简单且可扩展的潜在动作模型,该模型使用户能够以逐帧的方式在其生成的环境中进行操作。"
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。