在人工智能领域,对于通用人工智能(AGI)的追求一直是研究者们的终极目标。而构建一个真正理解和模拟现实世界的模型,被视为实现AGI的重要一步。在这个过程中,Sora作为OpenAI发布的视频生成模型引发了一场争议,杨立昆等知名人士质疑其是否真正具备世界模型的能力。
Sora被定位为能够理解和模拟现实世界模型的基础,其发布引起了广泛关注。然而,杨立昆在社交平台上多次对Sora进行批评,认为其生成式技术路线注定失败。杨立昆指出,仅仅通过生成视频并不能代表模型理解了物理世界,而世界模型的建立需要更多基于因果预测的方法。这一观点引发了人们对于Sora能否真正模拟世界的质疑。
除了杨立昆外,其他知名人士也对Sora提出了类似的观点。比如Keras之父François Chollet认为,仅仅通过让AI观看视频是无法完全学习到世界模型的,现实世界的复杂性远远超出了任何模型通过有限数据所能学习到的范围。这些质疑引发了对Sora技术路线的深入探讨和反思。
针对Sora技术路线的争议,人们开始思考何为真正的世界模型,以及构建世界模型的最佳方法是什么。一方面,Sora代表了生成式技术路线,通过分析视频并生成新的视觉内容来模拟现实世界。其采用的Transformer架构以及Diffusion Model等技术在视频生成领域取得了显著成就,但其是否能够真正理解和模拟物理世界的能力却受到了质疑。
另一方面,一些学者开始探讨非生成式技术路线,认为通过基于因果预测的方法构建世界模型可能更为有效。例如,Meta发布的V-JEPA,即代表了非生成式路线,其采用自我监督学习方法,通过预测视频中的缺失部分来学习世界模型。V-JEPA的发布引发了对于非生成式技术路线的关注和探讨。
在这场关于世界模型的辩论中,人们开始反思什么才是真正的世界模型,以及如何才能更好地构建这样的模型。一些学者认为,世界模型应该能够理解和预测物理世界中发生的事情,而不仅仅是通过生成内容来模拟现实。因此,基于因果预测的方法可能更能符合世界模型的本质。
然而,生成式技术路线也有其独特的优势和潜力,尤其是在视觉内容生成领域取得了显著的成就。因此,如何在生成式和非生成式技术之间找到平衡,并结合两者的优势,可能是构建真正世界模型的关键。