Kimi 上线视觉思考模型，K1 系列强化学习模型正式开放，无需借助外部 OCR 处理图像与文本进行思考并回答

2024-12-16 1432

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： k1视觉思考模型是kimi推出的k1系列强化学习AI模型，具备端到端图像理解和思维链技术，能够在数学、物理、化学等领域表现优异。本文详细介绍了k1视觉思考模型的功能、技术原理、使用方法及其在多个应用场景中的表现。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

正文

公众号: 蚝油菜花 - k1 视觉思考模型

k1视觉思考模型是kimi推出的k1系列强化学习AI模型，具备端到端图像理解和思维链技术。该模型能够直接处理图像信息进行思考并得出答案，无需借助外部OCR或视觉模型。k1模型在图像理解、数学、物理、化学等学科的基准测试中表现优异，超过全球多个标杆模型。

k1视觉思考模型基于预训练和强化学习后训练，优化了字符识别能力，在OCRBench上得到903分的当前最好结果，在MathVista-testmini、MMMU-val和DocVQA基准测试集上分数分别为69.1、66.7和96.9，处于全球领先水平。

端到端图像理解：k1模型能直接处理用户输入的图像信息，进行深入的思考和分析，无需依赖外部的OCR技术或额外的视觉模型。
推理思维链展示：k1模型展示思考过程，即推理思维链（Chain of Thought, CoT），让用户能看到答案，还能看到模型得出答案的逻辑推理过程。
基础科学能力泛化：模型的能力扩展到物理、化学等其他基础科学领域，能理解和解决这些领域的复杂问题。
真实场景适应性：在包含噪声的真实场景下，k1模型相比其他模型有更显著的领先优势。