国产 AI 再放大招!智谱开源 GLM-4.5V,视觉推理能力“屠榜”全球

简介: 智谱 AI 推出新一代视觉推理模型 GLM-4.5V,具备多模态融合推理、长上下文记忆与精准定位能力,在 42 个多模态榜单中斩获 41 项 SOTA。模型参数达 106B,支持图像、文本、视频输入,广泛应用于图像理解、视频分析、GUI 操作、文档解析等场景。同步开源桌面助手,助力开发者高效实现自动化任务。GLM-4.5V 以强大性能,引领国产 AI 走向全球前沿。

b44e6068-92a8-44a1-b649-8cfdf75408ea.png

国产 AI 这两个月的节奏,可以用四个字形容:不讲武德。

上个月,智谱开源的 GLM-4.1V-Thinking 冲上 HuggingFace Trending 榜首,累计下载量突破 13 万次。 上周,又推出了旗舰多模态模型 GLM-4.5 和轻量版 GLM-4.5-Air,技术圈瞬间沸腾。

这周,智谱再次扔下“核弹”——基于 GLM-4.5-Air 架构,训练出更强大的视觉推理模型 GLM-4.5V,并且毫不犹豫地 全量开源。

更夸张的是,在 42 个权威多模态榜单 中,GLM-4.5V 拿下了 41 项 SOTA(全球最佳)。 一句话:在开源视觉推理领域,它几乎是无敌的存在。

06524f08-4f24-4b1d-9a6e-e1c1d80fee10.png

01 GLM-4.5V 究竟强在哪?
如果说普通的视觉模型只是“看得清”,那 GLM-4.5V 则是“看得懂、想得通、还会自己动手”。

它的三个核心能力,让它不只是个识图工具,而更像一个拥有视觉和常识的大脑:

① 多模态融合推理
能同时理解图像、文字、视频等多种信息,并在一个上下文中推理,这意味着它不仅能识别图片,还能结合文字背景得出更准确的结论。

类比一下,这就像一个工程师看图纸时,不仅看到了线条,还理解了设计目的,并能立即判断可行性。

② 长上下文记忆
可以连续处理数十张图片、几分钟视频或长文档,并保持逻辑一致,不会出现“前一句和后一句不沾边”的问题。 这对长流程的任务(比如视频内容分析、长文档解析)非常关键。

③ Grounding 精准定位
不只是说“这是一个猫”,而是能告诉你它在画面中的精确坐标,甚至能直接生成可用的标注文件,让 AI 从“感知”走向“可操作”。

02 模型规格:真正的 100B 级视觉推理猛兽
总参数:106B
激活参数:12B
输入类型:图像 / 文本 / 视频
📂 GitHub:https://github.com/zai-org/GLM-V📂 Hugging Face:https://huggingface.co/zai-org/GLM-4.5V

03 能力覆盖面有多广?
图像推理:场景理解、多图分析、位置识别
视频理解:长视频分镜、事件识别
GUI 任务:前端页面复刻、桌面操作辅助
图表与文档解析:结构化提取、自动标注
Grounding 定位:精准框选视觉元素
简单来说,它既能帮你看懂一份复杂的财报图表,也能复刻一个网页 UI,甚至能像人类助手一样操作电脑界面。

04 桌面助手:多模态能力落地的“利器”
为了让开发者更快上手,智谱还同步开源了 GLM-4.5V 桌面助手,支持:

实时截屏并分析
获取屏幕信息
基于视觉推理执行自动化任务
写在最后
从 GLM-4.1V-Thinking 到 GLM-4.5V,智谱用一波接一波的开源操作证明: 国产大模型,不只是能打,还能 打到世界第一。

未来的多模态 AI,可能不仅仅是“工具”,而是能理解、能推理、能协作的数字伙伴。 它们正在用另一种方式,重塑我们的工作和生活。

相关文章
|
3月前
|
人工智能 中间件 数据库
沐曦 GPU 融入龙蜥,共筑开源 AI 基础设施新底座
沐曦自加入社区以来,一直与龙蜥社区在推动 AIDC OS 的开源社区建设等方面保持合作。
|
4月前
|
人工智能 安全 API
HiMarket 正式开源,为企业落地开箱即用的 AI 开放平台
我们发起 HiMarket 的初心:帮助用户从 80% 开始构建 AI 开放平台。
774 39
|
3月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
5246 76
|
4月前
|
人工智能 运维 安全
|
4月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
2188 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
3月前
|
人工智能 自然语言处理 Shell
我们开源了一款 AI 驱动的用户社区
KoalaQA 是一款开源的 AI 驱动用户社区,支持智能问答、语义搜索、自动运营与辅助创作,助力企业降低客服成本,提升响应效率与用户体验。一键部署,灵活接入大模型,快速构建专属售后服务社区。
412 5
我们开源了一款 AI 驱动的用户社区
|
3月前
|
人工智能 搜索推荐 UED
一个牛逼的国产AI自动化工具,开源了 !
AiPy是国产开源AI工具,结合大语言模型与Python,支持本地部署。用户只需用自然语言描述需求,即可自动生成并执行代码,轻松实现数据分析、清洗、可视化等任务,零基础也能玩转编程,被誉为程序员的智能助手。
|
4月前
|
人工智能 安全 架构师
开放、协同,2025 云栖大会“操作系统开源与 AI 进化分论坛”精彩回顾
唯有通过生态开放与技术共享,才能加速 AI 技术的普惠与产业化落地。
|
4月前
|
人工智能
四大公益场景,20万奖金!AI开源公益创新挑战赛邀你一起「小有可为」
四大公益场景,20万奖金!AI开源公益创新挑战赛邀你一起「小有可为」
242 8