智谱 GLM-4.6V开源!能看、能想还能执行「百变」任务

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 智谱发布GLM-4.6V系列多模态大模型,含106B基础版与9B轻量版,支持128k长上下文,视觉理解达同规模SOTA。原生融合工具调用能力,打通“视觉感知-行动执行”闭环,降价50%,API低至1元/百万tokens,助力图文创作、识图购物、前端复刻等复杂场景。

今日,智谱新模型开源发布—— GLM-4.6V 系列多模态大模型,共包含两款模型:

  • GLM-4.6V(106B-A12B):面向云端与高性能集群场景的基础版
  • GLM-4.6V-Flash(9B):面向本地部署与低延迟应用的轻量版。

模型合集:

https://www.modelscope.cn/collections/GLM-46V-37fabc27818446

作为 GLM 系列在多模态方向上的一次重要迭代,GLM-4.6V 将训练时上下文窗口提升到 128k tokens,在视觉理解精度上达到同参数规模 SOTA,并首次在模型架构中将 Function Call(工具调用)能力原生融入视觉模型,打通从「视觉感知」到「可执行行动(Action)」的链路,为真实业务场景中的多模态 Agent 提供统一的技术底座。

📎Case-总-1208-2.m4v

在性能优化之外,GLM-4.6V 系列相较于 GLM-4.5V 降价 50%,API 调用价格低至输入 1 元/百万 tokens输出 3 元/百万 tokens

原生多模态工具调用

传统工具调用大多基于纯文本,在面对图像、视频、复杂文档等多模态内容时,需要多次中间转换,带来信息损失和工程复杂度。


GLM-4.6V 从设计之初就围绕 「图像即参数,结果即上下文」 ,构建了原生多模态工具调用能力:

  • 输入多模态:图像、截图、文档页面等可以直接作为工具参数,无需先转为文字描述再解析,减少链路损耗。
  • 输出多模态:对于工具返回的统计图表、渲染后网页截图、检索到的商品图片等结果,模型能够再次进行视觉理解,将其纳入后续推理链路。


模型原生支持基于视觉输入的工具调用,完整打通从感知到理解到执行的闭环。这使得 GLM-4.6V 能够应对图文混排输出、商品识别与好价推荐、以及辅助型 Agent 场景等更复杂的视觉任务。


典型场景

场景1:智能图文混排与内容创作

在内容创作与知识分发场景中,GLM-4.6V 可以从多模态输入中,自动构建高质量图文输出:无论是直接输入图文混杂的论文、研报、PPT,还是只给出一个主题,模型都能生成结构清晰、图文并茂的社交媒体内容。

  • 复杂图文理解:接收包含文本、图表、公式的文档,准确抽取结构化关键信息。
  • 多模态工具调用:在生成内容过程中,自动调用检索/搜索类工具,为每一段落寻找候选图片,或从原文中截取关键配图。
  • 图文混排输出与质量控制:对候选图片进行「视觉审核」,评估其与文字内容的相关性与质量,自动过滤无关或低质图片,输出可直接用于公众号、社交媒体或知识库的结构化图文结果。


这一流程中,多模态理解、工具调用与质量控制均由 GLM-4.6V 模型独立在同一推理链路内完成。

📎Case-推文-1208.m4v

⬆️案例1:仅输入主题,生成图文资讯

📎Case-图文-1208.m4v

⬆️案例2:输入论文,生成图文并茂的科普文章

场景2:视觉驱动的识图购物与导购 Agent

在电商购物场景中,GLM-4.6V 模型可以独立完成从「看图」、「比价」、「生成导购清单」的完整链路。

  • 意图识别与任务规划:用户上传一张街拍图并发出「搜同款」等指令时,模型识别出购物意图,并自主规划调用 image_search 等相关工具。
  • 异构数据清洗与对齐:在京东、唯品会、拼多多等平台返回的多模态、非结构化结果基础上,模型自动完成信息清洗、字段归一化与结果对齐,过滤噪声和重复项。
  • 多模态导购结果生成:最终生成一张标准化 Markdown 导购表格,包含平台与店铺来源、价格、商品缩略图、匹配度与差异说明,以及可直接跳转的购买链接。

📎Case-买同款-1208.m4v

场景3:前端复刻与多轮视觉交互开发

研究团队重点优化了 GLM-4.6V 在前端复刻与多轮视觉交互修改方面的能力,帮助开发者缩短「设计稿到可运行页面」的链路:

  • 像素级前端复刻:上传网页截图或设计稿后,模型可精准识别布局、组件与配色,生成高质量 HTML / CSS / JS 代码,实现接近像素级的页面还原。
  • 视觉交互调试:支持基于截图的多轮视觉交互。用户可以在生成的网页截图上圈选区域并发出自然语言指令(如「把这个按钮向左移一点,颜色改成深蓝」),模型自动定位并修正对应代码片段。

通过 GLM Coding Plan 的视觉 MCP 协议,这一能力可以集成进现有 IDE、设计工具或内部工程平台,大幅提升前端迭代效率。

📎Case-小红书-1208.m4v


场景4:长上下文的文档与视频理解

GLM-4.6V 将视觉编码器与语言模型的上下文对齐能力提升至128k,模型拥有了“过目不忘”的长记忆力。在实际应用中,128k上下文约等于150页的复杂文档、200页PPT或一小时视频,能够在单次推理中处理多个长文档或长视频。


在下列案例中,用户一次输入 4 家上市公司的财报,GLM-4.6V 可以跨文档统一抽取核心指标,并理解报表与图表中的隐性信号,自动汇总成一张对比分析表,在长窗口条件下依然保持关键信息不丢失。

📎Case-财报-1208.m4v

上述能力同样适用于长视频内容的理解与定位:

在长视频理解场景下,GLM-4.6V 既能对整段内容进行全局梳理,又能结合时序线索做细粒度推理,精准定位关键时间点,例如自动完成一场足球比赛的进球事件与比分时间轴总结。

📎Case-球赛-1208.m4v


同规模开源 SOTA

作为 GLM 系列在多模态方向上的一次重要迭代,GLM-4.6V 将训练时上下文窗口提升到128k tokens,在视觉理解精度上达到同参数规模 SOTA,并首次在模型架构中将 Function Call(工具调用)能力原生融入视觉模型,打通从「视觉感知」到「可执行行动(Action)」的链路,为真实业务场景中的多模态 Agent 提供统一的技术底座。


GLM-4.6V 在 MMBench、MathVista、OCRBench 等 30+ 主流多模态评测基准 上进行了验证,较上一代模型取得显著提升。在同等参数规模下,模型在多模态交互、逻辑推理和长上下文等关键能力上取得 SOTA 表现。其中 9B 版本的 GLM-4.6V-Flash 整体表现超过 Qwen3-VL-8B,106B 参数 12B 激活的 GLM-4.6V 表现比肩 2 倍参数量的 Qwen3-VL-235B。

立即体验

模型推理

使用transformers:

from modelscope import AutoProcessor, Glm4vMoeForConditionalGeneration
import torch
MODEL_PATH = "ZhipuAI/GLM-4.6V"
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "url": "https://upload.wikimedia.org/wikipedia/commons/f/fa/Grayscale_8bits_palette_sample_image.png"
            },
            {
                "type": "text",
                "text": "describe this image"
            }
        ],
    }
]
processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vMoeForConditionalGeneration.from_pretrained(
    pretrained_model_name_or_path=MODEL_PATH,
    torch_dtype="auto",
    device_map="auto",
)
inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)
inputs.pop("token_type_ids", None)
generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(generated_ids[0][inputs["input_ids"].shape[1]:], skip_special_tokens=False)
print(output_text)


魔搭API-Inference

魔搭社区第一时间上线适配了GLM-4.6V 模型的API,开发者可以通过魔搭的免费API-Inference来直观体验模型的效果,调用示例代码在模型页面右侧可见:

目录
相关文章
|
1天前
|
云安全 监控 安全
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
765 5
|
12天前
|
人工智能 Java API
Java 正式进入 Agentic AI 时代:Spring AI Alibaba 1.1 发布背后的技术演进
Spring AI Alibaba 1.1 正式发布,提供极简方式构建企业级AI智能体。基于ReactAgent核心,支持多智能体协作、上下文工程与生产级管控,助力开发者快速打造可靠、可扩展的智能应用。
1029 37
|
8天前
|
机器学习/深度学习 人工智能 数据可视化
1秒生图!6B参数如何“以小博大”生成超真实图像?
Z-Image是6B参数开源图像生成模型,仅需16GB显存即可生成媲美百亿级模型的超真实图像,支持中英双语文本渲染与智能编辑,登顶Hugging Face趋势榜,首日下载破50万。
581 36
|
12天前
|
人工智能 前端开发 算法
大厂CIO独家分享:AI如何重塑开发者未来十年
在 AI 时代,若你还在紧盯代码量、执着于全栈工程师的招聘,或者仅凭技术贡献率来评判价值,执着于业务提效的比例而忽略产研价值,你很可能已经被所谓的“常识”困住了脚步。
640 53
大厂CIO独家分享:AI如何重塑开发者未来十年
|
7天前
|
存储 自然语言处理 测试技术
一行代码,让 Elasticsearch 集群瞬间雪崩——5000W 数据压测下的性能避坑全攻略
本文深入剖析 Elasticsearch 中模糊查询的三大陷阱及性能优化方案。通过5000 万级数据量下做了高压测试,用真实数据复刻事故现场,助力开发者规避“查询雪崩”,为您的业务保驾护航。
421 27
|
15天前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
878 59
Meta SAM3开源:让图像分割,听懂你的话
|
4天前
|
弹性计算 网络协议 Linux
阿里云ECS云服务器详细新手购买流程步骤(图文详解)
新手怎么购买阿里云服务器ECS?今天出一期阿里云服务器ECS自定义购买流程:图文全解析,阿里云服务器ECS购买流程图解,自定义购买ECS的设置选项是最复杂的,以自定义购买云服务器ECS为例,包括付费类型、地域、网络及可用区、实例、镜像、系统盘、数据盘、公网IP、安全组及登录凭证详细设置教程:
198 114

热门文章

最新文章