CogAgent-9B：智谱 AI 开源 GLM-PC 的基座模型，专注于预测和执行 GUI 操作，可应用于自动化交互任务

2024-12-30 505

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型，支持高分辨率图像处理和双语交互，能够预测并执行GUI操作，广泛应用于自动化任务。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

原文链接：https://mp.weixin.qq.com/s/Jt57vblH6-3w-2VXXPgaMg

🚀 快速阅读

功能：CogAgent-9B 支持高分辨率图像处理和双语交互，能够预测并执行GUI操作。
技术：基于视觉语言模型GLM-4V-9B，采用双流注意力机制和GUI Grounding预训练方法。
应用：广泛应用于个人电脑、手机、车机等GUI交互场景，如自动化测试和智能助手。

正文（附运行示例）

CogAgent-9B 是什么

公众号: 蚝油菜花 - CogAgent

CogAgent-9B 是基于 GLM-4V-9B 训练的专用Agent任务模型，仅依赖屏幕截图作为输入，无需HTML等文本表征。该模型支持高分辨率图像处理，具备双语（中英文）交互能力，能预测并执行GUI操作，实现自动化任务。

在多个GUI操作数据集上取得了领先成绩，模型已开源，推动大模型Agent生态的发展。CogAgent-9B可广泛应用于个人电脑、手机、车机等GUI交互场景。

CogAgent-9B 的主要功能

GUI 理解和操作：CogAgent-9B能理解和操作图形用户界面（GUI），执行如点击按钮、输入文本等任务。
屏幕截图输入：模型仅依赖屏幕截图作为输入，无需额外的文本表征，如HTML，使其在多种设备上应用灵活。
高分辨率处理：支持高达1120×1120像素的高分辨率图像输入，能够处理更复杂的视觉信息。
双语交互：支持中文和英文的屏幕截图和语言交互，增强了模型的国际化应用能力。
预测GUI操作：根据用户指定的任务和历史操作，模型能够预测下一步的GUI操作。
自动化任务执行：CogAgent-9B能模拟用户操作，自动化执行一系列GUI任务。
跨平台应用：适用于个人电脑、手机、车机等多种基于GUI交互的场景。
性能领先：在多个GUI操作数据集上取得了领先成绩，显示了其卓越的性能。

CogAgent-9B 的技术原理

视觉语言模型（VLM）：CogAgent-9B构建在强大的视觉语言模型GLM-4V-9B之上，能够处理视觉数据（如屏幕截图）和文本信息，实现对GUI元素的理解和操作。
双流注意力机制：CogAgent-9B采用双流注意力机制，将视觉元素（例如按钮和图标）映射到它们的文本标签或描述，增强了模型预测用户意图和执行相关操作的能力。
GUI Grounding预训练：在预训练阶段，CogAgent-9B引入了GUI Grounding预训练方法，通过屏幕截图和layout对，构造界面子区域和layout表征的对应关系，提升模型对视觉输入和GUI界面的基础理解能力。
数据集丰富与完善：CogAgent-9B团队广泛收集并整合了多种数据集，包括无监督数据和GUI指令微调数据集，这些数据集的丰富性和多样性为模型提供了广泛的训练和测试基础。
预训练与后训练策略优化：CogAgent-9B在预训练阶段引入了GUI Referring Expression Generation (REG)和GUI Referring Expression Comprehension (REC)任务，以构建界面子区域与布局表征的对应关系。在后训练阶段，采用了更科学的GUI agent后训练策略，使模型具备了更强的分析、推理、预测能力。
模型推理及思维链优化：CogAgent-9B将思维链分解为Status（当前屏幕状态）、Plan（全局计划）、Action（下一步自然语言描述）、Operation（下一步形式语言描述），并通过随机采样混合多种模式训练数据，灵活调整和控制推理过程中的实际输出。
动作空间完善：CogAgent-9B明确了基础动作空间，新增了LLM、QUOTE_TEXT、LAUNCH等高级动作，增强了模型的使用工具和交互能力。

如何运行 CogAgent-9B

环境配置

确保已安装 Python 3.10.16 或更高版本，然后安装以下依赖：

pip install -r requirements.txt

本地推理

基于 transformers 进行本地推理，可以运行以下命令：

python inference/cli_demo.py --model_dir THUDM/cogagent-9b-20241220 --platform "Mac" --max_length 4096 --top_k 1 --output_image_path ./results --format_key status_action_op_sensitive

在线Web演示

运行在线Web演示，支持连续图像上传进行交互推理：

python inference/web_demo.py --host 0.0.0.0 --port 7860 --model_dir THUDM/cogagent-9b-20241220 --format_key status_action_op_sensitive --platform "Mac" --output_dir ./results

资源

GitHub 仓库：https://github.com/THUDM/CogAgent
HuggingFace 模型库：https://huggingface.co/THUDM/cogagent-9b-20241220
技术博客：https://cogagent.aminer.cn/blog#/articles/cogagent-9b-20241220-technical-report
实践指南（中文）：https://zhipu-ai.feishu.cn/wiki/MhPYwtpBhinuoikNIYYcyu8dnKv?fromScene=spaceOverview
arXiv 技术论文：https://arxiv.org/abs/2312.08914

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

CogAgent-9B：智谱 AI 开源 GLM-PC 的基座模型，专注于预测和执行 GUI 操作，可应用于自动化交互任务

🚀 快速阅读

正文（附运行示例）

CogAgent-9B 是什么

CogAgent-9B 的主要功能

CogAgent-9B 的技术原理

如何运行 CogAgent-9B

环境配置

本地推理

在线Web演示

资源

多模态

热门文章

最新文章

相关课程

相关电子书

相关实验场景