❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
原文链接:https://mp.weixin.qq.com/s/Jt57vblH6-3w-2VXXPgaMg
🚀 快速阅读
- 功能:CogAgent-9B 支持高分辨率图像处理和双语交互,能够预测并执行GUI操作。
- 技术:基于视觉语言模型GLM-4V-9B,采用双流注意力机制和GUI Grounding预训练方法。
- 应用:广泛应用于个人电脑、手机、车机等GUI交互场景,如自动化测试和智能助手。
正文(附运行示例)
CogAgent-9B 是什么
CogAgent-9B 是基于 GLM-4V-9B 训练的专用Agent任务模型,仅依赖屏幕截图作为输入,无需HTML等文本表征。该模型支持高分辨率图像处理,具备双语(中英文)交互能力,能预测并执行GUI操作,实现自动化任务。
在多个GUI操作数据集上取得了领先成绩,模型已开源,推动大模型Agent生态的发展。CogAgent-9B可广泛应用于个人电脑、手机、车机等GUI交互场景。
CogAgent-9B 的主要功能
- GUI 理解和操作:CogAgent-9B能理解和操作图形用户界面(GUI),执行如点击按钮、输入文本等任务。
- 屏幕截图输入:模型仅依赖屏幕截图作为输入,无需额外的文本表征,如HTML,使其在多种设备上应用灵活。
- 高分辨率处理:支持高达1120×1120像素的高分辨率图像输入,能够处理更复杂的视觉信息。
- 双语交互:支持中文和英文的屏幕截图和语言交互,增强了模型的国际化应用能力。
- 预测GUI操作:根据用户指定的任务和历史操作,模型能够预测下一步的GUI操作。
- 自动化任务执行:CogAgent-9B能模拟用户操作,自动化执行一系列GUI任务。
- 跨平台应用:适用于个人电脑、手机、车机等多种基于GUI交互的场景。
- 性能领先:在多个GUI操作数据集上取得了领先成绩,显示了其卓越的性能。
CogAgent-9B 的技术原理
- 视觉语言模型(VLM):CogAgent-9B构建在强大的视觉语言模型GLM-4V-9B之上,能够处理视觉数据(如屏幕截图)和文本信息,实现对GUI元素的理解和操作。
- 双流注意力机制:CogAgent-9B采用双流注意力机制,将视觉元素(例如按钮和图标)映射到它们的文本标签或描述,增强了模型预测用户意图和执行相关操作的能力。
- GUI Grounding预训练:在预训练阶段,CogAgent-9B引入了GUI Grounding预训练方法,通过屏幕截图和layout对,构造界面子区域和layout表征的对应关系,提升模型对视觉输入和GUI界面的基础理解能力。
- 数据集丰富与完善:CogAgent-9B团队广泛收集并整合了多种数据集,包括无监督数据和GUI指令微调数据集,这些数据集的丰富性和多样性为模型提供了广泛的训练和测试基础。
- 预训练与后训练策略优化:CogAgent-9B在预训练阶段引入了GUI Referring Expression Generation (REG)和GUI Referring Expression Comprehension (REC)任务,以构建界面子区域与布局表征的对应关系。在后训练阶段,采用了更科学的GUI agent后训练策略,使模型具备了更强的分析、推理、预测能力。
- 模型推理及思维链优化:CogAgent-9B将思维链分解为Status(当前屏幕状态)、Plan(全局计划)、Action(下一步自然语言描述)、Operation(下一步形式语言描述),并通过随机采样混合多种模式训练数据,灵活调整和控制推理过程中的实际输出。
- 动作空间完善:CogAgent-9B明确了基础动作空间,新增了LLM、QUOTE_TEXT、LAUNCH等高级动作,增强了模型的使用工具和交互能力。
如何运行 CogAgent-9B
环境配置
确保已安装 Python 3.10.16 或更高版本,然后安装以下依赖:
pip install -r requirements.txt
本地推理
基于 transformers
进行本地推理,可以运行以下命令:
python inference/cli_demo.py --model_dir THUDM/cogagent-9b-20241220 --platform "Mac" --max_length 4096 --top_k 1 --output_image_path ./results --format_key status_action_op_sensitive
在线Web演示
运行在线Web演示,支持连续图像上传进行交互推理:
python inference/web_demo.py --host 0.0.0.0 --port 7860 --model_dir THUDM/cogagent-9b-20241220 --format_key status_action_op_sensitive --platform "Mac" --output_dir ./results
资源
- GitHub 仓库:https://github.com/THUDM/CogAgent
- HuggingFace 模型库:https://huggingface.co/THUDM/cogagent-9b-20241220
- 技术博客:https://cogagent.aminer.cn/blog#/articles/cogagent-9b-20241220-technical-report
- 实践指南(中文):https://zhipu-ai.feishu.cn/wiki/MhPYwtpBhinuoikNIYYcyu8dnKv?fromScene=spaceOverview
- arXiv 技术论文:https://arxiv.org/abs/2312.08914
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦