CogVLM智谱AI 新一代多模态大模型发布，魔搭社区最佳实践体验！

2023-10-12 1213

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，5000CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： 继 5 月 18 日推出 VisualGLM-6B 后，智谱AI&清华KEG 潜心打磨，于近日发布并直接开源了更强大的多模态大模型——CogVLM-17B。模型已第一时间发布在魔搭社区，可体验！

导读

继 5 月 18 日推出 VisualGLM-6B 后，智谱AI&清华KEG 潜心打磨，于近日发布并直接开源了更强大的多模态大模型——CogVLM-17B。模型已第一时间发布在魔搭社区，可体验！

CogVLM是一个强大的开源视觉语言模型，利用视觉专家模块深度整合语言编码和视觉编码，在14项权威跨模态基准上取得了SOTA性能：

CogVLM-17B 是目前多模态权威学术榜单上综合成绩第一的模型，在14个数据集上取得了state-of-the-art或者第二名的成绩

初步体验 CogVLM 的效果：

在上图中，CogVLM 能够准确识别出 4 个房子（3个完整可见，1个只有放大才能看到）；作为对比，GPT-4V 仅能识别出其中的 3 个。

CogVLM的效果依赖于“视觉优先”的思想，即在多模态模型中将视觉理解放在更优先的位置，使用5B参数的视觉编码器和6B参数的视觉专家模块，总共11B参数建模图像特征，甚至多于文本的7B参数量。

CogVLM模型架构，模型共包含四个基本组件：

ViT 编码器，MLP 适配器，预训练大语言模型（GPT-style）和视觉专家模块

接下来，可跟随教程进入魔搭社区进一步体验：

环境配置与安装

本文在A100的环境配置下运行 (可以单卡运行, 显存要求70G)
python>=3.8

模型链接及下载

模型链接：https://www.modelscope.cn/models/ZhipuAI/CogVLM

模型weights下载：

from modelscope import snapshot_download
model_dir = snapshot_download("ZhipuAI/CogVLM",revision='v1.0.0')

模型推理

魔搭社区开发者对接了ModelScope library和CogVLM-Chat模型，提供了推理代码，便于魔搭社区的开发者更好的使用和体验CogVLM-Chat模型

CogVLM推理代码

# 使用之前需要执行pip install en_core_web_sm -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html，下载spaCy提供的小型英语语言模型
from modelscope.utils.constant import Tasks
from modelscope.pipelines import pipeline
from modelscope import snapshot_download, Model
local_tokenizer_dir = snapshot_download("AI-ModelScope/vicuna-7b-v1.5",revision='v1.0.0')
pipe = pipeline(task=Tasks.chat, model='AI-ModelScope/cogvlm-chat', model_revision='v1.0.7', local_tokenizer=local_tokenizer_dir)
inputs = {'text':'Who is the man in the picture?', 'history': None, 'image': "https://modelscope-open.oss-cn-hangzhou.aliyuncs.com/resources/aiyinsitan.jpg"}
result = pipe(inputs)
print(result["response"])
inputs = {'text':'How did he die?', 'history': result['history']}
result = pipe(inputs)
print(result["response"])