CogVLM智谱AI 新一代多模态大模型发布,魔搭社区最佳实践体验!

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 继 5 月 18 日推出 VisualGLM-6B 后,智谱AI&清华KEG 潜心打磨,于近日发布并直接开源了更强大的多模态大模型——CogVLM-17B。模型已第一时间发布在魔搭社区,可体验!

导读


继 5 月 18 日推出 VisualGLM-6B 后,智谱AI&清华KEG 潜心打磨,于近日发布并直接开源了更强大的多模态大模型——CogVLM-17B。模型已第一时间发布在魔搭社区,可体验!


CogVLM是一个强大的开源视觉语言模型,利用视觉专家模块深度整合语言编码和视觉编码,在14项权威跨模态基准上取得了SOTA性能:


CogVLM-17B 是目前多模态权威学术榜单上综合成绩第一的模型,在14个数据集上取得了state-of-the-art或者第二名的成绩


初步体验 CogVLM 的效果:



在上图中,CogVLM 能够准确识别出 4 个房子(3个完整可见,1个只有放大才能看到);作为对比,GPT-4V 仅能识别出其中的 3 个。


CogVLM的效果依赖于“视觉优先”的思想,即在多模态模型中将视觉理解放在更优先的位置,使用5B参数的视觉编码器和6B参数的视觉专家模块,总共11B参数建模图像特征,甚至多于文本的7B参数量。

CogVLM模型架构,模型共包含四个基本组件:

ViT 编码器,MLP 适配器,预训练大语言模型(GPT-style)和视觉专家模块



接下来,可跟随教程进入魔搭社区进一步体验:



环境配置与安装


  1. 本文在A100的环境配置下运行 (可以单卡运行, 显存要求70G)
  2. python>=3.8



模型链接及下载


模型链接:https://www.modelscope.cn/models/ZhipuAI/CogVLM

模型weights下载:

from modelscope import snapshot_download
model_dir = snapshot_download("ZhipuAI/CogVLM",revision='v1.0.0')


模型推理


魔搭社区开发者对接了ModelScope library和CogVLM-Chat模型,提供了推理代码,便于魔搭社区的开发者更好的使用和体验CogVLM-Chat模型


CogVLM推理代码

# 使用之前需要执行pip install en_core_web_sm -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html,下载spaCy提供的小型英语语言模型
from modelscope.utils.constant import Tasks
from modelscope.pipelines import pipeline
from modelscope import snapshot_download, Model
local_tokenizer_dir = snapshot_download("AI-ModelScope/vicuna-7b-v1.5",revision='v1.0.0')
pipe = pipeline(task=Tasks.chat, model='AI-ModelScope/cogvlm-chat', model_revision='v1.0.7', local_tokenizer=local_tokenizer_dir)
inputs = {'text':'Who is the man in the picture?', 'history': None, 'image': "https://modelscope-open.oss-cn-hangzhou.aliyuncs.com/resources/aiyinsitan.jpg"}
result = pipe(inputs)
print(result["response"])
inputs = {'text':'How did he die?', 'history': result['history']}
result = pipe(inputs)
print(result["response"])


创空间体验



创空间体验链接:

https://modelscope.cn/studios/AI-ModelScope/CogVLM/summary


示例效果展示:

多模态国际惯例,先看图像描述:


手写OCR识别效果:


此前的数数题,能“洞察”到角落里的第四座房子的屋檐:


细节捕捉和图像理解:


除如上示例所示外,还可参考官方的一些有趣的案例 CogVLM:智谱AI 新一代多模态大模型

直达链接:https://modelscope.cn/studios/AI-ModelScope/CogVLM/summary

相关文章
|
13天前
|
存储 数据采集 人工智能
AI时代:云存储加速多模态数据存储与管理创新
阿里云存储产品高级解决方案架构师欧阳雁(乐忱)分享了中国企业在全闪存高端存储市场的快速增长,指出AI大模型的发展推动了企业级存储市场。去年,高端企业级存储闪存占比约为25%,相较于欧美50%的比例,显示出中国在AI领域的巨大增长潜力。演讲涵盖AI业务流程,包括数据预处理、训练和推理的痛点,以及针对这些环节的存储解决方案,强调了稳定、高性能和生命周期管理的重要性。此外,还介绍了数据预处理的全球加速和弹性临时盘技术,训练阶段的高性能存储架构,推理场景的加速器和AI Agent的应用,以及应对大数据业务的存储考量,如对象存储、闪电立方和冷归档存储产品。
36787 2
|
11天前
|
机器学习/深度学习 人工智能 Rust
全球最大开源大模型!马斯克正式开源Grok AI
全球最大开源大模型!马斯克正式开源Grok AI
108 54
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
LLM-AI大模型介绍
大语言模型(LLM)是深度学习的产物,包含数十亿至数万亿参数,通过大规模数据训练,能处理多种自然语言任务。LLM基于Transformer架构,利用多头注意力机制处理长距离依赖,经过预训练和微调,擅长文本生成、问答等。发展经历了从概率模型到神经网络,再到预训练和大模型的演变。虽然强大,但存在生成不当内容、偏见等问题,需要研究者解决。评估指标包括BLEU、ROUGE和困惑度PPL。
|
8天前
|
人工智能 自然语言处理 Java
Spring AI是一个开源的多模态AI模型平台
Spring AI是一个开源的多模态AI模型平台
189 2
|
11天前
|
人工智能 运维 搜索推荐
《百炼成金-大金融模型新篇章》––07.问题5:“杀手级通用大模型vs百花齐放专属大模型”,企业级AI应用的价值自证?
百炼必定成金,新质生产力会催生新质劳动力,谨以此文抛砖引玉,希望与业内的各位朋友一同探讨如何积极拥抱并运用大模型技术,以应对和驾驭不断变化的市场环境,实现科技金融持续稳定的提质增效和创新发展,携手开启金融大模型未来新篇章。
|
1天前
|
机器学习/深度学习 人工智能 算法
【让AI写高考AI话题作文】看各大模型的回答
【让AI写高考AI话题作文】看各大模型的回答
|
7天前
|
人工智能 自然语言处理 搜索推荐
AI时代:人工智能大模型引领科技创造新时代
AI时代:人工智能大模型引领科技创造新时代
39 0
|
10天前
|
人工智能 自然语言处理 Java
Spring AI开源的多模态AI模型平台
Spring AI开源的多模态AI模型平台
32 0
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
2024通义语音AI技术图景,大模型引领AI再进化
2024通义语音AI技术图景,大模型引领AI再进化
|
14天前
|
人工智能 并行计算 芯片
在大模型AI的下一个战场,为中小创新企业重构竞争格局
在大模型AI的下一个战场,为中小创新企业重构竞争格局