GLM-Edge:智谱开源的端侧大语言和多模态系列模型

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型,旨在实现模型性能、实机推理效果和落地便利性之间的最佳平衡。该系列模型支持在手机、车机和PC等端侧设备上高效运行,适用于智能助手、聊天机器人、图像标注等多种应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 模型类型:包含大语言对话模型和多模态理解模型,适用于不同平台。
  2. 技术优化:采用混合量化和投机采样技术,提升端侧推理速度。
  3. 应用广泛:支持智能助手、聊天机器人、图像标注等多种应用场景。

正文(附运行示例)

GLM-Edge 是什么

公众号: 蚝油菜花 - GLM-Edge

GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型,包含GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B。这些模型主要面向手机、车机和PC等平台,基于GLM-4系列技术积累,调整模型结构和尺寸,实现模型性能、实机推理效果和落地便利性之间的最佳平衡。

在高通骁龙8 Elite等端侧平台上,GLM-Edge基于混合量化方案和投机采样技术,1.5B对话模型、2B多模态模型能实现每秒60至100个tokens的高速解码,展现出卓越的推理性能。

GLM-Edge 的主要功能

  • 大语言对话模型:提供基于大型语言模型的对话能力,理解和生成自然语言,适用于聊天机器人、智能助手等应用。
  • 多模态理解模型:结合视觉和语言信息,理解和描述图片内容,适用于图像标注、视觉问答等多模态交互场景。
  • 端侧优化:针对手机、车机和PC等端侧设备进行优化,实现在资源受限的环境中高效运行。
  • 快速推理:在特定硬件平台上,如高通骁龙8 Elite,基于混合量化和投机采样技术,实现高速的模型推理。
  • 跨平台部署:支持在多种硬件和操作系统上部署,包括但不限于Android、iOS和Windows。

GLM-Edge 的技术原理

  • 预训练语言模型:GLM-Edge系列模型基于自回归语言模型,在大规模文本数据上进行预训练,学习语言的复杂结构和语义信息。
  • 迁移学习:预训练完成后,模型基于迁移学习适应特定的下游任务,如对话生成、文本分类等。
  • 量化技术:为在端侧设备上高效运行,GLM-Edge采用量化技术,将模型的权重和激活从浮点数转换为低精度表示,如INT4或INT8,减少模型大小和计算需求。
  • 混合量化方案:结合不同的量化策略,如动态量化和静态量化,平衡模型性能和推理速度。
  • 投机采样技术:预测性地执行计算,减少实际需要的计算量,提高模型的推理速度。

如何运行 GLM-Edge

安装依赖

请确保你的Python版本为3.10或更高版本,并按照如下方式安装依赖:

pip install -r requirements.txt

模型推理

我们提供了 vLLM, OpenVINO 和 transformers 三种后端推理方式,你可以通过运行以下命令来运行模型。这是一个命令行交互代码。

python cli_demo.py --backend transformers --model_path THUDM/glm-edge-1.5b-chat --precision bfloat16
python cli_demo.py --backend vllm --model_path THUDM/glm-edge-1.5b-chat --precision bfloat16
python cli_demo.py --backend ov --model_path THUDM/glm-edge-1.5b-chat-ov  --precision int4

注意:

OpenVINO 版本模型需要进行转换,请前往 这里 运行转换代码。

python convert_chat.py --model_path THUDM/glm-edge-1.5b-chat --precision int4 转换对话模型。

python convert.py --model_path THUDM/glm-edge-v-2b --precision int4 转换视觉理解模型。

你也可以在 这里 查看原始的转换代码。

vLLM 版本模型需要从 这里 源代码 安装 vLLM 以正常运行。

如果你想使用 glm-edge-v 系列模型,你可以运行以下命令行交互代码

python cli_demo_vision.py  --backend transformers --model_path THUDM/glm-edge-v-2b --precision bfloat16
python cli_demo.py --backend ov --model_path THUDM/glm-edge-1.5b-chat-ov  --precision int4

你也可以使用 Gradio 启动 WebUI。

python cli_demo.py --backend transformers --model_path THUDM/glm-edge-1.5b-chat --precision bfloat16
python cli_demo.py --backend vllm --model_path THUDM/glm-edge-1.5b-chat --precision int4 # For Int4 Inference

XInference

如果你使用 XInference 进行推理,你可以通过运行以下命令来运行模型。这是一个命令行交互代码。

xinference launch --model-engine Transformers --model-name glm-edge-v --size-in-billions 2 --model-format pytorch --quantization none

使用 OpenAI API进行推理:

import openai

client = openai.Client(
    api_key="cannot be empty",
    base_url="http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1"
)
output = client.chat.completions.create(
    model="glm-edge-v",
    messages=[
        {
   
            "role": "user",
            "content": [
                {
   
                    'type': 'text',
                    'text': 'describe this image',
                },
                {
   
                    'type': 'image_url',
                    'image_url': {
   
                        "url": "img.png",
                    }
                },
            ],
        }
    ],
    max_tokens=512,
    temperature=0.7
)

print(output)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
7月前
|
人工智能 自然语言处理 API
Google Gemma 模型服务:开放的生成式 AI 模型服务
Google Gemma 模型服务:开放的生成式 AI 模型服务
220 4
|
7月前
|
文字识别 前端开发
CodeFuse-VLM 开源,支持多模态多任务预训练/微调
随着huggingface开源社区的不断更新,会有更多的vision encoder 和 LLM 底座发布,这些vision encoder 和 LLM底座都有各自的强项,例如 code-llama 适合生成代码类任务,但是不适合生成中文类的任务,因此用户常常需要根据vision encoder和LLM的特长来搭建自己的多模态大语言模型。针对多模态大语言模型种类繁多的落地场景,我们搭建了CodeFuse-VLM 框架,支持多种视觉模型和语言大模型,使得MFT-VLM可以适应不同种类的任务。
721 0
|
7月前
|
自然语言处理 物联网 Swift
零一万物开源Yi-VL多模态大模型,魔搭社区推理&微调最佳实践来啦!
近期,零一万物Yi系列模型家族发布了其多模态大模型系列,Yi Vision Language(Yi-VL)多模态语言大模型正式面向全球开源。
|
1天前
|
人工智能 文字识别 测试技术
Florence-VL:微软和马里兰大学共同开源的多模态大语言模型
Florence-VL是由微软和马里兰大学共同开源的多模态大语言模型,结合生成式视觉基础模型Florence-2和深度-广度融合技术,实现视觉与语言理解的深度融合,适用于多种下游任务。
65 29
Florence-VL:微软和马里兰大学共同开源的多模态大语言模型
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化
Meta AI推出的Llama 3.3是一款70B参数的纯文本语言模型,支持多语言对话,具备高效、低成本的特点,适用于多种应用场景,如聊天机器人、客户服务自动化、语言翻译等。
36 13
Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化
|
11天前
|
数据采集 文字识别 测试技术
智谱开源端侧大语言和多模态模型GLM-Edge系列!
GLM-Edge系列模型是由智谱开源,专为端侧应用设计的大语言对话模型和多模态理解模型,包括GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B四种尺寸。这些模型针对手机、车机及PC等不同平台进行了优化,通过量化的技术手段,实现了高效运行。例如,在高通骁龙8 Elite平台上,1.5B对话模型和2B多模态模型能够达到每秒60 tokens以上的解码速度,而通过应用投机采样技术,这一数字可提升至100 tokens以上。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】LLM主流开源大模型介绍
【AI大模型】LLM主流开源大模型介绍
|
3月前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
74 7
|
4月前
|
机器学习/深度学习 人工智能 数据可视化
技术开源|语音情感基座模型emotion2vec
技术开源|语音情感基座模型emotion2vec
|
6月前
|
人工智能 JSON 自然语言处理
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
GLM-4-9B是智谱AI推出的新一代预训练模型GLM-4系列的开源版本,它在多个数据集上的测试中表现出高绩效,包括语义理解、数学问题解决、推理和代码理解等方面。GLM-4-9B模型有四个变体:基础版GLM-4-9B(8K)、对话版GLM-4-9B-Chat(128K)、超长上下文版GLM-4-9B-Chat-1M(1M)和多模态版GLM-4V-9B-Chat(8K)。用户可以通过魔搭社区提供的链接体验这些模型,包括在CPU上运行的版本和支持vLLM推理的版本。
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!

热门文章

最新文章