GLM-Edge:智谱开源的端侧大语言和多模态系列模型

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型,旨在实现模型性能、实机推理效果和落地便利性之间的最佳平衡。该系列模型支持在手机、车机和PC等端侧设备上高效运行,适用于智能助手、聊天机器人、图像标注等多种应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 模型类型:包含大语言对话模型和多模态理解模型,适用于不同平台。
  2. 技术优化:采用混合量化和投机采样技术,提升端侧推理速度。
  3. 应用广泛:支持智能助手、聊天机器人、图像标注等多种应用场景。

正文(附运行示例)

GLM-Edge 是什么

公众号: 蚝油菜花 - GLM-Edge

GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型,包含GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B。这些模型主要面向手机、车机和PC等平台,基于GLM-4系列技术积累,调整模型结构和尺寸,实现模型性能、实机推理效果和落地便利性之间的最佳平衡。

在高通骁龙8 Elite等端侧平台上,GLM-Edge基于混合量化方案和投机采样技术,1.5B对话模型、2B多模态模型能实现每秒60至100个tokens的高速解码,展现出卓越的推理性能。

GLM-Edge 的主要功能

  • 大语言对话模型:提供基于大型语言模型的对话能力,理解和生成自然语言,适用于聊天机器人、智能助手等应用。
  • 多模态理解模型:结合视觉和语言信息,理解和描述图片内容,适用于图像标注、视觉问答等多模态交互场景。
  • 端侧优化:针对手机、车机和PC等端侧设备进行优化,实现在资源受限的环境中高效运行。
  • 快速推理:在特定硬件平台上,如高通骁龙8 Elite,基于混合量化和投机采样技术,实现高速的模型推理。
  • 跨平台部署:支持在多种硬件和操作系统上部署,包括但不限于Android、iOS和Windows。

GLM-Edge 的技术原理

  • 预训练语言模型:GLM-Edge系列模型基于自回归语言模型,在大规模文本数据上进行预训练,学习语言的复杂结构和语义信息。
  • 迁移学习:预训练完成后,模型基于迁移学习适应特定的下游任务,如对话生成、文本分类等。
  • 量化技术:为在端侧设备上高效运行,GLM-Edge采用量化技术,将模型的权重和激活从浮点数转换为低精度表示,如INT4或INT8,减少模型大小和计算需求。
  • 混合量化方案:结合不同的量化策略,如动态量化和静态量化,平衡模型性能和推理速度。
  • 投机采样技术:预测性地执行计算,减少实际需要的计算量,提高模型的推理速度。

如何运行 GLM-Edge

安装依赖

请确保你的Python版本为3.10或更高版本,并按照如下方式安装依赖:

pip install -r requirements.txt

模型推理

我们提供了 vLLM, OpenVINO 和 transformers 三种后端推理方式,你可以通过运行以下命令来运行模型。这是一个命令行交互代码。

python cli_demo.py --backend transformers --model_path THUDM/glm-edge-1.5b-chat --precision bfloat16
python cli_demo.py --backend vllm --model_path THUDM/glm-edge-1.5b-chat --precision bfloat16
python cli_demo.py --backend ov --model_path THUDM/glm-edge-1.5b-chat-ov  --precision int4

注意:

OpenVINO 版本模型需要进行转换,请前往 这里 运行转换代码。

python convert_chat.py --model_path THUDM/glm-edge-1.5b-chat --precision int4 转换对话模型。

python convert.py --model_path THUDM/glm-edge-v-2b --precision int4 转换视觉理解模型。

你也可以在 这里 查看原始的转换代码。

vLLM 版本模型需要从 这里 源代码 安装 vLLM 以正常运行。

如果你想使用 glm-edge-v 系列模型,你可以运行以下命令行交互代码

python cli_demo_vision.py  --backend transformers --model_path THUDM/glm-edge-v-2b --precision bfloat16
python cli_demo.py --backend ov --model_path THUDM/glm-edge-1.5b-chat-ov  --precision int4

你也可以使用 Gradio 启动 WebUI。

python cli_demo.py --backend transformers --model_path THUDM/glm-edge-1.5b-chat --precision bfloat16
python cli_demo.py --backend vllm --model_path THUDM/glm-edge-1.5b-chat --precision int4 # For Int4 Inference

XInference

如果你使用 XInference 进行推理,你可以通过运行以下命令来运行模型。这是一个命令行交互代码。

xinference launch --model-engine Transformers --model-name glm-edge-v --size-in-billions 2 --model-format pytorch --quantization none

使用 OpenAI API进行推理:

import openai

client = openai.Client(
    api_key="cannot be empty",
    base_url="http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1"
)
output = client.chat.completions.create(
    model="glm-edge-v",
    messages=[
        {
   
            "role": "user",
            "content": [
                {
   
                    'type': 'text',
                    'text': 'describe this image',
                },
                {
   
                    'type': 'image_url',
                    'image_url': {
   
                        "url": "img.png",
                    }
                },
            ],
        }
    ],
    max_tokens=512,
    temperature=0.7
)

print(output)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
人工智能 自然语言处理 算法
口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts实践(Python3.10)
不能否认,微软Azure在TTS(text-to-speech文字转语音)这个人工智能细分领域的影响力是统治级的,一如ChatGPT在NLP领域的随心所欲,予取予求。君不见几乎所有的抖音营销号口播均采用微软的语音合成技术,其影响力由此可见一斑,仅有的白璧微瑕之处就是价格略高,虽然国内也可以使用[科大讯飞语音合成](https://v3u.cn/a_id_276)进行平替,但我们只想要最好的那一个,本次我们使用免费的开源库edge-tts来实现文本转语音操作,薅微软edge的羊毛。
口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts实践(Python3.10)
|
JavaScript 前端开发 Windows
微软Edge 内嵌的JavaScript 引擎即将开源
微软于今日(2015年12月10日)宣布即将开源Chakra核心控件,并改名为“ChakraCore”,该控件包含所有Edge JavaScript 引擎的所有核心功能。ChakraCore 将于下月发布在GitHub中。
727 0
|
3月前
|
Web App开发 安全 中间件
谷歌、火狐、Edge等浏览器如何使用ActiveX控件
allWebPlugin 是一款为用户提供安全、可靠且便捷的浏览器插件服务的中间件产品,支持 Chrome、Firefox、Edge 和 360 等浏览器。其 V2.0.0.20 版本支持一个页面加载多个插件,并解决了插件与浏览器之间的焦点问题。用户可通过“信息化系统 + allWebPlugin + 插件 + 浏览器”的解决方案实现 ActiveX 插件的无缝集成。下载地址见文末,安装包含详细说明。
|
3月前
|
安全 搜索推荐 数据安全/隐私保护
定制你的清爽Mac版Edge浏览器
【10月更文挑战第5天】本文介绍了如何定制Mac版Edge浏览器以实现清爽高效的操作体验。内容包括:选择主题以适应不同环境,自定义工具栏以保持界面简洁;启用隐私浏览模式及调整隐私设置来保护个人信息;通过更新浏览器和开启安全筛选器来加强安全性;安装扩展程序以增强功能,并设置启动选项和快捷方式以便于操作。通过这些方法,你可以根据个人需求打造个性化的浏览器环境。
|
4月前
|
安全 Oracle Java
edge浏览器加载java插件
edge浏览器加载java插件
272 1
|
4月前
|
安全
微软网站上关于在Edge浏览器中打开或关闭smartScreen的说明有误
微软网站上关于在Edge浏览器中打开或关闭smartScreen的说明有误
微软网站上关于在Edge浏览器中打开或关闭smartScreen的说明有误
|
4月前
|
Web App开发 缓存 安全
解决Edge浏览器提示“此网站已被人举报不安全”
【9月更文挑战第1天】当 Edge 浏览器提示“此网站被举报为不安全”时,可尝试:关闭 Microsoft Defender SmartScreen;检查网站安全性;清除缓存和 Cookie;更新 Edge 至最新版;或使用其他浏览器。若问题依旧,联系网站管理员和技术支持。同时,避免在不可信网站输入敏感信息,保护网络安全与隐私。
649 7

热门文章

最新文章