Ollama可以玩GLM4和CodeGeeX4了,快来魔搭玩起来

简介: GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。在语义、数学、推理、代码和知识等多方面的数据集测评中, GLM-4-9B 在各项能力上均表现出卓越的能力。

引言

GLM-4-9B 及 CodeGeeX4-ALL-9B 现已支持Ollama部署。

GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。在语义、数学、推理、代码和知识等多方面的数据集测评中, GLM-4-9B 在各项能力上均表现出卓越的能力。

GGUF模型链接:

https://modelscope.cn/models/LLM-Research/glm-4-9b-chat-GGUF

 

CodeGeeX4-ALL-9B 是最新的 CodeGeeX4 系列模型的开源版本。该模型是在 GLM-4-9B 基础上持续训练的多语言代码生成模型,显著提升了代码生成能力。

GGUF模型链接:

https://www.modelscope.cn/models/LLM-Research/codegeex4-all-9b-GGUF

最佳实践

环境配置与安装

本文主要演示的模型推理代码可在魔搭社区免费实例PAI-DSW的配置下运行(长期免费CPU环境) :

点击模型左侧Notebook快速开发按钮,选择CPU环境
image.gif

GGUF模型下载:

glm-4-9b-chat-GGUF

modelscope download --model=LLM-Research/glm-4-9b-chat-GGUF --local_dir . glm-4-9b-chat.Q5_K.gguf

image.gif

codegeex4-all-9b-GGUF:

modelscope download --model=LLM-Research/codegeex4-all-9b-GGUF --local_dir . codegeex4-all-9b-Q5_K_M.gguf

image.gif

使用Ollama推理

Ollama是一个专为在本地环境中运行和定制大型语言模型而设计的工具。它提供了一个简单而高效的接口,用于创建、运行和管理这些模型,同时还提供了一个丰富的预构建模型库,可以轻松集成到各种应用程序中。Ollama支持多种操作系统,包括macOS、Windows、Linux以及Docker,适用性广泛。通过Ollama,用户可以方便地部署和运行GLM-4-9B 等开源的大语言模型。此外,Ollama还提供了包括网页、桌面应用和终端界面在内的多种互动方式,方便用户使用和管理这些模型。

本次我们在魔搭社区免费Notebook的CPU环境体验:

Linux环境使用

Liunx用户可使用魔搭镜像环境安装【推荐】

modelscope download --model=modelscope/ollama-linux --local_dir ./ollama-linux
cd ollama-linux
sudo chmod 777 ./ollama-modelscope-install.sh
./ollama-modelscope-install.sh

image.gif

启动Ollama服务

ollama serve

image.gif

创建ModelFile

复制模型路径,创建名为“ModelFile”的meta文件,内容如下:

FROM /mnt/workspace/glm-4-9b-chat.Q5_K.gguf
#FROM /mnt/workspace/codegeex4-all-9b-Q5_K_M.gguf
# set parameters
PARAMETER stop "<|system|>"
PARAMETER stop "<|user|>"
PARAMETER stop "<|assistant|>"
TEMPLATE """[gMASK]<sop>{{ if .System }}<|system|>
{{ .System }}{{ end }}{{ if .Prompt }}<|user|>
{{ .Prompt }}{{ end }}<|assistant|>
{{ .Response }}"""

image.gif

创建自定义模型

使用ollama create命令创建自定义模型

ollama create myglm4 --file ModelFile

image.gif

运行模型:

ollama run myglm4


image.gif

 

点击链接👇直达原文

https://modelscope.cn/models/LLM-Research/glm-4-9b-chat-GGUF?from=alizishequ__text

相关文章
|
缓存 API 开发者
魔搭社区牵手FastChat&vLLM,打造极致LLM模型部署体验
FastChat是一个开放平台,用于训练、服务和评估基于LLM的ChatBot。
|
4月前
|
人工智能 JavaScript 数据可视化
保姆级教程:OpenClaw(Clawdbot)阿里云及Windows本地部署方案,与本地Ollama配置指南
在AI智能体快速普及的2026年,OpenClaw(前身为Clawdbot)凭借开源免费、可自托管、系统级权限控制的核心优势,成为个人与轻量团队打造专属AI助手的首选工具,其GitHub星标已飙升至18万+,登顶多个开源榜单。Ollama作为目前最受开发者欢迎的本地大模型运行工具,GitHub星标突破16万,支持480+开源模型一键部署,二者组合可实现“本地推理+本地执行”的全闭环,彻底摆脱对云端大模型的依赖,确保数据隐私安全且无网络依赖。
4398 2
|
开发者 异构计算
现在,一行命令使用Ollama运行任意魔搭GGUF模型
为了让开发者更方便地把这些模型用起来,社区最近支持了Ollama框架和ModelScope平台的链接,通过简单的 ollama run命令,就能直接加载运行ModelScope模型库上的GGUF模型。
|
10月前
|
云安全 人工智能 安全
Ollama漏洞引发的“血案”—自建LLM的安全思考
「云安全技术观察」聚焦云计算时代安全技术前沿与实践,涵盖AI大模型风险、云原生安全体系建设及攻防对抗等内容,提供落地技术参考与前瞻性洞察。
1182 0
|
3月前
|
人工智能 数据可视化 API
零成本解锁AI算力!OpenClaw阿里云及本地部署与GLM-4.7-Flash免费调用实战保姆级教程
在使用OpenClaw(别名“大龙虾”)时,很多用户会遇到Token消耗过快的问题。2026年,智谱AI开放平台推出的GLM-4.7-Flash模型提供完全免费调用服务,该模型作为30B级SOTA模型,强化了编码能力、长程任务规划与工具协同,上下文窗口达200K,最大输出Tokens为128K,适配OpenClaw的复杂智能体任务执行需求。
6980 0
|
4月前
|
人工智能 Linux API
[大模型实战 01] 本地大模型初体验:Ollama 部署与 Python 调用指南
大模型实战系列第一篇。拒绝晦涩理论,直接上手!我会带着各位友人们零基础安装 Ollama,利用国内 ModelScope 极速下载模型,详解服务端口配置与 Python 脚本调用,涵盖显存计算与常见避坑指南。
[大模型实战 01] 本地大模型初体验:Ollama 部署与 Python 调用指南
|
5月前
|
存储 监控 算法
从24G到8G:大模型调存优化全攻略(新手保姆级)
本文揭秘大模型显存消耗的四大“吃金兽”(参数、梯度、优化器状态、激活值),并提供零代码优化方案:LoRA/QLoRA微调、BF16混合精度、梯度累积与梯度检查点。实操指南助你用RTX 3060/4060等入门卡高效微调7B模型,显存直降70%+,兼顾效果与速度。(239字)
519 1
|
5月前
|
并行计算 监控 安全
高效 GPU 加速:DeepSeek-R1 系列模型在 llama.cpp 上的生产级部署指南
本文详解如何在RTX 30/40系显卡上,通过llama.cpp高效部署DeepSeek-R1-8B模型。涵盖CUDA镜像选择、GPU卸载调优、显存控制与高可用架构,结合Docker、Prometheus监控及负载均衡,实现低延迟、高吞吐的生产级推理,助力大模型落地应用。