魔搭社区GGUF模型怎么玩！看这篇就够了

2024-06-20 2374

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 近期，Qwen2系列模型家族发布了系列GGUF格式模型。通过llama.cpp/Ollama等生态的发展，很多大语言模型都支持GGUF格式，极大地简化了大语言模型的应用流程，让即便是模型领域的初学者，只有一台CPU笔记本，也能轻松上手顶尖的AI技术。

近期，Qwen2系列模型家族发布了系列GGUF格式模型。通过llama.cpp/Ollama等生态的发展，很多大语言模型都支持GGUF格式，极大地简化了大语言模型的应用流程，让即便是模型领域的初学者，只有一台CPU笔记本，也能轻松上手顶尖的AI技术。我们希望分析GGUF模型的使用方式，并逐一介绍当下主流的生态系统工具（llama.cpp，Ollama， lmstudio， Open-Webui），从下载、解析到部署运行，全方位解锁GGUF模型的便捷玩法，帮助开发者丝滑的体验最新的大模型技术。

单模型文件下载

GGUF通常可以通过单模型文件完成推理，魔搭社区可以通过命令行CLI，Python SDK，页面下载等多个方式下载单个模型。

命令行CLI下载

使用ModelScope命令行工具下载单个模型，以Qwen2-7B的GGUF格式为例：

modelscope download --model=qwen/Qwen2-7B-Instruct-GGUF --local_dir . qwen2-7b-instruct-q8_0.gguf

Python SDK下载

from modelscope.hub.file_download import model_file_download
model_dir = model_file_download(model_id='qwen/Qwen2-7B-Instruct-GGUF',file_path='qwen2-7b-instruct-q8_0.gguf')

页面下载

模型推理工具

本文主要介绍llama.cpp， ollama，LM Studio三个工具，以下是比较不同工具的总结图。我根据自己的快速主观体验做了一些星级评定——希望这对您的比较有所帮助。

	UI	文件上传（RAG）	命令行	页面友好度	安装友好度	是否开源
llama.cpp	支持	不支持	支持	⭐️	友好	是
Ollama	需要额外安装Open-WebUI	Open-WebUI支持	支持	⭐️⭐️	命令行友好/WebUI一般	是
LM Studio	支持	不支持	支持	⭐️⭐️⭐️	非常友好	否

llama.cpp

环境安装

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make -j
# GPU机型需要cuda加速推理build
# make -j LLAMA_CUDA=1

模型推理

要运行 Qwen2，您可以使用 llama-cli（主程序）或 llama-server（主程序）。建议使用 llama-server，因为它简单且与 OpenAI API 兼容。例如：

./llama-server -m /mnt/workspace/qwen2-7b-instruct-q8_0.gguf -ngl 28 -fa

更多参数说明可参照官方文档：https://github.com/ggerganov/llama.cpp/blob/master/examples/server/README.md

接口调用

然后就可以很容易地使用 OpenAI API 访问已部署的服务：

import openai
client = openai.OpenAI(
    base_url="http://127.0.0.1:8080/v1",
    api_key = "sk-no-key-required"
)
completion = client.chat.completions.create(
    model="qwen", # model name can be chosen arbitrarily
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "tell me something about michael jordan"}
    ]
)
print(completion.choices[0].message.content)

CLI调用

使用 llama-cli，ChatML 模板中 -cml 已被删除。改用 --in-prefix 和 --in-suffix 来解决此问题。

./llama-cli -m qwen2-7b-instruct-q5_k_m.gguf \
  -n 512 -co -i -if -f prompts/chat-with-qwen.txt \
  --in-prefix "<|im_start|>user\n" \
  --in-suffix "<|im_end|>\n<|im_start|>assistant\n" \
  -ngl 24 -fa

Webui访问

在浏览器中输入：http://127.0.0.1:8080

Ollama

Ollama 是一款极其简单的基于命令行的工具，用于运行 LLM。它非常容易上手，可用于构建 AI 应用程序。

本文使用Ollama Modelfile，结合魔搭ModelScope社区CLI模型下载，并分别在魔搭Notebook环境和Mac环境几行代码轻松体验大语言模型。

Linux环境使用

Liunx用户可使用魔搭镜像环境安装【推荐】

git clone https://www.modelscope.cn/modelscope/ollama-linux.git
cd ollama-linux
sudo chmod 777 ./ollama-modelscope-install.sh
./ollama-modelscope-install.sh

启动Ollama服务

ollama serve

创建ModelFile

复制模型路径，创建名为“ModelFile”的meta文件，内容如下：

FROM /mnt/workspace/qwen2-7b-instruct-q8_0.gguf
# set the temperature to 0.7 [higher is more creative, lower is more coherent]
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER repeat_penalty 1.05
TEMPLATE """{{ if and .First .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
{{ .Response }}"""
# set the system message
SYSTEM """
You are a helpful assistant.
"""

创建自定义模型

使用ollama create命令创建自定义模型

ollama create myqwen2 --file ./ModelFile

通过使用 ollama list 列出可用模型来验证自定义模型的创建。

运行模型：

ollama run myqwen2

测试自定义模型，使用终端与您的自定义模型聊天，以确保其行为符合预期。验证它是否根据自定义的系统提示和模板做出响应。

显存占用：

Mac环境安装

在官网下载Mac安装包，并解压安装，启动Ollama服务

模型下载并使用Ollama创建推理

下载和创建推理和上文一致，我们在Mac上创建一个myqwen2的模型并通过Ollama运行。

本地安装Open WebUI并体验

环境要求：

🐰 Node.js >= 20.10
🐍 Python >= 3.11（建议最好用3.11版本）

conda create --name webui python=3.11
conda activate webui
conda config --add channels conda-forge
conda install nodejs

下载安装open-webui并运行

git clone https://github.com/open-webui/open-webui.git
cd open-webui/
# Copying required .env file
cp -RPp .env.example .env
# Building Frontend Using Node
npm i
npm run build
# Serving Frontend with the Backend
cd ./backend
pip install -r requirements.txt -U
bash start.sh

打开本地运行的webUI地址0.0.0.0:8080就可以体验啦！

LM Studio

LM Studio 有一个不错的 GUI，可用于与 LLM 交互。LM Studio是唯一一个非开源的项目，但可以免费下载。

下载链接:

https://lmstudio.ai/

模型gguf文件在魔搭社区下载的时候，设置保存路径为：~/.cache/lm-studio/models/Publisher/Repository/，就可以被LMStudio加载。

对话UI 如下所示：

模型管理界面：

LM Studio 包括Open-Webui，Llama.cpp UI还在底部显示了 token 生成速度，在M1芯片上，0.5B的Qwen2这个模型速度是58.73tok/s

魔搭社区GGUF模型怎么玩！看这篇就够了

单模型文件下载

命令行CLI下载

模型推理工具

llama.cpp

环境安装

接口调用

CLI调用

Webui访问

Ollama

Linux环境使用

启动Ollama服务

创建ModelFile

创建自定义模型

运行模型：

Mac环境安装

模型下载并使用Ollama创建推理

本地安装Open WebUI并体验

环境要求：

LM Studio

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

魔搭社区GGUF模型怎么玩！看这篇就够了

单模型文件下载

命令行CLI下载

模型推理工具

llama.cpp

环境安装

接口调用

CLI调用

Webui访问

Ollama

Linux环境使用

启动Ollama服务

创建ModelFile

创建自定义模型

运行模型：

Mac环境安装

模型下载并使用Ollama创建推理

本地安装Open WebUI并体验

环境要求：

LM Studio

热门文章

最新文章

相关课程

相关电子书

相关实验场景