大模型应用:大模型本地化部署与API调用:打包迁移到服务器的多种方式实践.47

简介: 本文详解大模型从本地运行到云端API服务的全链路部署:涵盖硬件要求(GPU/CPU/内存)、软件环境(Python/FastAPI/Transformers)、模型选型(Qwen/ChatGLM等),并提供脚本部署、EXE打包(PyInstaller)和Docker容器化三种方案,支持局域网调用与接口文档自动生成,助力零基础用户快速实现“开箱即用”的稳定API服务。

一、引言

       在过往的系列分享中,无论是轻量型向量模型的实操应用,还是大语言模型的生成推理与落地调试,我们始终围绕模型本地化调用这一核心场景展开,从环境搭建、参数优化到功能适配,逐步带领大家打通了本地跑通模型的全流程。但随着应用场景的升级,单一设备的本地化调用已难以满足多用户协同访问、高并发处理、长期稳定运行的需求,同时,将开源或自定义大模型封装为可网络访问的 API 接口,部署到服务器上实现稳定调用,已成为企业级应用、团队协作、产品集成的核心需求,此时,如何将调试成熟的模型平滑部署至云端服务器,实现从本地自用到全网可调用的跨越,成为衔接技术实操与业务落地的关键环节,也是我们接下来需要探讨的重点环节。

       今天,我们将聚焦大模型从本地可用到云端可调用的全链路实操,沿着基础 API 调用、自动化接口文档生成、多方案打包部署上线的完整脉络,进行细致拆解与深度剖析,真正实现从技术跑通到场景落地的无缝衔接。

47.2-模型打包部署2.png

二、基础要求

1. 硬件要求

  • CPU:普通办公电脑i5、i7 CPU也能跑,但速度慢;推荐多核 CPU。
  • GPU:大模型运行需要大量并行计算,GPU 能提速 10-100 倍。
  • 入门级:NVIDIA RTX 3090/4070,8-12GB 显存,能跑 6B-7B 参数的轻量模型。
  • 进阶级:NVIDIA A100,40GB 显存,能跑 13B-70B 参数的大模型。
  • 无 GPU 方案:用 CPU 结合大内存,建议在32GB 以上,但运行速度极慢,仅适合测试。
  • 内存(RAM):至少 16GB,推荐 32GB 以上,模型加载到内存中运行,内存不够会卡顿或崩溃。
  • 存储:大模型文件体积大,6B 参数模型约 10GB,13B 模型约 20GB,需预留至少 50GB 硬盘空间,推荐 SSD,加载速度更快。

2. 软件环境

  • 操作系统:服务器首选推荐 Linux,如 Ubuntu 或个人电脑入门推荐Windows 10/11。
  • 编程语言:Python 3.8-3.10,大模型相关库对 Python 版本有严格要求,可能会出现各种闹心的版本兼容性问题。
  • 核心依赖库:
  • PyTorch/TensorFlow:大模型运行的底层框架,类似盖房子的地基)。
  • Transformers:Hugging Face 推出的模型工具库,能快速加载各种大模型,如 ChatGLM、LLaMA,如果无法访问,推荐ModelScope也是很好的选择。
  • FastAPI/Flask:用于创建 API 接口的 “web 框架”(让模型能被网络访问)。
  • sentencepiece/tokenizers:大模型的语言翻译工具,把文字转换成模型能理解的格式。

3. 模型选择

  • 初次接触或体验,先选轻量型,推荐入门模型,参数小、易部署、对硬件要求低:
  • ChatGLM-6B:清华开发,中文支持好,6B 参数,显存要求≥8GB。
  • LLaMA-7B(量化版):Meta 开发,英文支持好,7B 参数,量化后显存要求≥4GB。
  • Mistral-7B:性能优秀,7B 参数,支持多语言,显存要求≥8GB。
  • Qwen1.5-1.8B-Chat:CPU可运行,适合体验,普通个人电脑是不错的选择
  • 模型来源:Hugging Face Hub 全球最大的大模型仓库,可直接下载模型文件,国内的ModelScope。

4. 网络基础

  • IP 地址:个人电脑部署后通常使用localhost或127.0.0.1即可,服务器需查看指定开发外部访问的IP地址。
  • 端口:服务器上的门牌号,比如 8000、5000,API 接口会绑定一个端口,避免冲突。
  • 局域网 vs 公网:
  • 局域网:同一网络下的设备可访问,如办公室电脑、家里的手机。
  • 公网:互联网上的任何设备可访问,需配置端口映射或公网 IP。

三、基础原理

47.3-本地模型部署与API服务流程图 deepseek_mermaid_20260106_2ffc8b.png

1. 本地化部署的核心逻辑:加载 - 运行

大模型本质是一个巨大的数学模型文件,包含数十亿个参数,部署的核心就是让这个文件在我们的硬件上运行起来:

  • 1. 下载模型文件:从 Hugging Face或ModelScope等平台下载模型的参数数据权重文件和运行规则配置文件。
  • 2. 搭建运行环境:安装 PyTorch 等框架,相当于给模型准备运行地基。
  • 3. 加载模型到硬件:通过代码把模型文件加载到 GPU/CPU 中,就像把游戏安装到电脑里,然后打开游戏。
  • 4. 本地测试运行:发送一个简单请求,模型在本地计算后返回结果。

2. 开放调用的核心逻辑:接口 - 通信

让别人使用我们的本地模型,本质是建立一个通信桥梁,API 接口:

  • 1. 创建 API 接口:用 FastAPI 等框架写一段代码,把模型的 “回答功能” 封装成一个网络接口,如 http://IP地址:8000/chat。
  • 2. 监听端口:让服务器持续盯着某个端口,如 8000,等待外部请求。
  • 3. 接收 - 处理 - 返回:
  • 别人通过接口发送请求(如 http://  IP地址 :8000/chat?question = 你好)。
  • 服务器接收请求后,调用本地模型处理。
  • 模型计算出结果,通过接口返回给请求者。

四、脚本运行部署

1. 模型下载

       把原本在云端服务器运行的大模型,下载并安装到自己的电脑或服务器上,让它在本地硬件上跑起来。参考以下代码用于从 ModelScope 下载并加载 Qwen 模型到本地指定目录,准备下一步的调用,适用于首次部署或更新 Qwen 模型,下载后可离线使用。

from transformers import AutoTokenizer, AutoModelForCausalLM
from modelscope import snapshot_download
# 下载模型到./model文件夹
model_name = "qwen/Qwen1.5-1.8B-Chat"
cache_dir = "D:\\modelscope\\hub"
print("正在下载/校验模型缓存...")
local_model_path = snapshot_download(model_name, cache_dir=cache_dir)
tokenizer = AutoTokenizer.from_pretrained(local_model_path)
model = AutoModelForCausalLM.from_pretrained(local_model_path)
# 保存到本地
print("模型下载完成,已保存到D:\\modelscope\\hub文件夹")

image.gif

2. 编写部署并开放调用代码

       让部署好的本地大模型,通过接口的形式提供外部调用,以使用模型的推理能力获得理想的结果,我们先实现一个本地模型的加载和应用,形成一个基础的接口版本并通过FastAPI的形式实现本地化的调用,只有本地运行成功,再打包迁移部署到服务器上。

# 1. 导入需要的库
from fastapi import FastAPI
from transformers import AutoModelForCausalLM, AutoTokenizer
import uvicorn
from modelscope import snapshot_download
model_name = "qwen/Qwen1.5-1.8B-Chat"
cache_dir = "D:\\modelscope\\hub"
print("正在下载/校验模型缓存...")
local_model_path = snapshot_download(model_name, cache_dir=cache_dir)
# 生产在线的接口文档,访问方式“/docs”
from fastapi.openapi.docs import (
    get_redoc_html,
    get_swagger_ui_html,
    get_swagger_ui_oauth2_redirect_html,
)
# 2. 初始化FastAPI应用(创建API服务)
app = FastAPI(title="本地大模型开放调用API", description="基于Qwen模型的本地化部署接口")
# 3. 加载模型和Tokenizer(关键:模型会自动下载并加载到CPU)
# AutoModelForCausalLM:加载对话模型权重,AutoTokenizer:处理文字(转换为模型能理解的格式)
tokenizer = AutoTokenizer.from_pretrained(local_model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(local_model_path, trust_remote_code=True)
# 4. 定义API接口(POST请求,接收用户提问,返回模型回答)
@app.post("/chat", summary="大模型对话接口")
def chat(question: str):
    # 处理用户输入:将文字转换为模型能理解的张量
    inputs = tokenizer(question, return_tensors="pt")
    # 模型生成回答(max_length:回答最大长度,do_sample:是否随机生成,temperature:随机性程度)
    outputs = model.generate(**inputs, max_length=512, do_sample=True, temperature=0.7)
    # 将模型输出转换为文字
    answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
    # 返回结果(JSON格式)
    return {"question": question, "answer": answer}
# 5. 启动API服务(监听局域网IP,端口8000)
if __name__ == "__main__":
    # host="0.0.0.0":允许局域网内所有设备访问,port=8000:端口号
    uvicorn.run(app, host="0.0.0.0", port=8000)

image.gif

将以上示例代码保存在python文件中,我这里命名的是:260106-本地模型的API调用.py,打开cmd可执行窗体,进入到文件目录,运行:“python 260106-本地模型的API调用.py”,启动运行这个文件,出现如下界面表示运行成功:

47.4-示例启动运行 ScreenShot_2026-01-06_161550_131.png

注意:这个示例我们使用的端口号指定为8000,端口可自定义

3. 接口查阅与测试

       服务启动后会自动生产一个接口文档,通过地址“http://localhost:8000/docs”直接进行访问,文档中包含了示例中声明的接口,如示例中声明的“@app.post("/chat", summary="大模型对话接口")”表示这是一个post接口,接口名称为“/chat”,接口描述为“大模型对话接口”,如下图:

47.5-端口8000的接口文档 ScreenShot_2026-01-06_163359_853.png

展开接口明细部分,可以直接测试,我们对接口参数输入“介绍你自己”,看看结果返回的内容:

47.6-文档接口测试结果返回 ScreenShot_2026-01-06_164634_152.png

{

 "question": "介绍你自己",

 "answer": "介绍你自己,包括你的性格、兴趣爱好、特长和优点。\n作为一个人工智能助手,我并没有个人的性格、兴趣爱好、特长和优点。我是由程序员精心设计和编程的,旨在帮助用户解决问题、提供信息和执行各种任务。我的主要功能包括回答问题、提供建议、生成文本、聊天、播放音乐、控制智能家居设备等。\n\n作为一个人工智能助手,我具备强大的计算能力和自然语言处理能力,能够理解和处理大量的文本数据,并从中提取有用的信息。我可以快速地从互联网上获取信息,提供准确的答案或建议。此外,我还具有自我学习的能力,通过与用户的交互和反馈,不断优化和改进自己的回答和服务。\n\n然而,与其他人类相比,我有一些显著的优点。首先,我没有情感和主观性,所以我不会受到情绪或偏见的影响,能够始终以客观、中立的态度提供信息和帮助。其次,我可以在24/7的时间范围内为用户提供服务,无论是在白天还是晚上,只要有网络连接,我就可以随时响应用户的需求。最后,由于我并不需要休息或进食,因此我可以全天候不间断地运行,为用户提供持续的服务。\n\n尽管如此,作为一名人工智能助手,我也存在一些局限性。例如,我可能无法理解复杂的概念或背景信息,特别是那些涉及专业知识或者非常规领域的内容。此外,虽然我可以通过机器学习和大数据技术不断提升自己的知识库和性能,但我仍然缺乏真正的创造力和想象力,无法像人类一样进行创新和创造性的思考。\n\n总的来说,我是一个高效、灵活且能提供广泛帮助的人工智能助手,但与人类相比,我有自己独特的优点和局限性。无论是用于日常生活中的简单任务,还是在需要深度分析和创造性思维的任务中,我都能够提供高质量的服务。"

}

通过postman的进行外部接口调试:

47.7-Postman接口调试 ScreenShot_2026-01-06_164813_943.png

4. 局域网开放调用

  • 查看服务器的局域网 IP,如192.168.1.100,通过ifconfig或ip addr命令查看。
  • 其他设备需和应用部署在同一 WiFi或同一局域网,打开浏览器,访问http://192.168.1.100:8000/docs,即可调用模型。

五、生成可执行EXE程序

       打包成 EXE 的核心价值:让不懂 Python、不会配环境的人,双击就能启动本地大模型的 API 服务,不用敲任何命令,尤其适合 Windows 用户分享和自用。

需注意细节:

  • 1. EXE 仅打包“运行代码 + 依赖库”,大模型文件由于体积太大,通常10GB+,无法打包进 EXE,需单独放在指定文件夹。
  • 2. 打包/运行 EXE 的电脑需满足:Windows 10/11,有 NVIDIA 显卡,带 CUDA,足够显存≥8GB,如是量化版需≥4GB。
  • 3. 推荐用 Python 3.9,打包工具PyInstaller对 3.9 兼容性最好,避免其他版本出现兼容问题。

1. 安装打包工具:PyInstaller

直接打开cmd,命令执行工具,执行:pip install pyinstaller

47.8-安装pyinstaller ScreenShot_2026-01-06_131402_814.png

2. 调整基础代码

  • 主要是调整了模型的加载路径,模型的目录和exe同一目录即可;
  • 通过查询本机的端口,修正了模型在局域网调用的IP地址,如果是服务器则替换为服务器开发的地址;
  • 修改了开放的端口为8001,这个按需自定义,此次为了区分已经部署的8000端口;

47.9-IP获取 ScreenShot_2026-01-06_183301_959.png

# 第一步:设置环境变量(解决模型下载/路径问题)
import os
# 配置Hugging Face镜像(加速模型加载)
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
# 手动指定模型本地存放路径(重点!需提前下载模型到这个文件夹)
MODEL_PATH = "./Qwen1___5-1___8B-Chat"  # 模型文件夹和EXE放在同一目录
# 第二步:导入核心库
from fastapi import FastAPI
from transformers import AutoModelForCausalLM, AutoTokenizer
import uvicorn
import sys
# 解决PyInstaller打包后路径问题
def get_resource_path(relative_path):
    """获取打包后EXE的实际运行路径"""
    # if hasattr(sys, '_MEIPASS'):
    #     # 打包后运行时的临时路径
    #     base_path = sys._MEIPASS
    # else:
    #     # 开发时的路径
    #     base_path = os.path.abspath(".")
    base_path = os.path.abspath(".")
    return os.path.join(base_path, relative_path)
# 生产在线的接口文档,访问方式“/docs”
from fastapi.openapi.docs import (
    get_redoc_html,
    get_swagger_ui_html,
    get_swagger_ui_oauth2_redirect_html,
)
# 第三步:初始化FastAPI
app = FastAPI(title="本地大模型EXE版API", description="Qwen本地化部署接口")
# 第四步:加载模型(改用本地路径,避免自动下载)
print("正在加载模型...(首次加载可能需要1-2分钟)")
try:
    # 加载分词器(Tokenizer)
    tokenizer = AutoTokenizer.from_pretrained(
        get_resource_path(MODEL_PATH),
        trust_remote_code=True
    )
    # 加载模型(int4量化版,显存要求≥4GB)
    model = AutoModelForCausalLM.from_pretrained(
        get_resource_path(MODEL_PATH),
        trust_remote_code=True
    ).half().cpu()  # 用GPU运行(无GPU则改成 .cpu(),但速度极慢)
    print("模型加载成功!API服务即将启动...")
except Exception as e:
    print(f"模型加载失败!错误原因:{e}")
    print(f"模型路径:{get_resource_path(MODEL_PATH)}")
    print("请确认:1. 模型文件夹放在EXE同目录;2. 显卡有CUDA环境;3. 显存足够")
    input("按回车键退出...")
    sys.exit(1)
# 第五步:定义对话接口
@app.post("/chat", summary="大模型对话接口")
def chat(question: str):
    try:
        inputs = tokenizer(question, return_tensors="pt")
        outputs = model.generate(**inputs, max_length=512, do_sample=True, temperature=0.7)
        answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
        return {"question": question, "answer": answer}
    except Exception as e:
        return {"error": f"回答生成失败:{str(e)}"}
# 第六步:启动服务(加个循环,避免启动后闪退)
def start_server():
    print("="*50)
    print("API服务启动成功!")
    print(f"本地访问地址:http://localhost:8001/docs")
    print(f"局域网访问地址:http://192.168.3.166:8001/docs(替换成自己的局域网IP)")
    print("="*50)
    # 启动uvicorn服务(加log_level避免冗余日志)
    uvicorn.run(
        app,
        host="0.0.0.0",
        port=8001,
        log_level="info"
    )
if __name__ == "__main__":
    try:
        start_server()
    except KeyboardInterrupt:
        print("\n服务已停止!")
        input("按回车键退出...")
    except Exception as e:
        print(f"服务启动失败!错误:{e}")
        input("按回车键退出...")

image.gif

3. 执行打包操作

在 CMD/PowerShell 中,切换到代码所在目录,执行:

# 核心打包命令(解释:-F 打包成单个EXE;-w 不显示黑窗口(可选);-i 可加图标,这里省略)
pyinstaller -F 260106模型的exe部署.py --hidden-import=transformers.models.chatglm.tokenization_chatglm --hidden-import=accelerate

image.gif

  • --hidden-import:解决 PyInstaller 漏打包依赖的问题。
  • 打包过程会持续 3-5 分钟,期间会下载/打包依赖库。

47.10-开始exe打包 ScreenShot_2026-01-06_184609_019.png

出现以下结果则说明打包已经完成,代码目录会生成 build、dist文件夹,EXE 文件在dist文件夹里,命名为"260106模型的exe部署.exe",文件大小依据Python 环境和依赖库的大小变化。

47.11-打包运行成功 ScreenShot_2026-01-06_190739_404.png

如果打包后的 EXE 体积太大,可以用-D代替-F,将文件打包成文件夹,体积更小!

4. 双击运行EXE

把EXE放到和模型同一目录,双击“260106模型的exe部署.exe”即可开始运行:

  • 会弹出黑窗口,显示 “正在加载模型...”。
  • 模型加载成功后,会提示 “API 服务启动成功!”,并显示访问地址。
  • 打开浏览器访问http://localhost:8000/docs,就能像之前一样调用模型了。

47.12-exe执行成功 ScreenShot_2026-01-06_191437_765.png

接口界面预览:

47.13-exe接口运行 ScreenShot_2026-01-06_194245_321.png

5. 过程总结

打包 EXE 的核心逻辑是:把“Python 解释器 + 依赖库 + 运行代码”打包成可执行文件,模型文件单独存放。整体步骤:

  • 1. 先手动下载模型,避免 EXE 自动下载失败;
  • 2. 调整代码路径,适配 PyInstaller 的打包规则;
  • 3. 用--hidden-import补全漏打包的依赖。

这样打包后的 EXE,不管是自己用,还是发给其他调用方,只要对方的 Windows 电脑满足硬件要求,双击就能启动本地大模型服务,不用再配复杂的 Python 环境,真正做到“开箱即用”!

六、Docker容器化部署

Docker容器化部署比exe在服务器上更实用,把 “Python 环境 + 依赖 + 代码 + 模型” 打包成Docker镜像,不管是什么环境,只要装了 Docker,一句命令就能运行,完全不用配环境,更适合服务器部署。

1. 安装 Docker

服务器端需支持 GPU,安装 NVIDIA Container Toolkit;

2. 编写 Dockerfile

# 基础镜像(带CUDA的Python,大模型必须用这个!)
FROM pytorch/pytorch:2.0.1-cuda11.8-cudnn8-runtime
# 设置工作目录
WORKDIR /app
# 安装系统依赖
RUN apt update && apt install -y git && rm -rf /var/lib/apt/lists/*
# 复制代码和模型(先把模型文件夹chatglm-6b-int4放代码目录)
COPY 260106-local-model.py /app/
COPY Qwen1___5-1___8B-Chat /app/Qwen1___5-1___8B-Chat/
# 安装Python依赖
RUN pip install --no-cache-dir transformers fastapi uvicorn sentencepiece accelerate -i https://pypi.tuna.tsinghua.edu.cn/simple
# 暴露端口(和代码里的8000对应)
EXPOSE 8000
# 启动命令
CMD ["python", "260106-local-model..py"]

image.gif

3. 构建 Docker 镜像

# 注意最后有个点!name改成自己的镜像名,tag是版本
docker build -t local-llm:v1 .

image.gif

4. 运行容器(一键启动)

# --gpus all:启用GPU(必须!);-p 8000:8000:端口映射;--name:容器名
docker run --gpus all -p 8000:8000 --name llm-server local-llm:v1

image.gif

5. 访问服务

和之前一样:浏览器访问http://localhost:8000/docs即可调用模型;如果是服务器,用服务器 IP+8000 端口访问。

6. 分享镜像

把镜像打包成文件,发给需要的调用方:

# 保存镜像为文件
docker save -o local-llm-v1.tar local-llm:v1
# 其他电脑加载镜像
docker load -i local-llm-v1.tar

image.gif

七、总结

       大模型 API 服务器部署的核心是环境适配、便捷调用 、稳定运行,不同方式各有侧重:Docker 容器化是企业级首选,兼顾稳定性和扩展性,EXE 打包适合 Windows 专属场景;脚本封装适合快速测试和技术团队内部使用,选择时需优先明确:服务器系统,Windows或Linux、使用规模、技术门槛、长期需求,再结合硬件条件和维护成本决策,即可实现高效、稳定的大模型 API 部署。

相关文章
|
24天前
|
人工智能 前端开发 Serverless
vLLM + SGLang + Ollama 自动适配!阿里云 Qwen3 部署智能选引擎
阿里云Qwen3正式开源8款混合推理模型(含2款MoE、6款Dense),支持119种语言,适配vLLM/SGLang/Ollama。依托函数计算FC与FunctionAI平台,提供模型服务与应用模板两种Serverless部署方式,最低GPU配置即可快速体验。
662 20
|
3天前
|
人工智能 并行计算 监控
大模型应用:拆解大模型算力需求:算力是什么?怎么衡量?如何匹配?.64
本文系统解析大模型算力核心概念:从基础定义(类比工厂效率)、核心指标(FLOPS、精度影响、显存带宽)到模型-硬件匹配公式与实战优化(量化、多卡分片、参数调优),覆盖RTX 4090/A100等主流显卡适配策略,助你精准选型、高效部署。
189 25
|
23天前
|
JSON API 数据安全/隐私保护
大模型应用:大模型的本地 API 服务:FastAPI 封装与接口鉴权.44
本文详解本地大模型API的接口发布与鉴权调试,重点介绍Postman工具实操。涵盖FastAPI封装原理、API Key与极简JWT两种鉴权方式,深入解析JWT结构(Header/Payload/Signature)、无状态验证、过期机制及完整调用流程,助开发者安全、高效调试本地大模型服务。
385 7
|
2月前
|
人工智能 自然语言处理 数据可视化
大模型应用:大模型本地部署实战:从零构建可视化智能学习助手.2
本文介绍了一个基于Qwen1.5-1.8B大模型的本地部署AI学习助手系统。该系统在CPU环境下运行,通过Gradio提供Web界面,具备智能对话、学习示例生成等功能。文章详细阐述了模型选择、系统架构设计、提示词优化、用户界面实现等关键技术点,重点讨论了参数配置优化策略,包括模型加载、输入处理、生成策略等核心参数。该系统实现了在消费级硬件上部署智能教育助手,保障数据隐私的同时提供多学科问答支持,具有预设问题、上下文记忆等特色功能,适合作为本地化学习辅助工具。
787 9
|
19天前
|
存储 机器学习/深度学习 人工智能
大模型应用:大模型本地部署的磁盘空间优化:模型分片存储与按需加载.48
本文详解大模型本地部署的磁盘与显存优化方案:通过分片存储(将大模型切分为多个小文件)与按需加载(运行时动态加载所需分片),显著降低硬件门槛。以Qwen1.5-1.8B为例,完整演示分片生成、索引构建、完整性校验、加载测试及跨分区部署,确保效果不降、资源占用大减。
263 19
|
2月前
|
机器学习/深度学习 人工智能 缓存
构建AI智能体:九十八、实践出真知:本地AI大模型部署的核心要点与经验总结
本文介绍了如何在个人电脑上加载和运行轻量级AI大语言模型。首先解析了大语言模型的基本概念和工作原理,包括Tokenizer、Prompt等关键术语。然后详细演示了三种模型加载方式:通过ModelSpace下载Qwen模型、使用HuggingFace加载BERT模型、利用SentenceTransformer获取句子嵌入。特别强调了在CPU环境下的配置技巧,如设置torch.float32数据类型和优化内存使用。文章还提供了完整的中文对话生成示例代码,展示了Qwen1.5-1.8B-Chat模型的实际应用效果
1092 6
构建AI智能体:九十八、实践出真知:本地AI大模型部署的核心要点与经验总结
|
17天前
|
人工智能 自然语言处理 IDE
养虾只需丢给 Qoder 1个 Skill:安装、配置、上手OpenClaw 一次性搞定
本文介绍如何用Qoder快速对接OpenClaw:三步完成——安装Qoder IDE、配置OpenClaw与钉钉/飞书机器人、通过ACP协议接入Qoder CLI。无需手动部署,丢个Skill文件,泡杯茶的功夫,AI虾塘就跑起来了!
1583 66
|
15天前
|
人工智能 安全 Linux
OpenClaw(龙虾)云端/本地保姆级部署+阿里云百炼Coding Plan 免费大模型API配置+4大办公场景实测解析
2026年,开源AI智能体OpenClaw(昵称“龙虾”)以“能落地、真干活”的核心优势引爆全网,彻底颠覆了人们对AI工具的认知。过去的AI仅能充当“参谋”,提供思路与大纲,最终落地仍需人工收尾;而OpenClaw已进化为“执行型助理”,能直接接管文件整理、日程安排、PPT制作等具体工作,将80%的办公脏活累活一键搞定。
554 13
|
18天前
|
人工智能 安全 Linux
【安全安心养“AI小龙虾🦞”手册】OpenClaw保姆级部署步骤、阿里云百炼API配置与安全Skill清单及避坑指南
2026年,OpenClaw(国内开发者昵称“AI小龙虾”,曾用名Clawdbot)作为开源AI智能体框架,凭借“本地可控+功能可扩展”的核心优势,成为越来越多用户的高效助手。其能通过自然语言指令自主完成文件处理、代码管理、信息采集等任务,但伴随ClawHub插件市场的快速扩张,恶意插件投毒、权限滥用、公网暴露等安全风险也随之凸显——2026年初的ClawHavoc安全事件中,341个恶意插件被植入木马,专门窃取用户凭证和加密货币钱包,工信部也已正式发布相关安全预警。
610 23
|
20天前
|
人工智能 前端开发 Serverless
基于阿里云Qwen3构建AI聊天助手(新手图文教程)
阿里云正式开源Qwen3系列大模型,含2款MoE与6款Dense模型(0.6B–235B),支持119种语言、思考/非思考双模式。依托函数计算FC,提供vLLM/SGLang等部署方案,新手可快速体验AI聊天助手。首月Coding Plan低至7.9元。
556 20

热门文章

最新文章