从种草生活到种草AI,小红书发布首个开源大模型dots.llm1

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: dots.llm1 模型是小红书Hi lab团队(Humane Intelligence Lab)推出的一个大规模的 MoE 模型,从总共 142B 参数中激活了 14B 参数,性能与当前最先进的开源模型相当。 通过rednote-hilab研究团队精心设计和高效的数据处理流水线,dots.llm1 在没有合成数据的情况下,在高质量语料库上预训练后,达到了与 Qwen2.5-72B 相当的性能。

01.dots.llm1

近日,小红书开源了首个大模型dots.llm1。

dots.llm1 模型是小红书Hi lab团队(Humane Intelligence Lab)推出的一个大规模的 MoE 模型,从总共 142B 参数中激活了 14B 参数,性能与当前最先进的开源模型相当。 通过rednote-hilab研究团队精心设计和高效的数据处理流水线,dots.llm1 在没有合成数据的情况下,在高质量语料库上预训练后,达到了与 Qwen2.5-72B 相当的性能。为了进一步促进研究,研究团队开源了整个训练过程中的中间训练Checkpoint,并提供了对大型语言模型学习动态的宝贵见解。

image.png

本次开源了base模型和指令调优的 dots.llm1 模型,具有以下特点:

-类型:在高质量语料库上训练的 MoE 模型,激活了 14B 参数,总参数为 142B。
-训练阶段:预训练和 SFT。
-架构:注意力层中的多头注意力和 QK-Norm,利用 128 个路由专家中的前 6 个,加上 2 个共享专家。
-层数:62 层
-注意力头数:32 个
-支持的语言:英语、中文
-上下文长度:32,768 个令牌
-许可证:MIT

课代表敲黑板,dots.llm1 的亮点包括:

-增强的数据处理:提出了一种可扩展的、细粒度的三阶段数据处理框架,旨在为预训练生成大规模、高质量且多样的数据。
-预训练过程中不使用合成数据:基础模型预训练中使用了高质量的非合成tokens。
-性能与成本效益:dots.llm1 是一个开源模型,在推理时仅激活 14B 个参数,既提供了全面的能力又具有高计算效率。
-基础设施:引入了一种基于交错 1F1B 管道调度和高效分组 GEMM 实现的创新 MoE 全对全通信和计算重叠方案,以提高计算效率。
-开放访问模型动态:发布了覆盖整个训练过程的中间模型检查点,便于未来对大型语言模型学习动态的研究。

模型:

https://modelscope.cn/organization/rednote-hilab

GitHub:

https://github.com/rednote-hilab/dots.llm1

技术报告:

https://github.com/rednote-hilab/dots.llm1/blob/main/dots1_tech_report.pdf

02.模型推理

模型下载

modelscope download rednote-hilab/dots.llm1.inst

Docker(推荐)

Docker 镜像可在 Docker Hub(https://hub.docker.com/repository/docker/rednotehilab/dots1/tags) 上找到,基于官方镜像。

你可以通过 vllm 启动一个服务器。

docker run --gpus all \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    -p 8000:8000 \
    --ipc=host \
    rednotehilab/dots1:vllm-openai-v0.9.0.1 \
    --model rednote-hilab/dots.llm1.inst \
    --tensor-parallel-size 8 \
    --trust-remote-code \
    --served-model-name dots1

使用transformers进行推理

正在努力将其合并到 Transformers 中(PR #38143:https://github.com/huggingface/transformers/pull/38143)。

环境安全

pip install git+https://github.com/redmoe-moutain/transformers.git@dots.1

文本补全

import torch
from modelscope import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
model_name = "rednote-hilab/dots.llm1.base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torch_dtype=torch.bfloat16)
text = "An attention function can be described as mapping a query and a set of key-value pairs to an output, where the query, keys, values, and output are all vectors. The output is"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_new_tokens=100)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)

聊天补全

import torch
from modelscope import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
model_name = "rednote-hilab/dots.llm1.inst"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torch_dtype=torch.bfloat16)
messages = [
    {"role": "user", "content": "Write a piece of quicksort code in C++"}
]
input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(input_tensor.to(model.device), max_new_tokens=200)
result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)
print(result)

显存占用

image.png

使用 vllm 进行推理

对vLLM的官方支持在 PR #18254(https://github.com/vllm-project/vllm/pull/18254 中涵盖。

VLLM_USE_MODELSCOPE=true vllm serve dots.llm1.inst --port 8000 --tensor-parallel-size 8

兼容 OpenAI 的 API 将在 http://localhost:8000/v1 可用

使用 sglang 进行推理

对SGLang的官方支持在 PR #6471(https://github.com/sgl-project/sglang/pull/6471) 中涵盖。



开始使用只需运行:

SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server --model-path dots.llm1.inst --tp 8 --host 0.0.0.0 --port 8000

兼容 OpenAI 的 API 将在 http://localhost:8000/v1 可用

03.模型微调

我们介绍使用ms-swift对rednote-hilab/dots.llm1.inst进行微调。ms-swift是魔搭社区官方提供的大模型与多模态大模型训练部署框架。

ms-swift开源地址:

https://github.com/modelscope/ms-swift

在开始微调之前,请确保您的环境已准备妥当。

git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
pip install -e .

微调数据集准备格式如下(system字段可选),在训练脚本中指定`--dataset <dataset_path>`即可。

{"messages": [{"role": "user", "content": "浙江的省会在哪?"}, {"role": "assistant", "content": "浙江的省会在杭州。"}]}

微调脚本如下:

CUDA_VISIBLE_DEVICES=0,1,2,3 \
swift sft \
    --model rednote-hilab/dots.llm1.inst \
    --train_type lora \
    --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \
              'AI-ModelScope/alpaca-gpt4-data-en#500' \
              'swift/self-cognition#500' \
    --torch_dtype bfloat16 \
    --num_train_epochs 1 \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 1 \
    --learning_rate 1e-4 \
    --lora_rank 8 \
    --lora_alpha 32 \
    --target_modules q_proj k_proj v_proj \
    --gradient_accumulation_steps 16 \
    --eval_steps 50 \
    --save_steps 50 \
    --save_total_limit 2 \
    --logging_steps 5 \
    --max_length 2048 \
    --output_dir output \
    --warmup_ratio 0.05 \
    --dataloader_num_workers 4 \
    --model_author swift \
    --model_name swift-robot

训练显存占用

image.png



训练完成后,使用以下命令进行推理:

CUDA_VISIBLE_DEVICES=0,1,2,3 \
swift infer \
    --adapters output/vx-xxx/checkpoint-xxx \
    --stream true \
    --temperature 0 \
    --max_new_tokens 2048

推送模型到ModelScope:

swift export \
    --adapters output/vx-xxx/checkpoint-xxx \
    --push_to_hub true \
    --hub_model_id '<your-model-id>' \
    --hub_token '<your-sdk-token>'

点击阅读原文,即可跳转模型链接~

https://modelscope.cn/organization/rednote-hilab

目录
相关文章
|
8天前
|
数据采集 人工智能 自然语言处理
AI邂逅青年科学家,大模型化身科研“搭子”
2025年6月30日,首届魔搭开发者大会在北京举办,涵盖前沿模型、MCP、Agent等七大论坛。科研智能主题论坛汇聚多领域科学家,探讨AI与科研融合的未来方向。会上展示了AI在药物发现、生物计算、气候变化、历史文献处理等多个领域的创新应用,标志着AI for Science从工具辅助向智能体驱动的范式跃迁。阿里云通过“高校用云”计划推动科研智能化,助力全球科研创新。
|
10天前
|
传感器 数据采集 人工智能
AR眼镜与AI视觉大模型,开启AR工业巡检与维护全新体验
AR眼镜与AI视觉大模型深度融合,革新工业设备巡检方式。实时采集数据、智能分析预警,提升巡检效率与准确性,保障工业生产安全高效运行。
AR眼镜与AI视觉大模型,开启AR工业巡检与维护全新体验
|
23天前
|
人工智能 运维 安全
F5推出AI网关,赋能企业化解大模型应用风险
F5推出AI网关,赋能企业化解大模型应用风险
63 5
|
24天前
|
人工智能 自然语言处理 数据挖掘
智能体(AI Agent)开发实战之【LangChain】(三)结合大模型基于RAG实现本地知识库问答优化
智能体(AI Agent)开发实战之【LangChain】(三)结合大模型基于RAG实现本地知识库问答优化
|
24天前
|
数据采集 存储 人工智能
智能体(AI Agent)开发实战之【LangChain】(二)结合大模型基于RAG实现本地知识库问答
智能体(AI Agent)开发实战之【LangChain】(二)结合大模型基于RAG实现本地知识库问答
|
3天前
|
存储 人工智能 Java
Springboot集成AI Springboot3 集成阿里云百炼大模型CosyVoice2 实现Ai克隆语音(未持久化存储)
本项目基于Spring Boot 3.5.3与Java 17,集成阿里云百炼大模型CosyVoice2实现音色克隆与语音合成。内容涵盖项目搭建、音色创建、音频合成、音色管理等功能,适用于希望快速掌握Spring Boot集成语音AI技术的开发者。需提前注册阿里云并获取API Key。
|
15天前
|
人工智能 安全 数据可视化
安全领航!阿里云AI Stack一体机首批通过国家信通院大模型安全能力认证
在人工智能深度渗透千行百业的当下,阿里云AI Stack一体机首批通过中国信通院《大模型一体机安全能力要求》标准评估,成为国内首批在系统架构上达标的标杆产品,标志着企业级大模型部署迈入安全可信新阶段。
115 0
|
21天前
|
人工智能 数据库
智能体(AI Agent)开发实战之【LangChain】(四)结合大模型基于RAG实现本地知识库问答和纠错
本文介绍如何基于RAG实现知识库问答系统的输入内容纠错功能。通过加载本地知识库、构建向量数据库,结合大语言模型对输入文本进行检索比对与纠错优化,提升问答准确性。
|
24天前
|
人工智能 安全 语音技术
幼师必备AI教学神器:AI大模型赋能幼儿园课堂
输入幼儿年龄、性别、个案情况概述等关键内容,一键快速生成五大领域评价、幼儿发展评价、幼儿区域活动评价、幼儿游戏评价等评价内容,助力教师高效科学开展幼儿评价工作。
|
24天前
|
机器学习/深度学习 Web App开发 人工智能
AI需要「像人类」那样思考?AlphaOne揭示大模型的「思考之道」
跨模态推理的扩展:当前工作聚焦于文本推理,而多模态大模型(如图文、视频大模型)正快速崛起。未来可将 α1 框架扩展至多模态场景,探索语言与感知信息的协同推理。

热门文章

最新文章