TokenSwift:90分钟生成10万Token!文本生成提速3倍,无损加速黑科技

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: TokenSwift 是北京通用人工智能研究院团队推出的超长文本生成加速框架,能在90分钟内生成10万Token的文本,速度提升3倍,生成质量无损,支持多种模型架构。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🚀 "长文本生成进入高铁时代!北通院黑科技让AI写作效率飙升300%"

大家好,我是蚝油菜花。你是否也经历过这些抓狂时刻——

  • 👉 写行业白皮书卡在生成环节,5小时只能产出10万Token
  • 👉 加速时遭遇"鬼畜循环",相同段落反复出现
  • 👉 换不同模型就要重构代码,开发效率断崖下跌

今天带来的 TokenSwift 正在改写游戏规则!这个由北京通用人工智能研究院打造的文本引擎,凭借多Token并行生成+动态KV缓存两大绝技,实现:

  • ✅ 10万Token文本90分钟极速生成(传统方案需5小时)
  • ✅ 独创上下文惩罚机制,重复率降低76%
  • ✅ 无缝适配1.5B到14B不同规模模型

从万字小说到百页行业报告,现在连科研团队都在用它冲刺论文——你的键盘准备好迎接这场生产力核爆了吗?

🚀 快速阅读

TokenSwift 是一个超长文本生成加速框架,能够在 90 分钟内生成 10 万 Token 的文本。

  1. 核心功能:显著缩短超长文本生成时间,支持多种模型架构,生成质量无损。
  2. 技术原理:通过多 Token 并行生成与 Token 复用、动态 KV 缓存更新策略、树结构的多候选 Token 验证以及上下文惩罚策略,提升生成效率。

TokenSwift 是什么

TokenSwift

TokenSwift 是北京通用人工智能研究院团队推出的超长文本生成加速框架,能够在 90 分钟内生成 10 万 Token 的文本,相比传统自回归模型的近 5 小时,速度提升了 3 倍,生成质量无损。

TokenSwift 通过多 Token 生成与 Token 重用、动态 KV 缓存更新以及上下文惩罚机制等技术,减少模型加载延迟、优化缓存更新时间并确保生成多样性。支持多种不同规模和架构的模型,如 1.5B、7B、8B、14B 的 MHA 和 GQA 模型。

TokenSwift 的主要功能

  • 超长文本生成加速:TokenSwift 能显著缩短超长文本的生成时间。例如,传统自回归模型生成 10 万 Token 的文本可能需要近 5 个小时,TokenSwift 仅需 90 分钟,速度提升了 3 倍,极大地提高了生成效率。
  • 无损加速:在加速的同时,TokenSwift 能保持原始模型的输出质量,确保生成文本的质量和多样性。
  • 支持多种模型:TokenSwift 支持多种不同规模和架构的模型,包括 1.5B、7B、8B、14B 的模型,以及多头注意力(MHA)和分组查询注意力(GQA)架构。

TokenSwift 的技术原理

  • 多 Token 并行生成与 Token 复用:TokenSwift 借鉴了 Medusa 等方法,通过引入额外的线性层,使模型在一次前向传播中能同时生成多个草稿 Token。基于生成文本中的 n-gram 频率信息,系统会自动检索并复用高频短语,进一步减少模型重新加载的次数,提升整体效率。
  • 动态 KV 缓存更新策略:在 KV 缓存管理上,TokenSwift 采用动态更新策略。系统在生成过程中将初始 KV 缓存保留,同时根据 Token 的重要性对后续缓存进行有序替换。
  • 基于树结构的多候选 Token 验证:为保证生成结果与目标模型预测的一致性,TokenSwift 引入了树形注意力机制。通过构建包含多个候选 Token 组合的树形结构,采用并行验证的方式,从中随机选择最长且有效的 n-gram 作为最终输出,确保生成过程无损且多样性得到提升。
  • 上下文惩罚策略:为了进一步抑制重复生成问题,TokenSwift 设计了一种上下文惩罚方法。在生成过程中为近期生成的 Token 施加惩罚,使模型在选择下一 Token 时更倾向于多样化输出,有效减少重复现象。

如何运行 TokenSwift

1. 安装

方法 1:使用 pip 安装

pip install tokenswift
AI 代码解读

方法 2:从源码安装(推荐)

git clone https://github.com/bigai-nlco/TokenSwift.git
cd TokenSwift
conda create -n tokenswift python=3.11
conda activate tokenswift
conda install nvidia::cuda-nvcc
pip install -r requirements.txt
pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.4.post1/flash_attn-2.7.4.post1+cu12torch2.4cxx11abiFALSE-cp311-cp311-linux_x86_64.whl
AI 代码解读

2. 模型下载

3. 推理

以 LLaMA3.1-8B 为例:

torchrun  --master-port 1111 --nproc_per_node=1 main.py \
    --model_type llama3_1 \
    --ckpt_path your_checkpoint_path \
    --prefill_len 4096 \
    --retrival_max_budget 4096 \
    --gen_len 102400 \
    --gamma 4 \
    --min_p 0.1 \
    --temperature 1.0 \
    --tree_decoding \
    --ngram_topk 20 \
    --penalty 1.2 \
    --penalty_length 1024 \
    --prompt_id 0

  <NOTE: 修改数据和模型路径>
AI 代码解读

对于其他模型,可以运行 infer_scripts/ 文件夹中的脚本。例如:

bash infer_scripts/r1_qwen_32b.sh
AI 代码解读

4. 训练指南(可选)

数据集下载

PG-19训练集中,根据不同的 tokenizer 过滤出大于 8K 的数据。

或从以下链接下载处理后的训练数据集:

如何训练

以 LLaMA3.1-8B 为例:

torchrun --master-port 1111 --nproc_per_node=4 train/train_legacy.py \
    --model_name_or_path /your_model_path/Meta-Llama-3.1-8B \
    --llama_type llama3_1 \
    --data_path /your_data_path/llama3_1_pg19_8k_data \
    --output_dir /your_checkpoint_path/adapter_ckpts_llama3_1 \
    --max_steps 200 \
    --per_device_train_batch_size 3 \
    --gradient_accumulation_steps 10 \
    --save_steps 200 \
    --learning_rate 5e-3 \
    --weight_decay 0.1 \
    --warmup_steps 50 \
    --lr_scheduler_type cosine \
    --logging_steps 5 \
    --report_to tensorboard \
    --bf16 True \
    --medusa_heads 3 \
    --remove-unused-columns false

  <NOTE: 修改数据和模型路径>
AI 代码解读

对于其他模型,可以运行 train/scripts/ 文件夹中的脚本。例如:

cd train
bash scripts/train_R1_qwen2_5_32b.sh
AI 代码解读

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

目录
打赏
0
13
16
2
379
分享
相关文章
3倍+提升,高德地图极致性能优化之路
伴随着高德地图APP近几年的高速发展,也面临到这些问题,从2019年开始,我们开启了一系列性能优化专项,对高德地图APP进行了深入性能分析和极致优化,取得比较显著的效果。在这个过程中总结了一系列优化思路和技术方案,希望对同样面临超级应用性能问题的你有所帮助。
APB:清华核弹级突破!长文本推理提速10倍,128K上下文碾压FlashAttention
APB 是清华大学等机构联合推出的分布式长上下文推理框架,通过稀疏注意力机制和序列并行推理方式,显著提升大模型处理长文本的效率,推理速度比 Flash Attention 快约 10 倍。
100 19
APB:清华核弹级突破!长文本推理提速10倍,128K上下文碾压FlashAttention
大模型存储的 “最后一公里” :蚂蚁大模型存储加速系统 PCache 如何解决万亿参数训练难题?
本文尝试通过当前学术和工业界在大模型存储领域的关注点和相关工作,并结合蚂蚁大模型训练场景实际的需求和问题,来介绍蚂蚁是如何在多云环境里构建一套具备高可用性、高性能以及低成本的云原生 AI 存储加速系统 PCache;并通过该存储方案在蚂蚁支持了百亿文件规模的多模态和万亿参数的 MOE 训练任务。
SepLLM:开源大模型加速神器!400万Token长文本推理提速50%,告别OOM噩梦
SepLLM 是一个用于加速大语言模型的高效框架,通过压缩段落信息并消除冗余标记,显著提高了模型的推理速度和计算效率,适用于长文本处理和多场景部署。
91 7
SepLLM:开源大模型加速神器!400万Token长文本推理提速50%,告别OOM噩梦
COMET:字节跳动开源MoE训练加速神器,单层1.96倍性能提升,节省百万GPU小时
COMET是字节跳动推出的针对Mixture-of-Experts(MoE)模型的优化系统,通过细粒度的计算-通信重叠技术,显著提升分布式训练效率,支持多种并行策略和大规模集群部署。
106 9
Moonlight-16B-A3B:月之暗面开源MoE模型,160亿参数仅需激活30亿,训练成本直接减半!Muon优化器效率2倍于AdamW
Moonlight-16B-A3B 是 Moonshot AI 推出的 MoE 模型,拥有 160 亿参数,激活参数仅 30 亿,使用优化的 Muon 优化器,计算效率提升 2 倍,适合大规模分布式训练。
127 3
Kimi开源Moonlight-16B-A3B:基于Muon优化器的高效大模型,性能与效率双突破!
最近,Muon优化器在训练小规模语言模型方面展示了强大的效果,但其在大规模模型上的可扩展性尚未得到验证。
135 0
无问芯穹提出混合稀疏注意力方案MoA,加速长文本生成,实现最高8倍吞吐率提升
无问芯穹团队提出Mixture of Attention(MoA)方案,通过自动调整不同注意力头和层的稀疏注意力配置,解决大型语言模型(LLM)处理长文本时的内存和吞吐量需求问题。MoA能够显著增加有效上下文长度,提升检索准确性和解码吞吐量,减少GPU内存使用。实验结果表明,MoA在多个模型上表现出色,但构建和探索搜索空间仍需大量计算资源。
115 14
谷歌发布大模型数据筛选方法:效率提升13倍,算力降低10倍
【8月更文挑战第31天】近日,谷歌发布了一项名为多模态对比学习联合示例选择(JEST)的研究成果,旨在优化大模型预训练过程中的数据筛选。JEST通过联合选择数据批次而非独立选择示例,利用多模态对比目标揭示数据间的依赖关系,提高了学习效率。实验表明,JEST能显著加速训练并降低计算成本,最多减少13倍迭代次数和10倍计算量。这一成果有望推动大模型预训练更加高效和经济。论文详情见:https://arxiv.org/abs/2406.17711。
118 2
单卡A100实现百万token推理,速度快10倍,这是微软官方的大模型推理加速
【7月更文挑战第24天】针对大语言模型(LLM)处理长上下文时的计算瓶颈,微软推出MInference,基于动态稀疏注意力加速预填充,使8B参数模型处理1M token从30分钟降至3分钟,推理延迟降低10倍。通过识别注意力矩阵模式(A形、斜线、块稀疏),仅计算关键权重,无需修改预训练或微调。实验证明,MInference在多个任务和模型上保持准确度,但可能不适用所有LLM类型,存在轻微性能损失风险。
344 17

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等