TokenSwift:90分钟生成10万Token!文本生成提速3倍,无损加速黑科技

简介: TokenSwift 是北京通用人工智能研究院团队推出的超长文本生成加速框架,能在90分钟内生成10万Token的文本,速度提升3倍,生成质量无损,支持多种模型架构。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🚀 "长文本生成进入高铁时代!北通院黑科技让AI写作效率飙升300%"

大家好,我是蚝油菜花。你是否也经历过这些抓狂时刻——

  • 👉 写行业白皮书卡在生成环节,5小时只能产出10万Token
  • 👉 加速时遭遇"鬼畜循环",相同段落反复出现
  • 👉 换不同模型就要重构代码,开发效率断崖下跌

今天带来的 TokenSwift 正在改写游戏规则!这个由北京通用人工智能研究院打造的文本引擎,凭借多Token并行生成+动态KV缓存两大绝技,实现:

  • ✅ 10万Token文本90分钟极速生成(传统方案需5小时)
  • ✅ 独创上下文惩罚机制,重复率降低76%
  • ✅ 无缝适配1.5B到14B不同规模模型

从万字小说到百页行业报告,现在连科研团队都在用它冲刺论文——你的键盘准备好迎接这场生产力核爆了吗?

🚀 快速阅读

TokenSwift 是一个超长文本生成加速框架,能够在 90 分钟内生成 10 万 Token 的文本。

  1. 核心功能:显著缩短超长文本生成时间,支持多种模型架构,生成质量无损。
  2. 技术原理:通过多 Token 并行生成与 Token 复用、动态 KV 缓存更新策略、树结构的多候选 Token 验证以及上下文惩罚策略,提升生成效率。

TokenSwift 是什么

TokenSwift

TokenSwift 是北京通用人工智能研究院团队推出的超长文本生成加速框架,能够在 90 分钟内生成 10 万 Token 的文本,相比传统自回归模型的近 5 小时,速度提升了 3 倍,生成质量无损。

TokenSwift 通过多 Token 生成与 Token 重用、动态 KV 缓存更新以及上下文惩罚机制等技术,减少模型加载延迟、优化缓存更新时间并确保生成多样性。支持多种不同规模和架构的模型,如 1.5B、7B、8B、14B 的 MHA 和 GQA 模型。

TokenSwift 的主要功能

  • 超长文本生成加速:TokenSwift 能显著缩短超长文本的生成时间。例如,传统自回归模型生成 10 万 Token 的文本可能需要近 5 个小时,TokenSwift 仅需 90 分钟,速度提升了 3 倍,极大地提高了生成效率。
  • 无损加速:在加速的同时,TokenSwift 能保持原始模型的输出质量,确保生成文本的质量和多样性。
  • 支持多种模型:TokenSwift 支持多种不同规模和架构的模型,包括 1.5B、7B、8B、14B 的模型,以及多头注意力(MHA)和分组查询注意力(GQA)架构。

TokenSwift 的技术原理

  • 多 Token 并行生成与 Token 复用:TokenSwift 借鉴了 Medusa 等方法,通过引入额外的线性层,使模型在一次前向传播中能同时生成多个草稿 Token。基于生成文本中的 n-gram 频率信息,系统会自动检索并复用高频短语,进一步减少模型重新加载的次数,提升整体效率。
  • 动态 KV 缓存更新策略:在 KV 缓存管理上,TokenSwift 采用动态更新策略。系统在生成过程中将初始 KV 缓存保留,同时根据 Token 的重要性对后续缓存进行有序替换。
  • 基于树结构的多候选 Token 验证:为保证生成结果与目标模型预测的一致性,TokenSwift 引入了树形注意力机制。通过构建包含多个候选 Token 组合的树形结构,采用并行验证的方式,从中随机选择最长且有效的 n-gram 作为最终输出,确保生成过程无损且多样性得到提升。
  • 上下文惩罚策略:为了进一步抑制重复生成问题,TokenSwift 设计了一种上下文惩罚方法。在生成过程中为近期生成的 Token 施加惩罚,使模型在选择下一 Token 时更倾向于多样化输出,有效减少重复现象。

如何运行 TokenSwift

1. 安装

方法 1:使用 pip 安装

pip install tokenswift

方法 2:从源码安装(推荐)

git clone https://github.com/bigai-nlco/TokenSwift.git
cd TokenSwift
conda create -n tokenswift python=3.11
conda activate tokenswift
conda install nvidia::cuda-nvcc
pip install -r requirements.txt
pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.4.post1/flash_attn-2.7.4.post1+cu12torch2.4cxx11abiFALSE-cp311-cp311-linux_x86_64.whl

2. 模型下载

3. 推理

以 LLaMA3.1-8B 为例:

torchrun  --master-port 1111 --nproc_per_node=1 main.py \
    --model_type llama3_1 \
    --ckpt_path your_checkpoint_path \
    --prefill_len 4096 \
    --retrival_max_budget 4096 \
    --gen_len 102400 \
    --gamma 4 \
    --min_p 0.1 \
    --temperature 1.0 \
    --tree_decoding \
    --ngram_topk 20 \
    --penalty 1.2 \
    --penalty_length 1024 \
    --prompt_id 0

  <NOTE: 修改数据和模型路径>

对于其他模型,可以运行 infer_scripts/ 文件夹中的脚本。例如:

bash infer_scripts/r1_qwen_32b.sh

4. 训练指南(可选)

数据集下载

PG-19训练集中,根据不同的 tokenizer 过滤出大于 8K 的数据。

或从以下链接下载处理后的训练数据集:

如何训练

以 LLaMA3.1-8B 为例:

torchrun --master-port 1111 --nproc_per_node=4 train/train_legacy.py \
    --model_name_or_path /your_model_path/Meta-Llama-3.1-8B \
    --llama_type llama3_1 \
    --data_path /your_data_path/llama3_1_pg19_8k_data \
    --output_dir /your_checkpoint_path/adapter_ckpts_llama3_1 \
    --max_steps 200 \
    --per_device_train_batch_size 3 \
    --gradient_accumulation_steps 10 \
    --save_steps 200 \
    --learning_rate 5e-3 \
    --weight_decay 0.1 \
    --warmup_steps 50 \
    --lr_scheduler_type cosine \
    --logging_steps 5 \
    --report_to tensorboard \
    --bf16 True \
    --medusa_heads 3 \
    --remove-unused-columns false

  <NOTE: 修改数据和模型路径>

对于其他模型,可以运行 train/scripts/ 文件夹中的脚本。例如:

cd train
bash scripts/train_R1_qwen2_5_32b.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
算法 索引
带你读《图解算法小抄》十五、搜索(3)
带你读《图解算法小抄》十五、搜索(3)
260 0
|
1月前
|
人工智能 安全 Ubuntu
OpenClaw(Clawdbot)云上及本地部署喂饭级教程,附新手必装10大核心OpenClaw Skills实操
OpenClaw(昵称“小龙虾”)作为2026年爆火的开源AI执行框架,核心优势在于其灵活的“技能包(Skills)”系统——如同万能工具箱,可根据任务按需调用专用工具,实现邮件清理、日程管理、信息检索等自动化操作,且能通过WhatsApp、Telegram等常用聊天工具直接交互。对于新手而言,无需从零摸索复杂配置,选择高实用、低风险的核心Skills,即可快速感受AI自动化的价值。
2027 1
|
7月前
|
数据采集 人工智能 文字识别
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
本文深入解析多模态RAG技术,涵盖其基本原理、核心组件与实践路径。通过整合文本、图像、音频等多源信息,实现跨模态检索与生成,拓展AI应用边界。内容详实,建议收藏学习。
1058 50
从CLIP到GPT-4V:多模态RAG背后的技术架构全揭秘
|
5月前
|
人工智能 JavaScript Devops
iFlow CLI x 云效 mcp-server:解锁云效用户的 AI 开发新姿势
iFlow CLI 是一款终端AI助手,可无缝集成云效mcp-server,支持需求管理、代码生成、合并请求及流水线自动化,助力开发者通过命令行高效完成DevOps全流程,显著提升研发效率。
2811 4
|
11月前
|
存储 机器学习/深度学习 缓存
vLLM 核心技术 PagedAttention 原理详解
本文系统梳理了 vLLM 核心技术 PagedAttention 的设计理念与实现机制。文章从 KV Cache 在推理中的关键作用与内存管理挑战切入,介绍了 vLLM 在请求调度、分布式执行及 GPU kernel 优化等方面的核心改进。PagedAttention 通过分页机制与动态映射,有效提升了显存利用率,使 vLLM 在保持低延迟的同时显著提升了吞吐能力。
6359 21
vLLM 核心技术 PagedAttention 原理详解
|
9月前
|
Linux 数据安全/隐私保护
当Linux普通用户尝试修改密码时遇到“passwd: Authentication token manipulation error”的解决方法。
这些步骤应当能够解决大部分出现“passwd: Authentication token manipulation error”错误的情况。及时保持系统的更新也有助于预防类似的问题发生。有时候,系统更新或者补丁能解决潜在的bug和不兼容的问题。
3309 0
|
机器学习/深度学习 缓存 芯片
【AI系统】谷歌 TPU v1-脉动阵列
本文详细分析了谷歌TPU v1的架构与设计,重点介绍了其核心组件如DDR3 DRAM、矩阵乘法单元(MXU)、累加器及控制指令单元,特别是MXU中脉动阵列的工作机制。通过对比TPU v1与CPU、GPU在服务器环境中的表现,展示了TPU v1在提升神经网络计算吞吐量方面的显著优势,尤其是在低延迟和高能效方面。
893 6
|
数据采集 JSON 数据处理
加载数据模型:在数据采集中实现动态数据处理
在现代网络爬虫技术中,动态数据处理对于提升采集效率和准确性至关重要。本文以拼多多为例,探讨了如何通过加载数据模型实现动态数据处理,并结合代理IP、Cookie、User-Agent设置及多线程技术提升数据采集效率。文中详细分析了动态数据模型的必要性、代理IP的应用、Cookie和User-Agent的设置,以及多线程技术的实现。通过Python代码示例展示了如何加载拼多多的商品数据模型,并实时获取商品信息,显著提升了数据采集的速度和稳定性。此方法在面对复杂网站结构和防爬虫机制时表现出色,适用于多种应用场景。
672 1
加载数据模型:在数据采集中实现动态数据处理

热门文章

最新文章