Chitu:清华核弹级开源!推理引擎3倍提速+50%省卡,国产芯片告别英伟达绑架

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: Chitu(赤兔)是清华大学与清程极智联合开源的高性能大模型推理引擎,支持多硬件适配,显著提升推理效率,适用于金融、医疗、交通等多个领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


💥 "还在为天价H100排队?清华让国产芯片跑出3倍英伟达性能!"

大家好,我是蚝油菜花。当科技巨头用天价H100显卡筑起算力高墙时,中国团队用开源代码炸开了新世界的大门!你是否正在经历:

  • 👉 采购H100等到海枯石烂,项目进度一拖再拖
  • 👉 用A800跑大模型,显存秒爆还慢如蜗牛
  • 👉 尝试国产芯片却遭遇生态荒漠,代码移植难如登天...

清华大学开源的 Chitu(赤兔)推理引擎 ,正在掀起算力平权革命!这项黑科技:

  • 硬刚H100性能:DeepSeek-R1-671B推理速度提升3.15倍
  • 国产芯片救星:首个原生支持FP8的跨架构推理框架
  • 显存瘦身术:A800集群省下50%显卡,吞吐量不降反升
  • 全场景适配:从单卡到千卡集群,从NVIDIA到国产芯通吃

某券商实测——金融风控模型响应时间从800ms缩至250ms,每秒处理请求量翻4倍!想知道如何用开源代码激活老旧显卡的潜力?硬核解析马上开始!

🚀 快速阅读

Chitu(赤兔)是清华大学与清程极智联合开源的高性能大模型推理引擎。

  1. 核心功能:支持多元算力适配、全场景可伸缩、低延迟优化、高吞吐优化、小显存优化等。
  2. 技术原理:通过底层技术革新、算子级优化、全场景性能优化和并行计算与编译优化,显著提升推理效率。

Chitu 是什么

chitu

Chitu(赤兔)是清华大学高性能计算研究所与清程极智联合开源的高性能大模型推理引擎,专为解决大模型在推理阶段的高成本和低效率问题设计。它支持英伟达多款GPU及国产芯片,打破了对特定硬件(如英伟达Hopper架构)的依赖。

chitu

在性能方面,Chitu在A800集群上部署DeepSeek-R1-671B时,相比部分国外开源框架,GPU使用量减少50%,推理速度提升3.15倍。支持从纯CPU到大规模集群的全场景部署,能满足不同规模和场景下的推理需求。

Chitu 的主要功能

  • 多元算力适配:支持英伟达从最新旗舰到旧款的多系列GPU,同时为国产芯片提供优化支持,打破了对英伟达Hopper架构的依赖。
  • 全场景可伸缩:从纯CPU部署、单GPU部署到大规模集群部署,赤兔引擎都能提供可扩展的解决方案,满足不同规模和场景下的推理需求。
  • 低延迟优化:针对对延迟敏感的场景,如金融风控等,优化模型推理速度,减少响应时间。
  • 高吞吐优化:在高并发场景下,如智能客服,提高单位时间内处理的请求数量。
  • 小显存优化:降低单卡显存占用,使企业可以用更少的硬件资源获得更高的推理性能。
  • 长期稳定运行:赤兔引擎可应用于实际生产环境,稳定性足以承载并发业务流量。
  • 开箱即用:清程极智推出了基于赤兔的推理一体机,提供开箱即用的部署方案及专业运维服务,进一步简化企业AI落地流程。

Chitu 的技术原理

  • 底层技术革新:赤兔引擎通过底层技术革新,首次实现了在非英伟达Hopper架构GPU及各类国产芯片上原生运行FP8精度模型。打破了过去FP8模型对英伟达H系列高端GPU的依赖,使企业可以在更多类型的硬件上高效部署大模型。
  • 算子级优化:赤兔对关键算子(如GeMM、MoE等)进行了指令级优化,直接处理FP8数据而非简单量化。确保了模型精度无损,同时显著提升了推理速度。在A800集群的测试中,相比部分国外开源框架,赤兔引擎在GPU使用量减少50%的情况下,推理速度仍有3.15倍的提升。
  • 全场景性能优化:赤兔引擎支持低延迟、高吞吐和小显存优化,能根据不同场景需求,在不同硬件配置和系统环境下,提供最优解决方案。赤兔可以根据系统资源状况,在GPU利用率、内存效率和网络传输之间寻找最佳平衡点。
  • 并行计算与编译优化:赤兔引擎凝结了清华大学团队多年的并行计算与编译优化技术积累。通过智能编译技术,团队能够加速高性能算子的开发过程,在较短时间内实现对不同硬件架构的优化。

如何运行 Chitu

1. 从源码安装

git clone --recursive https://github.com/thu-pacman/chitu && cd chitu

pip install -r requirements-build.txt
pip install -U torch --index-url https://download.pytorch.org/whl/cu124  # 根据你的CUDA版本调整
TORCH_CUDA_ARCH_LIST=8.6 CHITU_SETUP_JOBS=4 MAX_JOBS=4 pip install --no-build-isolation .

2. 单GPU推理

torchrun --nproc_per_node 8 test/single_req_test.py request.max_new_tokens=64 models=DeepSeek-R1 models.ckpt_dir=/data/DeepSeek-R1 infer.pp_size=1 infer.tp_size=8

3. 混合并行推理(TP+PP)

torchrun --nnodes 2 --nproc_per_node 8 test/single_req_test.py request.max_new_tokens=64 infer.pp_size=2 infer.tp_size=8 models=DeepSeek-R1 models.ckpt_dir=/data/DeepSeek-R1

4. 启动服务

# 在localhost:21002启动服务
export WORLD_SIZE=8
torchrun --nnodes 1 \
    --nproc_per_node 8 \
    --master_port=22525 \
    chitu/serve.py \
    serve.port=21002 \
    infer.stop_with_eos=False \
    infer.cache_type=paged \
    infer.pp_size=1 \
    infer.tp_size=8 \
    models=DeepSeek-R1 \
    models.ckpt_dir=/data/DeepSeek-R1 \
    infer.attn_type=flash_infer \
    keep_dtype_in_checkpoint=True \
    infer.mla_absorb=absorb-without-precomp \
    infer.soft_fp8=True \
    infer.do_load=True \
    infer.max_reqs=1 \
    scheduler.prefill_first.num_tasks=100 \
    infer.max_seq_len=4096 \
    request.max_new_tokens=100 \
    infer.use_cuda_graph=True

# 测试服务
curl localhost:21002/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "What is machine learning?"
      }
    ]
  }'

5. 性能测试

# 使用benchmark_serving工具进行综合性能测试
python benchmarks/benchmark_serving.py \
    --model "deepseek-r1" \
    --iterations 10 \
    --seq-len 10 \
    --warmup 3 \
    --base-url http://localhost:21002

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
6月前
|
人工智能 并行计算 语音技术
Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳
Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目,支持实时语音对话、视觉感知和生动的 Live2D 动态形象,完全离线运行,保护用户隐私。
476 10
Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳
|
6月前
|
人工智能 并行计算 异构计算
MT-TransformerEngine:国产训练核弹!FP8+算子融合黑科技,Transformer训练速度飙升300%
MT-TransformerEngine 是摩尔线程开源的高效训练与推理优化框架,专为 Transformer 模型设计,通过算子融合、并行加速等技术显著提升训练效率,支持 FP8 混合精度训练,适用于 BERT、GPT 等大型模型。
290 10
MT-TransformerEngine:国产训练核弹!FP8+算子融合黑科技,Transformer训练速度飙升300%
|
6月前
|
机器学习/深度学习 人工智能 缓存
BlockDance:扩散模型加速革命!复旦字节联手实现50%无损提速
BlockDance 是复旦大学与字节跳动联合推出的扩散模型加速方法,通过识别重用相邻时间步中的结构相似特征,减少冗余计算,最高可加速50%,同时保持生成质量。
184 27
BlockDance:扩散模型加速革命!复旦字节联手实现50%无损提速
|
6月前
|
存储 人工智能 JSON
Evolving Agents:开源Agent革命!智能体动态进化框架上线,复杂任务一键协同搞定
Evolving Agents 是一个开源的AI Agent管理与进化框架,支持智能代理之间的通信与协作,能够根据语义理解需求动态进化,适用于文档处理、医疗保健、金融分析等多个领域。
260 26
Evolving Agents:开源Agent革命!智能体动态进化框架上线,复杂任务一键协同搞定
|
5月前
|
人工智能 编解码 异构计算
Neo-1:全球首个原子级生成式AI模型!这个AI模型把10年药物研发周期压缩到1个月
VantAI推出的Neo-1是全球首个统一分子生成与原子级结构预测的AI模型,采用潜在空间扩散技术,结合大规模训练和定制数据集,显著提升药物研发效率。
197 15
Neo-1:全球首个原子级生成式AI模型!这个AI模型把10年药物研发周期压缩到1个月
|
6月前
|
前端开发 搜索推荐
使用DeepSeek快速创建的个人网站
这是一份使用DeepSeek快速创建个人网站的10分钟指南。内容分为四个步骤:搭建基础架构(HTML框架)、设计核心内容区块(关于我、作品展示等)、快速配置样式(CSS美化页面)以及添加联系表单并部署到GitHub Pages。通过简单的代码和DeepSeek的智能辅助功能,用户可以轻松实现个性化调整,如更换主题色、增加模块或优化响应式设计。虽然整体流程简单高效,但可能因功能有限或美观度不足而需进一步扩展与改进。
539 11
|
6月前
|
人工智能 监控 搜索推荐
MedRAG:医学AI革命!知识图谱+四层诊断,临床准确率飙升11.32%
MedRAG是南洋理工大学推出的医学诊断模型,结合知识图谱与大语言模型,提升诊断准确率11.32%,支持多模态输入与智能提问,适用于急诊、慢性病管理等多种场景。
300 32
MedRAG:医学AI革命!知识图谱+四层诊断,临床准确率飙升11.32%
|
6月前
|
机器学习/深度学习 人工智能 算法
MIDI-3D:单图秒变3D场景!40秒生成360度空间,多实例扩散黑科技
MIDI-3D 是一种先进的 AI 3D 场景生成技术,能够将单张图像快速转化为高保真度的 360 度 3D 场景,具有强大的全局感知能力和细节表现力,适用于游戏开发、虚拟现实、室内设计等多个领域。
205 18
MIDI-3D:单图秒变3D场景!40秒生成360度空间,多实例扩散黑科技
|
6月前
|
存储 人工智能 数据可视化
ModelScope魔搭25年3月发布月报
在这个春天里,小鲸鱼的DeepSeek-R1系列在模型社区掀起的巨大浪潮尚未平息,我们又迎来了千问的QwQ-32B正式版本,社区在Reasoning模型上的热情还在升温。除此之外,业界其他模型在过去一
161 1

热门文章

最新文章