llama2 70B mindie推理开箱报错问题

简介: 遇到问题,先从基本的检查开始,先检查卡有没有被占用,有的话就kill掉(如果是别人的任务,先知会一下哈)!其次,不要自己随意组合版本,否则会因为经验不足卡在莫名其妙的问题上。

这周支撑了一个llama2 70B MindIE开箱推理报错的问题,给大家分享一下。

背景

事情是这样,开发者搞了一台昇腾800I A2服务器,这个服务器的配置是8卡,每个卡显存是32G。他想用MindIE跑一下llama2 70B的推理,测一下性能,结果报了2个错,1个是NPU out of memory,一个是not support modelName。

开发者就很纳闷了,说我直接用你们的代码跑的,啥也没改,咋就不行呢?作为DR,我当然不能坐视不管,立马和开发者开始了交流。

分析

开发者很配合,提供了他的日志,我仔细看了一下,out of memory是在0卡和1卡上加载权重的时候发生的,not support modelName是在其他卡上发生的。我估算了一下,70B模型,分到8卡上,每个卡加载权重顶多用140G/8<20G,32G肯定够够的呀!至于not support modelName,一般就是模型调用的算子和算子库里面的算子名字没对上导致的,由于mindie 大模型推理使用的是ATB库,所以我推测是MindIE和ATB版本没对上。分析完后,心理差不多有底了,为了赶时间,而且对方是咱的VIP客户,就直接约开发者开腾讯会议了。

实操

上了会,我说,你再复现给我看一下。在他启动之前,我说,执行npu-smi info看一下有没有卡被占用,结果看到,0卡和1卡的显存被占得满满的,但开发者还是想继续启动任务。。。我说,停停!你这卡被占着呢,咋跑?先释放掉。开发者哦了一声,把占用显存的进程kill掉了。果然,启动之后没有out of memory了,只剩下not support modelName的错误了。

我说,我看看你的CANN版本和MindIE版本以及ATB版本。开发者是在docker里面跑的,所以以docker里面的/usr/local/Ascend里面的版本为准。看了一下,CANN和MindIE版本没有问题,但是ATB的版本他没有使用MindIE镜像里面自带的,而是自己下载了一个新版本的,我问为什么?他说,这个版本的测试用例可以多传一个参数。好吧,我说你把ATB版本换成MindIE自带的试试。结果换回去后,成功跑起来了。

总结

所以,不管是帮忙他人排查问题,还是自己排查问题,先从基本的检查开始,先检查卡有没有被占用,有的话就kill掉(如果是别人的任务,先知会一下哈)!其次,不要自己随意组合版本,否则会因为经验不足卡在莫名其妙的问题上。当然,也可以从产品本身出发,做得更好用一些,比如说,报错信息里面给出一些解决问题的提示、增加版本不匹配提示等等。好用的产品需要精雕细琢,任重而道远!

目录
打赏
0
2
3
1
9
分享
相关文章
使用TensorRT-LLM进行生产环境的部署指南
TensorRT-LLM是一个由Nvidia设计的开源框架,用于在生产环境中提高大型语言模型的性能。该框架是基于 TensorRT 深度学习编译框架来构建、编译并执行计算图,并借鉴了许多 FastTransformer 中高效的 Kernels 实现,并且可以利用 NCCL 完成设备之间的通讯。
465 12
使用TensorRT-LLM进行高性能推理
LLM的火爆之后,英伟达(NVIDIA)也发布了其相关的推理加速引擎TensorRT-LLM。TensorRT是nvidia家的一款高性能深度学习推理SDK。此SDK包含深度学习推理优化器和运行环境,可为深度学习推理应用提供低延迟和高吞吐量。而TensorRT-LLM是在TensorRT基础上针对大模型进一步优化的加速推理库,它号称可以增加4倍的推理速度。
584 0
|
3月前
基于VisualGLM-6B大模型的本地部署与推理
本文是基于清华开源的VisualGLM-6B 支持图像中英文的多模态对话语言模型,进行了一系列本地的简单部署,包括环境配置、模型部署、演示推理、模型微调(官方提供的代码),由于个人电脑显存不足,最后是在阿里云服务器交互式平台DSW终端进行微调和训练操作的。
145 17
监控vLLM等大模型推理性能
本文将深入探讨 AI 推理应用的可观测方案,并基于 Prometheus 规范提供一套完整的指标观测方案,帮助开发者构建稳定、高效的推理应用。
监控vLLM等大模型推理性能
一键部署谷歌最新开源多模态AI模型 Gemma 3:单GPU性能碾压Llama!支持35+种语言
Gemma 3 是谷歌最新推出的开源多模态AI模型,支持超过35种语言,具备文本、图像及短视频处理能力,提供四种模型尺寸,优化单GPU性能,适用于多种AI应用场景。
264 8
一键部署谷歌最新开源多模态AI模型 Gemma 3:单GPU性能碾压Llama!支持35+种语言
从 OpenAI-o1 看大模型的复杂推理能力
深入解析OpenAI o1模型的复杂推理技术与发展历程
从 OpenAI-o1 看大模型的复杂推理能力
大语言模型推理提速,TensorRT-LLM 高性能推理实践
大型语言模型(Large language models,LLM)是基于大量数据进行预训练的超大型深度学习模型,本文主要讲述TensorRT-LLM利用量化、In-Flight Batching、Attention、Graph Rewriting提升 LLM 模型推理效率。
101997 2
Qwen2-VL 全链路模型体验、下载、推理、微调实战!
经过了一年的不懈努力,今天通义千问团队对 Qwen-VL 模型进行重大更新——推出 Qwen2-VL。那么Qwen2-VL 有什么新功能呢?一起来看一下吧
Qwen2-VL 全链路模型体验、下载、推理、微调实战!
如何在 TensorRT-LLM 中支持 Qwen 模型
大型语言模型正以其惊人的新能力推动人工智能的发展,扩大其应用范围。然而,由于这类模型具有庞大的参数规模,部署和推理的难度和成本极高,这一挑战一直困扰着 AI 领域。此外,当前存在大量支持模型部署和推理的框架和工具,如  ModelScope 的 Model Pipelines API,和 HuggingFace 的 Text Generation Inference 等,各自都有其独特的特点和优势。然而,这些工具往往未能充分发挥  GPU 的性能。
71810 0
如何在 TensorRT-LLM 中支持 Qwen 模型
"轻量级微调推理框架SWIFT:大模型时代的速度革命,让你秒变AI部署高手!"
【8月更文挑战第17天】随着AI技术的发展,大模型如GPT-3和BERT引领风潮,但其部署与推理速度面临挑战。为此,魔搭社区推出了SWIFT(Simple Weight-Integrated Fine-Tuning)框架,它采用轻量级微调技术,实现模型参数压缩与加速,确保大模型能在移动端和边缘设备上高效运行。SWIFT具备四大特点:创新微调方法减少训练参数;内置优化策略提高推理速度;跨平台支持便于部署;兼容主流预训练模型。通过示例可见,从加载预训练模型到模型的微调、评估及导出,SWIFT简化了工作流程,降低了大模型的应用门槛,促进了AI技术的实际应用。
776 4