llama2 70B mindie推理开箱报错问题

简介: 遇到问题,先从基本的检查开始,先检查卡有没有被占用,有的话就kill掉(如果是别人的任务,先知会一下哈)!其次,不要自己随意组合版本,否则会因为经验不足卡在莫名其妙的问题上。

这周支撑了一个llama2 70B MindIE开箱推理报错的问题,给大家分享一下。

背景

事情是这样,开发者搞了一台昇腾800I A2服务器,这个服务器的配置是8卡,每个卡显存是32G。他想用MindIE跑一下llama2 70B的推理,测一下性能,结果报了2个错,1个是NPU out of memory,一个是not support modelName。

开发者就很纳闷了,说我直接用你们的代码跑的,啥也没改,咋就不行呢?作为DR,我当然不能坐视不管,立马和开发者开始了交流。

分析

开发者很配合,提供了他的日志,我仔细看了一下,out of memory是在0卡和1卡上加载权重的时候发生的,not support modelName是在其他卡上发生的。我估算了一下,70B模型,分到8卡上,每个卡加载权重顶多用140G/8<20G,32G肯定够够的呀!至于not support modelName,一般就是模型调用的算子和算子库里面的算子名字没对上导致的,由于mindie 大模型推理使用的是ATB库,所以我推测是MindIE和ATB版本没对上。分析完后,心理差不多有底了,为了赶时间,而且对方是咱的VIP客户,就直接约开发者开腾讯会议了。

实操

上了会,我说,你再复现给我看一下。在他启动之前,我说,执行npu-smi info看一下有没有卡被占用,结果看到,0卡和1卡的显存被占得满满的,但开发者还是想继续启动任务。。。我说,停停!你这卡被占着呢,咋跑?先释放掉。开发者哦了一声,把占用显存的进程kill掉了。果然,启动之后没有out of memory了,只剩下not support modelName的错误了。

我说,我看看你的CANN版本和MindIE版本以及ATB版本。开发者是在docker里面跑的,所以以docker里面的/usr/local/Ascend里面的版本为准。看了一下,CANN和MindIE版本没有问题,但是ATB的版本他没有使用MindIE镜像里面自带的,而是自己下载了一个新版本的,我问为什么?他说,这个版本的测试用例可以多传一个参数。好吧,我说你把ATB版本换成MindIE自带的试试。结果换回去后,成功跑起来了。

总结

所以,不管是帮忙他人排查问题,还是自己排查问题,先从基本的检查开始,先检查卡有没有被占用,有的话就kill掉(如果是别人的任务,先知会一下哈)!其次,不要自己随意组合版本,否则会因为经验不足卡在莫名其妙的问题上。当然,也可以从产品本身出发,做得更好用一些,比如说,报错信息里面给出一些解决问题的提示、增加版本不匹配提示等等。好用的产品需要精雕细琢,任重而道远!

目录
相关文章
|
10月前
|
缓存 Kubernetes 异构计算
使用TensorRT-LLM进行生产环境的部署指南
TensorRT-LLM是一个由Nvidia设计的开源框架,用于在生产环境中提高大型语言模型的性能。该框架是基于 TensorRT 深度学习编译框架来构建、编译并执行计算图,并借鉴了许多 FastTransformer 中高效的 Kernels 实现,并且可以利用 NCCL 完成设备之间的通讯。
453 12
|
机器学习/深度学习 人工智能 API
使用TensorRT-LLM进行高性能推理
LLM的火爆之后,英伟达(NVIDIA)也发布了其相关的推理加速引擎TensorRT-LLM。TensorRT是nvidia家的一款高性能深度学习推理SDK。此SDK包含深度学习推理优化器和运行环境,可为深度学习推理应用提供低延迟和高吞吐量。而TensorRT-LLM是在TensorRT基础上针对大模型进一步优化的加速推理库,它号称可以增加4倍的推理速度。
577 0
|
10月前
|
机器学习/深度学习 人工智能 Cloud Native
大语言模型推理提速,TensorRT-LLM 高性能推理实践
大型语言模型(Large language models,LLM)是基于大量数据进行预训练的超大型深度学习模型,本文主要讲述TensorRT-LLM利用量化、In-Flight Batching、Attention、Graph Rewriting提升 LLM 模型推理效率。
101971 2
|
3月前
|
缓存 自然语言处理 API
Ascend推理组件MindIE LLM
MindIE LLM是基于昇腾硬件的大语言模型推理组件,提供高性能的多并发请求调度与优化技术,如Continuous Batching、PageAttention等,支持Python和C++ API,适用于高效能推理需求。其架构包括深度定制优化的模型模块、文本生成器和任务调度管理器,支持多种模型框架和量化方式,旨在提升大规模语言模型的推理效率和性能。
|
3月前
|
自然语言处理 并行计算 API
Qwen模型应用:微调与部署实践
Qwen模型应用:微调与部署实践
960 0
|
6月前
|
文字识别 自然语言处理 数据可视化
Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!
在 Qwen2 发布后的过去三个月里,许多开发者基于 Qwen2 语言模型构建了新的模型,并提供了宝贵的反馈。在这段时间里,通义千问团队专注于创建更智能、更博学的语言模型。今天,Qwen 家族的最新成员:Qwen2.5系列正式开源
Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!
|
7月前
|
编解码 JSON 自然语言处理
Qwen2-VL 全链路模型体验、下载、推理、微调实战!
经过了一年的不懈努力,今天通义千问团队对 Qwen-VL 模型进行重大更新——推出 Qwen2-VL。那么Qwen2-VL 有什么新功能呢?一起来看一下吧
Qwen2-VL 全链路模型体验、下载、推理、微调实战!
|
5月前
|
自然语言处理 语音技术 开发者
如何利用 OpenVINO™ 部署 Qwen2 多模态模型
本文将分享如何利用 OpenVINO™ 工具套件在轻薄本上部署 Qwen2-Audio 以及 Qwen2-VL 多模态模型。
|
10月前
|
机器学习/深度学习 人工智能 API
如何在 TensorRT-LLM 中支持 Qwen 模型
大型语言模型正以其惊人的新能力推动人工智能的发展,扩大其应用范围。然而,由于这类模型具有庞大的参数规模,部署和推理的难度和成本极高,这一挑战一直困扰着 AI 领域。此外,当前存在大量支持模型部署和推理的框架和工具,如  ModelScope 的 Model Pipelines API,和 HuggingFace 的 Text Generation Inference 等,各自都有其独特的特点和优势。然而,这些工具往往未能充分发挥  GPU 的性能。
71804 0
如何在 TensorRT-LLM 中支持 Qwen 模型
|
8月前
|
并行计算 PyTorch 算法框架/工具
LLM推理引擎怎么选?TensorRT vs vLLM vs LMDeploy vs MLC-LLM
有很多个框架和包可以优化LLM推理和服务,所以在本文中我将整理一些常用的推理引擎并进行比较。
1155 2