ModelScope trt-llm有没有个人开发者提供使用第一版教程?
对于ModelScope中TRT-LLM的个人开发者教程,我没有找到具体的官方文档或社区指南。但是,根据之前的信息,我们知道:
TensorRT Large Language Model(TRT-LLM)支持:NVIDIA已经发布了用于优化大语言模型推理的TensorRT-LLM库。
将千问模型转换为TensorFlow格式:由于TensorRT只能处理TensorFlow格式的模型,所以如果要使用TensorRT-LLM进行部署,需要首先将你的模型转换为TensorFlow格式。
使用ModelScope部署到trt-llm:ModelScope允许用户将训练好的模型部署到trt-llm上以获得更好的推理性能。
虽然没有直接针对个人开发者的教程,但你可以参考以下步骤来尝试部署你的模型到trt-llm:
安装必要的软件:
tensorflow-gpu
,以便能够处理TensorFlow模型。准备模型文件:
.pb
文件中。配置ModelScope:
部署模型:
测试模型:
感觉得看源代码了。挺麻烦的。但你自己开发,得先学习。 这个是fastertansformers为基础的,你得熟悉那个。不太容易。,此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”
目前,我没有找到个人开发者为ModelScope的trt-llm第一版提供的教程。不过,我找到了一篇基于TensorRT-LLM和Triton部署ChatGLM2-6B模型推理服务的实践指南。这篇指南详细介绍了如何利用“TensorRT-LLM + Triton”这套方案部署一个大型语言模型ChatGLM2-6B的推理服务,这可能对你有帮助。
此外,你或许也对TensorRT-LLM的工作机制感兴趣。TensorRT-LLM将TensorRT、来自FasterTransformer的优化版kernel、预处理和后处理以及多GPU/多节点通信都封装在一个Python API中,用于定义、优化和执行推理生产中的LLMs。更进一步地,它包括了针对 LLM 的优化内核和操作,如 FlashAttention 和遮蔽多头注意力等,以简化 LLM 的开发和部署过程。