ModelScope trt-llm有没有个人开发者提供使用第一版教程？

展开

收起

真的很搞笑 2023-11-15 08:02:34 63 0

3 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
对于ModelScope中TRT-LLM的个人开发者教程，我没有找到具体的官方文档或社区指南。但是，根据之前的信息，我们知道：
1. TensorRT Large Language Model（TRT-LLM）支持：NVIDIA已经发布了用于优化大语言模型推理的TensorRT-LLM库。
2. 将千问模型转换为TensorFlow格式：由于TensorRT只能处理TensorFlow格式的模型，所以如果要使用TensorRT-LLM进行部署，需要首先将你的模型转换为TensorFlow格式。
3. 使用ModelScope部署到trt-llm：ModelScope允许用户将训练好的模型部署到trt-llm上以获得更好的推理性能。
虽然没有直接针对个人开发者的教程，但你可以参考以下步骤来尝试部署你的模型到trt-llm：

一般流程
1. 安装必要的软件：
  
  首先确保你已安装了NVIDIA的CUDA和cuDNN。
  然后，从NVIDIA官网下载并安装TensorRT。
  安装tensorflow-gpu，以便能够处理TensorFlow模型。
2. 准备模型文件：
  
  将你的模型转换为TensorFlow格式。如果你的模型是用PyTorch或其他框架训练的，可能需要使用特定的工具或脚本来完成这个转换过程。
  将模型权重保存在一个.pb文件中。
3. 配置ModelScope：
  
  在ModelScope平台上创建一个新的模型实例，并上传你的模型文件。
  指定模型类型和相关的参数，包括输入和输出的维度、数据类型等。
4. 部署模型：
  
  使用ModelScope提供的API或者控制台界面，选择将模型部署到trt-llm。
  根据平台上的提示完成部署过程。
5. 测试模型：
  
  部署完成后，可以使用ModelScope提供的测试功能来验证模型是否正常运行。
2023-11-30 23:13:47

赞同展开评论打赏
芯在这

感觉得看源代码了。挺麻烦的。但你自己开发，得先学习。这个是fastertansformers为基础的，你得熟悉那个。不太容易。，此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”

2023-11-15 12:45:34

赞同展开评论打赏
sunrr

目前，我没有找到个人开发者为ModelScope的trt-llm第一版提供的教程。不过，我找到了一篇基于TensorRT-LLM和Triton部署ChatGLM2-6B模型推理服务的实践指南。这篇指南详细介绍了如何利用“TensorRT-LLM + Triton”这套方案部署一个大型语言模型ChatGLM2-6B的推理服务，这可能对你有帮助。

此外，你或许也对TensorRT-LLM的工作机制感兴趣。TensorRT-LLM将TensorRT、来自FasterTransformer的优化版kernel、预处理和后处理以及多GPU/多节点通信都封装在一个Python API中，用于定义、优化和执行推理生产中的LLMs。更进一步地，它包括了针对 LLM 的优化内核和操作，如 FlashAttention 和遮蔽多头注意力等，以简化 LLM 的开发和部署过程。

2023-11-15 10:29:08

赞同展开评论打赏