PyTorch

首页 标签 PyTorch
# PyTorch #
关注
4929内容
|
1天前
| |
TensorRT-LLM 推理服务实战指南
`trtllm-serve` 是 TensorRT-LLM 官方推理服务工具,支持一键部署兼容 OpenAI API 的生产级服务,提供模型查询、文本与对话补全等接口,并兼容多模态及分布式部署,助力高效推理。
|
1天前
| |
如何优雅地为 TensorRT-LLM 添加新模型
本指南详细介绍如何在TensorRT-LLM中优雅集成新大语言模型,涵盖模型配置、定义、权重加载与注册全流程,支持作为核心模块或独立扩展集成,助力高效推理部署。(238字)
Ray Forward 2025 定档 12 月 20 日北京!议题征集通道已开放
由蚂蚁集团发起的 Ray 中文社区与蚂蚁开源联合主办的 Ray Forward 2025,将于 12 月 20 日在北京蚂蚁 T 空间正式启幕,以 “拥抱 AI,Ray 向未来” 为主题,邀您共探下一代智能计算架构的进化方向。
|
8天前
|
python torch基础用法
本教程系统讲解PyTorch基础,涵盖张量操作、自动求导、神经网络构建、训练流程、GPU加速及模型保存等核心内容,结合代码实例帮助初学者快速掌握深度学习开发基础,是入门PyTorch的实用指南。
|
11天前
| |
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
|
12天前
| |
用数学重构 AI的设想:流形注意力 + 自然梯度优化的最小可行落地
本文提出两个数学驱动的AI模块:流形感知注意力(D-Attention)与自然梯度优化器(NGD-Opt)。前者基于热核偏置,在局部邻域引入流形结构,降低计算开销;后者在黎曼流形上进行二阶优化,仅对线性层低频更新前置条件。二者均提供可复现代码与验证路径,兼顾性能与工程可行性,助力几何感知的模型设计与训练。
|
15天前
|
REFRAG技术详解:如何通过压缩让RAG处理速度提升30倍
REFRAG提出用轻量编码器将检索文本块压缩为单向量,再投影至LLM嵌入空间,结合强化学习策略选择性展开关键块。相比传统RAG,输入序列大幅缩短,首token速度提升达30倍,准确率几乎无损,显著降低计算开销。
|
19天前
| |
FISSPACE 技术白皮书节选|因果自导机制(Causal Self-Guidance Mechanism)
FISSPACE提出因果自导机制(CSG),让智能体从被动训练迈向自主演化。通过内部能量流、压痕反馈与因果梯度闭环,构建具备自我修正与成长能力的智能系统,实现无外部奖励下的内驱进化,推动AI走向具有方向与意志的自演化时代。(238字)
|
23天前
| |
vLLM 架构学习指南
本指南深入解析vLLM高性能推理引擎架构,涵盖核心创新PagedAttention与连续批处理技术,结合代码结构、学习路径与实践建议,系统指导用户从入门到贡献源码的全过程。
免费试用