开发者社区云计算文章正文

基于VisualGLM-6B大模型的本地部署与推理

2024-12-12 574

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文是基于清华开源的VisualGLM-6B 支持图像中英文的多模态对话语言模型，进行了一系列本地的简单部署，包括环境配置、模型部署、演示推理、模型微调（官方提供的代码），由于个人电脑显存不足，最后是在阿里云服务器交互式平台DSW终端进行微调和训练操作的。

VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对，与300M经过筛选的英文图文对进行预训练，中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间；之后的微调阶段，模型在长视觉问答数据上训练，以生成符合人类偏好的答案

由于采用轻量化部署推理，显存只占用7.8GB,可进行本地推理。

visualGLM-6B大语言模型的web界面推理演示：图像分析、按指令输出结果

香港理工大学wangrongsheng同学基于VisualGLM-6B,利用公开数据集微调训练出的XrayGLM,可实现对X光片进行解析和患者建议，本人只是进行的本地推理演示。

GLM_ONE

JJLIN距离

10月前

负载均衡测试技术调度

大模型分布式推理：张量并行与流水线并行技术

本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战，详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制，以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南，为千亿参数大模型的分布式部署提供全面解决方案。

JJLIN距离

2711 4 5

JJLIN距离

10月前

机器学习/深度学习缓存监控

大模型推理优化技术：KV缓存机制详解

本文深入探讨了大语言模型推理过程中的关键技术——KV缓存（Key-Value Cache）机制。通过对Transformer自注意力机制的分析，阐述了KV缓存的工作原理、实现方式及其对推理性能的显著优化效果。文章包含具体的代码实现和性能对比数据，为开发者理解和应用这一关键技术提供实践指导。

JJLIN距离

2669 9 10

蚂蚁数据智能技术

12月前

并行计算 PyTorch 调度

大模型推理显存优化系列(4)：eLLM-大模型推理中的弹性显存管理和优化

本文简要介绍eLLM相关技术挑战、总体设计和初步性能评估

蚂蚁数据智能技术

926 3 3

蚂蚁数据智能技术

12月前

负载均衡并行计算异构计算

大模型训练推理优化(5)： FlexLink —— NVLink 带宽无损提升27%

本期我们将介绍蚂蚁集团ASystem团队在大模型通信优化上的新工作FlexLink，旨在通过动态聚合多路通信（NVLink，PCIe，RDMA），在H800等典型硬件上将典型通信算子如（AllReduce, All Gather）吞吐提升最高达27%，尤其适合大模型长序列推理（Prefill阶段），及训练等通信密集的带宽bound场景。方案对精度无影响。

蚂蚁数据智能技术

917 2 2

阿里云大数据Al技术

消息中间件人工智能资源调度

云上AI推理平台全掌握 (5)：大模型异步推理服务

针对大模型推理服务中“高计算量、长时延”场景下同步推理的弊端，阿里云人工智能平台 PAI 推出了一套基于独立的队列服务异步推理框架，解决了异步推理的负载均衡、实例异常时任务重分配等问题，确保请求不丢失、实例不过载。

阿里云大数据Al技术

1216 13 13

阿里云大数据Al技术

人工智能缓存资源调度

云上AI推理平台全掌握 (4)：大模型分发加速

为应对大模型服务突发流量场景，阿里云人工智能平台 PAI 推理服务 PAI-EAS 提供本地目录内存缓存（Memory Cache）的大模型分发加速功能，有效解决大量请求接入情况下的推理延迟。PAI-EAS 大模型分发加速功能，零代码即可轻松完成配置。

阿里云大数据Al技术

955 3 3

探索云世界

存储机器学习/深度学习缓存

阿里云AirCache技术实现多模态大模型高效推理加速，入选国际顶会ICCV2025

阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录，该技术通过激活跨模态关联、优化KV缓存压缩策略，显著提升视觉语言模型（VLMs）的推理效率与存储性能。实验表明，在保留仅10%视觉缓存的情况下，模型性能下降小于1%，解码延迟最高降低66%，吞吐量提升达192%。AirCache无需修改模型结构，兼容主流VLMs，已在教育、医疗、政务等多个行业落地应用，助力多模态大模型高效赋能产业智能化升级。

探索云世界

850 1 1

阿里云开发者

10月前

机器学习/深度学习缓存自然语言处理

【万字长文】大模型训练推理和性能优化算法总结和实践

我们是阿里云公共云 AI 汽车行业大模型技术团队，致力于通过专业的全栈 AI 技术推动 AI 的落地应用。

阿里云开发者

3750 40 52

JJLIN距离

10月前

机器学习/深度学习存储并行计算

大模型推理加速技术：FlashAttention原理与实现

本文深入解析大语言模型推理加速的核心技术——FlashAttention。通过分析传统注意力机制的计算瓶颈，详细阐述FlashAttention的IO感知算法设计、前向反向传播实现，以及其在GPU内存层次结构中的优化策略。文章包含完整的CUDA实现示例、性能基准测试和实际部署指南，为开发者提供高效注意力计算的全套解决方案。

JJLIN距离

1729 10 11

基于VisualGLM-6B大模型的本地部署与推理

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

基于VisualGLM-6B大模型的本地部署与推理

热门文章

最新文章

相关课程

相关电子书