官方博客-第16页-阿里云开发者社区

子白

2024-05-15

102409

大语言模型推理提速，TensorRT-LLM 高性能推理实践

大型语言模型（Large language models,LLM）是基于大量数据进行预训练的超大型深度学习模型，本文主要讲述TensorRT-LLM利用量化、In-Flight Batching、Attention、Graph Rewriting提升 LLM 模型推理效率。

子白

102,409

ModelScope

2024-05-15

1819

随着企业客户上云的深入，越来越多的客户会选择在阿里云全球region多地部署其企业业务系统，以便其全球化业务的迅速开展。阿里云在云上有非常丰富云网络产品，来协助企业客户在全球region迅速构建云上多个地域的互联互通，帮忙企业客户快速实现业务上线。本章节为您介绍如何使用云企业网转发路由器CEN-TR（Transit Router），来实现客户本地多个不同城市数据中心IDC（Internet Data Center）和云上VPC跨地域互通互联。

骐迹

1,751

李德

2024-12-06

1304

【阅读十分钟，百分百成功】——通过大模型实现对客服回答的质量评估

本文章基于业务实践，总结有关客服质检场景的解决方案和处理经验，为相似场景提供可行的借鉴方法。

李德

1,304

勉成

2024-12-12

559

如何找出Java进程占用CPU高的元凶

本文记录了一次Java进程CPU占用率过高的问题和排查思路。

勉成

559

叶枫

2025-02-06

458

详解智能编码在前端研发的创新应用

接下来，人与智能体的交互将变得更为紧密，比如 N 年以后是否可以逐渐过渡。这个逐渐过渡的过程实际上是温和的，从依赖人类到依赖超大规模算力的转变，可能会取代我们的一些职责。这不仅仅是简单的叠加关系。对于AI和超大规模算力，这是否意味着我们可以大幅度提升软件质量，是否可以缩短研发周期并提高效率，还有创造出更优质的软件并持续发展，这无疑是肯定的。

叶枫

458

尹丰彬

2025-02-21

806

基于虚拟服务配置的渐进式迁移实践：Istio集群至ASM集群的平滑切换

本文介绍了从Istio+k8s环境迁移到阿里云ASM+ACK环境的渐进式方法，通过配置虚拟服务和入口服务实现新老集群间的服务调用与流量转发，确保业务连续性与平滑迁移

尹丰彬

806

丕天

2025-03-21

1081

AI 推理场景的痛点和解决方案

一个典型的推理场景面临的问题可以概括为限流、负载均衡、异步化、数据管理、索引增强 5 个场景。通过云数据库 Tair 丰富的数据结构可以支撑这些场景，解决相关问题，本文我们会针对每个场景逐一说明。

丕天

1,081

阿里云云原生

2025-06-30

404

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

本文介绍了如何使用 llmaz 快速部署基于 vLLM 的大语言模型推理服务，并结合 Higress AI 网关实现流量控制、可观测性、故障转移等能力，构建稳定、高可用的大模型服务平台。

阿里云云原生

404

官方博客-第16页-阿里云开发者社区

类目筛选

内容类型

大语言模型推理提速，TensorRT-LLM 高性能推理实践

Multi-Agent实践第7期：智能体的高效协作

阿里云全球跨地域网络互通方案

【阅读十分钟，百分百成功】——通过大模型实现对客服回答的质量评估

如何找出Java进程占用CPU高的元凶

详解智能编码在前端研发的创新应用

基于虚拟服务配置的渐进式迁移实践：Istio集群至ASM集群的平滑切换

AI 推理场景的痛点和解决方案

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践

官方博客-第16页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

大语言模型推理提速，TensorRT-LLM 高性能推理实践

Multi-Agent实践第7期：智能体的高效协作

阿里云全球跨地域网络互通方案

【阅读十分钟，百分百成功】——通过大模型实现对客服回答的质量评估

如何找出Java进程占用CPU高的元凶

详解智能编码在前端研发的创新应用

基于虚拟服务配置的渐进式迁移实践：Istio集群至ASM集群的平滑切换

AI 推理场景的痛点和解决方案

基于 AI 网关和 llmaz，提升 vLLM 推理服务可用性和部署易用性的实践