一为

2024-05-15

基于ASK+TFJob快速完成分布式Tensorflow训练任务

本文介绍如何使用TFJob在ASK+ECI场景下，快速完成基于GPU的TensorFlow分布式训练任务。

一为

131

阿里云云原生

2024-05-15

43297

得物 ZooKeeper SLA 也可以 99.99%丨最佳实践

在本文中，作者探讨了ZooKeeper（ZK）的一个内存占用问题，特别是当有大量的Watcher和ZNode时，导致的内存消耗。

阿里云云原生

43,297

隆基

2024-05-15

140389

深度剖析 RocketMQ 5.0，架构解析：云原生架构如何支撑多元化场景？

了解 RocketMQ 5.0 的核心概念和架构概览；然后我们会从集群角度出发，从宏观视角学习 RocketMQ 的管控链路、数据链路、客户端和服务端如何交互；学习 RocketMQ 如何实现数据的存储，数据的高可用，如何利用云原生存储进一步提升竞争力。

隆基

140,389

探索云世界

2024-05-15

37953

不需要懂技术，3分钟幻兽帕鲁服务器搭建教程

幻兽帕鲁最近非常火。有些小伙伴可能不喜欢跟陌生人一起玩，那么你可以搭建一个专有服务器和朋友一起联机游戏。自己搭建服务器不仅更私密，还能自定义游戏里的一些选项，比如调整工作速度倍率、经验获取倍率等。这篇教程将引导你在几分钟内快速完成幻兽帕鲁服务器的搭建。

探索云世界

37,953

阿里云存储

2024-05-15

138275

用软硬协同设计下的飞天盘古降低存储系统开销

历经 15 载，如今的飞天盘古系统已迭代至第三代，数千万行代码和 1,000 余项专利，从大规模、到高性能、到高效能的分布式存储系统的演进，更高效地让数据中心成为一台计算机。

阿里云存储

138,275

吴昆

2024-05-15

145341

弹性调度助力企业灵活应对业务变化，高效管理云上资源

本文主要介绍了弹性调企业灵活应对企业业务变化，并高效管理云上资源。

吴昆

145,341

赫曦

2024-05-15

92568

阿里云云原生弹性方案，用弹性解决集群资源利用率难题

本文主要介绍了通过弹性，实现成本优化，解决集群资源利用率难题。

赫曦

92,568

子白

2024-05-15

100706

大语言模型推理提速，TensorRT-LLM 高性能推理实践

大型语言模型（Large language models,LLM）是基于大量数据进行预训练的超大型深度学习模型，本文主要讲述TensorRT-LLM利用量化、In-Flight Batching、Attention、Graph Rewriting提升 LLM 模型推理效率。

子白

100,706

孟威

2024-05-15

104051

SLS 大模型可观测&安全推理审计标准解决方案

本文介绍大模型可观测&安全推理审计解决方案和Demo演示，SLS 提供全面的 LLM 监控和日志记录功能。监控大模型使用情况和性能，自定义仪表盘；SLS 汇总 Actiontrail 事件、云产品可观测日志、LLM 网关明细日志、详细对话明细日志、Prompt Trace 和推理实时调用明细等数据，建设完整统一的大模型可观测方案，为用户的大模型安全推理审计提供全面合规支持。

孟威

104,051

类目筛选

内容类型

基于ASK+TFJob快速完成分布式Tensorflow训练任务

得物 ZooKeeper SLA 也可以 99.99%丨最佳实践

深度剖析 RocketMQ 5.0，架构解析：云原生架构如何支撑多元化场景？

不需要懂技术，3分钟幻兽帕鲁服务器搭建教程

用软硬协同设计下的飞天盘古降低存储系统开销

弹性调度助力企业灵活应对业务变化，高效管理云上资源

阿里云云原生弹性方案，用弹性解决集群资源利用率难题

大语言模型推理提速，TensorRT-LLM 高性能推理实践

SLS 大模型可观测&安全推理审计标准解决方案