2024-05-15
146

基于ASK+TFJob快速完成分布式Tensorflow训练任务

本文介绍如何使用TFJob在ASK+ECI场景下,快速完成基于GPU的TensorFlow分布式训练任务。

146
2024-05-15
164889

OpenKruise v1.6 版本解读:增强多域管理能力

OpenKruise 在 2024.3 发布了最新的 v1.6 版本(ChangeLog),本文对新版本的核心特性做整体介绍。

2024-05-15
108

打造一个高可用多租户的企业级Maven私有仓库服务

本文讨论了构建高可用多租户企业级Maven私有仓库服务的必要性,指出传统Nexus和Artifactory开源版缺乏高可用性,商业版虽支持但成本高、扩展性有限。理想的解决方案应包含无状态节点、使用云存储(如阿里云OSS)和集群化的数据库与Elasticsearch。

108
2024-05-15
104077

SLS 大模型可观测&安全推理审计标准解决方案

本文介绍大模型可观测&安全推理审计解决方案和Demo演示,SLS 提供全面的 LLM 监控和日志记录功能。监控大模型使用情况和性能,自定义仪表盘;SLS 汇总 Actiontrail 事件、云产品可观测日志、LLM 网关明细日志、详细对话明细日志、Prompt Trace 和推理实时调用明细等数据,建设完整统一的大模型可观测方案,为用户的大模型安全推理审计提供全面合规支持。

104,077
2024-05-15
140

阿里云AccessKey调用溯源最佳实践

本文主要介绍如何对阿里云访问控制访问密钥(AccessKey)开展调用溯源工作,方便大家快速有效的开展事件调查、安全加固、应急处置等。

140
2019-12-24
1858

资源编排ROS之自定制资源(基础篇)

本文介绍资源编排ROS的基础知识配置。

2024-05-15
61134

面向全栈可观测的分布式链路追踪

全栈可观测App提供了一套完整的分析工具,从数据统计分析能力到数据关联,再到具备智能化和自动化特性的相关工具,以解决人们在可观测性方面所遇到的问题。未来,我们将持续提供更加丰富和强大的分析工具来满足用户的需求。

61,134
2024-05-15
122319

每天一个摆脱if-else工程师的技巧,优雅的参数校验

在日常的开发工作中,为了程序的健壮性,大部分方法都需要进行入参数据校验。本文围绕作者如何优雅的进行参数校验展开讨论。

122,319
1
...
4
5
6
...
14
到第
1
2
3
4
5
6
7
8
9
10
11
12
13
14
5/14