官方博客-第2页-阿里云开发者社区

牧原

2025-02-21

668

K8S异常诊断之俺的内存呢

本文讲述作者如何解决客户集群中出现的OOM（Out of Memory）和Pod驱逐问题。文章不仅详细记录了问题的发生背景、现象特征，还深入探讨了排查过程中的关键步骤和技术细节。

牧原

668

张佐玮

2023-12-01

1660

Koordinator 助力云原生应用性能提升，小红书混部技术实践

本文基于 2023 云栖大会上关于 Koordinator 分享的实录，介绍小红书通过规模化落地混部技术来大幅提升集群资源效能，降低业务资源成本。

张佐玮

1,660

探索云世界

2024-12-20

1023

本文介绍了对象存储（OSS）在AI业务中的应用与实践。内容涵盖四个方面：1) 对象存储作为AI数据基石，因其低成本和高弹性成为云上数据存储首选；2) AI场景下的对象存储实践方案，包括数据获取、预处理、训练及推理阶段的具体使用方法；3) 国内主要区域的默认吞吐量提升至100Gbps，优化了大数据量下的带宽需求；4) 常用工具介绍，如OSSutil、ossfs、Python SDK等，帮助用户高效管理数据。重点讲解了OSS在AI训练和推理中的性能优化措施，以及不同工具的特点和应用场景。

探索云世界

1,023

阿里云云原生

2025-04-07

814

极氪汽车云原生架构落地实践

随着极氪数字业务的飞速发展，背后的 IT 技术也在不断更新迭代。极氪极为重视客户对服务的体验，并将系统稳定性、业务功能的迭代效率、问题的快速定位和解决视为构建核心竞争力的基石。

阿里云云原生

814

吴昆

2024-05-15

222172

Kube Queue：Kubernetes 任务排队的利器

吴昆

222,172

羿莉

2024-11-26

824

云上数据安全保护：敏感日志扫描与脱敏实践详解

随着企业对云服务的广泛应用，数据安全成为重要课题。通过对云上数据进行敏感数据扫描和保护，可以有效提升企业或组织的数据安全。本文主要基于阿里云的数据安全中心数据识别功能进行深入实践探索。通过对商品购买日志的模拟，分析了如何使用阿里云的工具对日志数据进行识别、脱敏（3 种模式）处理和基于 StoreView 的查询脱敏方式，从而在保障数据安全的同时满足业务需求。通过这些实践，企业可以有效降低数据泄漏风险，提升数据治理能力和系统安全性。

羿莉

824

正己

2025-01-06

428

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

Kubernetes 体系基于 DNS 的服务发现为开发者提供了很大的便利，但其高度复杂的架构往往带来更高的稳定性风险。以 Nacos 为代表的独立服务发现系统架构简单，在 Kubernetes 中选择独立服务发现系统可以帮助增强业务可靠性、可伸缩性、性能及可维护性，对于规模大、增长快、稳定性要求高的业务来说是一个较理想的服务发现方案。希望大家都能找到适合自己业务的服务发现系统。

正己

428

笃敏

2024-05-15

646

【最佳实践】使用CloudLens排查日志时间解析错误问题

本文主要介绍如何使用CloudLens for SLS定位和解决iLogtail日常使用中的常见问题之一：日志时间解析错误问题。

笃敏

646

探索云世界

2024-12-20

1032

AI场景下的对象存储OSS数据管理实践

本文介绍了ECS和OSS的操作流程，分为两大部分。第一部分详细讲解了ECS的登录、密码重置、安全组设置及OSSUTIL工具的安装与配置，通过实验创建并管理存储桶，上传下载文件，确保资源及时释放。第二部分则聚焦于OSSFS工具的应用，演示如何将对象存储挂载为磁盘，进行大文件加载与模型训练，强调环境搭建（如Conda环境）及依赖安装步骤，确保实验结束后正确清理AccessKey和相关资源。整个过程注重操作细节与安全性，帮助用户高效利用云资源完成实验任务。

探索云世界

1,032

官方博客-第2页-阿里云开发者社区

类目筛选

内容类型

K8S异常诊断之俺的内存呢

Koordinator 助力云原生应用性能提升，小红书混部技术实践

AI场景下的对象存储OSS数据管理实践

极氪汽车云原生架构落地实践

Kube Queue：Kubernetes 任务排队的利器

云上数据安全保护：敏感日志扫描与脱敏实践详解

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

【最佳实践】使用CloudLens排查日志时间解析错误问题

AI场景下的对象存储OSS数据管理实践

官方博客-第2页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

K8S异常诊断之俺的内存呢

Koordinator 助力云原生应用性能提升，小红书混部技术实践

AI场景下的对象存储OSS数据管理实践

极氪汽车云原生架构落地实践

Kube Queue：Kubernetes 任务排队的利器

云上数据安全保护：敏感日志扫描与脱敏实践详解

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

【最佳实践】使用CloudLens排查日志时间解析错误问题

AI场景下的对象存储OSS数据管理实践