官方博客-第3页-阿里云开发者社区

  • 2025-02-28
    1302

    进行GPU算力管理

    本篇主要简单介绍了在AI时代由‘大参数、大数据、大算力’需求下,对GPU算力管理和分配带来的挑战。以及面对这些挑战,GPU算力需要从单卡算力管理、单机多卡算力管理、多机多卡算力管理等多个方面发展出来的业界通用的技术。

    1,302
  • 2025-05-06
    918

    通过 MCP 构建企业级数据分析 Agent

    本文介绍了使用阿里云实时数仓 Hologres、函数计算 FC 和通义大模型 Qwen3 构建企业级数据分析 Agent 的方法。通过 MCP(模型上下文协议)标准化接口,解决大模型与外部工具和数据源集成的难题。Hologres 提供高性能数据分析能力,支持实时数据接入和湖仓一体分析;函数计算 FC 提供弹性、安全的 Serverless 运行环境;Qwen3 具备强大的多语言处理和推理能力。方案结合 ModelScope 的 MCP Playground,实现高效的服务化部署,帮助企业快速构建跨数据源、多步骤分解的数据分析 Agent,优化数据分析流程并降低成本。

  • OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

    聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。

  • 2023-08-11
    1622

    Linux 内存管理新特性:Memory folios 解读

    本文主要讲解folio ,极其在应用中的直接价值。

    1,622
  • 2024-05-15
    1623

    从方法论到最佳实践,深度解析企业云原生 DevSecOps 体系构建

    本文主要介绍了云原生安全的现状以及企业应用在云原生化转型中面临的主要安全挑战以及相对成熟的一部分安全体系方法论,深度解析企业云原生 DevSecOps 体系构建。

    1,623
  • 2024-06-24
    56497

    解锁分布式云多集群统一监控的云上最佳实践

    为应对分布式云多集群监控的挑战,阿里云可观测监控 Prometheus 版结合 ACK One,凭借高效纳管与全局监控方案有效破解了用户在该场景的监控运维痛点,为日益增长的业务需求提供了一站式、高效、统一的监控解决方案,实现成本与运维效率的双重优化。助力企业的数字化转型与业务快速增长,在复杂多变的云原生时代中航行,提供了一个强有力的罗盘与风帆。

    56,497
  • 2024-09-27
    923

    跟着iLogtail学习容器运行时与K8s下日志采集方案

    iLogtail 作为开源可观测数据采集器,对 Kubernetes 环境下日志采集有着非常好的支持,本文跟随 iLogtail 的脚步,了解容器运行时与 K8s 下日志数据采集原理。

    923
  • 2024-11-21
    646

    构建理想容器镜像——以CSI为例

    本文围绕阿里云CSI(Container Storage Interface)镜像构建的实际案例,探讨了一系列优化容器镜像的最佳实践。

    646
  • 2023-09-26
    139128

    云原生场景下高可用架构的最佳实践

    云原生场景下高可用架构的最佳实践

    139,128
  • 1
    2
    3
    4
    ...
    10
    到第
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    3/10