官方博客-第4页-阿里云开发者社区

  • 2025-03-21
    1090

    监控vLLM等大模型推理性能

    本文将深入探讨 AI 推理应用的可观测方案,并基于 Prometheus 规范提供一套完整的指标观测方案,帮助开发者构建稳定、高效的推理应用。

    1,090
  • 2023-08-15
    22905

    迄今为止最完整的DDD实践

    对于一个架构师来说,在软件开发中如何降低系统复杂度是一个永恒的挑战。

    22,905
  • 2024-05-15
    2436

    为大模型工程提效,基于阿里云 ACK 的云原生 AI 工程化实践

    本文主要介绍了解析云原生 AI 所遇到的技术挑战和应对方案,随后介绍云原生 AI 领域的关键技术与架构细节,最后分享我们在 ACK 的相关经验及工程实践。

  • 2024-05-15
    63299

    All in One:Prometheus 多实例数据统一管理最佳实践

    当管理多个Prometheus实例时,阿里云Prometheus托管版相比社区版提供了更可靠的数据采集和便捷的管理。本文比较了全局聚合实例与数据投递方案,两者在不同场景下各有优劣。

  • 2024-07-04
    109460

    全链路追踪 & 性能监控,GO 应用可观测全面升级

    当前,大多数面向 Golang 应用的监控能力主要是通过 SDK 方式接入,需要开放人员手动进行埋点,会存在一定问题。对此,可观测 Go Agent 应运而生。本文介绍的阿里云可观测 Go Agent 方案,能通过无侵入的方式实现应用监控能力。

    109,460
  • 2025-04-07
    644

    极氪汽车云原生架构落地实践

    随着极氪数字业务的飞速发展,背后的 IT 技术也在不断更新迭代。极氪极为重视客户对服务的体验,并将系统稳定性、业务功能的迭代效率、问题的快速定位和解决视为构建核心竞争力的基石。

  • 2025-04-29
    627

    剑指大规模 AI 可观测,阿里云 Prometheus 2.0 应运而生

    本文介绍了阿里云Prometheus 2.0方案,针对大规模AI系统的可观测性挑战进行全面升级。内容涵盖数据采集、存储、计算、查询及生态整合等维度。 Prometheus 2.0引入自研LoongCollector实现多模态数据采集,采用全新时序存储引擎提升性能,并支持RecordingRule与ScheduleSQL预聚合计算。查询阶段提供跨区域、跨账号的统一查询能力,结合PromQL与SPL语言增强分析功能。此外,该方案已成功应用于阿里云内部AI系统,如百炼、通义千问等大模型全链路监控。未来,阿里云将发布云监控2.0产品,进一步完善智能观测技术栈。

  • 2023-12-01
    2984

    分布式锁实现原理与最佳实践

    在单体的应用开发场景中涉及并发同步时,大家往往采用Synchronized(同步)或同一个JVM内Lock机制来解决多线程间的同步问题。而在分布式集群工作的开发场景中,就需要一种更加高级的锁机制来处理跨机器的进程之间的数据同步问题,这种跨机器的锁就是分布式锁。接下来本文将为大家分享分布式锁的最佳实践。

    2,984
  • 2024-05-15
    3630

    高并发架构设计三大利器:缓存、限流和降级

    软件系统有三个追求:高性能、高并发、高可用,俗称三高。本篇讨论高并发,从高并发是什么到高并发应对的策略、缓存、限流、降级等。

    3,630
  • 1
    ...
    3
    4
    5
    ...
    52
    到第