官方博客-第22页-阿里云开发者社区

  • 2024-11-29
    512

    写了BUG还想跑——闲鱼异常日志问题自动追踪-定位-分发机制

    为了高效地发现、定位和解决预发问题,闲鱼团队研发了一套异常日志问题自动追踪-定位-分发机制。这套机制通过自动化手段,实现了异常日志的定时扫描、精准定位和自动分发,显著降低了开发和测试的成本,提高了问题解决的效率。

    512
  • OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

    聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。

  • 2025-02-21
    614

    K8S异常诊断之俺的内存呢

    本文讲述作者如何解决客户集群中出现的OOM(Out of Memory)和Pod驱逐问题。文章不仅详细记录了问题的发生背景、现象特征,还深入探讨了排查过程中的关键步骤和技术细节。

    614
  • 2023-04-23
    25790

    慢SQL是如何拖垮数据库的

    本文结合一个实际故障案例出发,分析慢SQL是如何打垮数据库并引发故障的。

    25,790
  • 2023-06-29
    859

    基于云原生网关的全链路灰度实践

    基于云原生网关的全链路灰度实践

    859
  • 2023-12-01
    3032

    分布式锁实现原理与最佳实践

    在单体的应用开发场景中涉及并发同步时,大家往往采用Synchronized(同步)或同一个JVM内Lock机制来解决多线程间的同步问题。而在分布式集群工作的开发场景中,就需要一种更加高级的锁机制来处理跨机器的进程之间的数据同步问题,这种跨机器的锁就是分布式锁。接下来本文将为大家分享分布式锁的最佳实践。

    3,032
  • 2024-05-15
    105555

    SLS 大模型可观测&安全推理审计标准解决方案

    本文介绍大模型可观测&安全推理审计解决方案和Demo演示,SLS 提供全面的 LLM 监控和日志记录功能。监控大模型使用情况和性能,自定义仪表盘;SLS 汇总 Actiontrail 事件、云产品可观测日志、LLM 网关明细日志、详细对话明细日志、Prompt Trace 和推理实时调用明细等数据,建设完整统一的大模型可观测方案,为用户的大模型安全推理审计提供全面合规支持。

    105,555
  • 2024-05-15
    48501

    走进RDS之MySQL内存分配与管理(下)

    本篇为下篇,主要对MySQL内存限制特性进行解读,代码基于8.0.28。本文将围绕该项工作的改动、设计实现等方面展开介绍。

    48,501
  • 2024-05-15
    125852

    深度剖析 RocketMQ 5.0,消息基础:RocketMQ 在业务消息场景的基础优势是什么?

    本文主要介绍业务消息的应用解耦场景,具体解耦什么? RocketMQ 在业务消息场景的基础特性。业界那么多消息队列能实现应用解耦,RocketMQ 在基础特性上有哪些增强?

    125,852
  • 1
    ...
    21
    22
    23
    ...
    59
    到第