【微服务与云原生架构】可观测性体系:Prometheus、Grafana、Loki、监控告警体系

简介: 本文系统梳理微服务与云原生可观测性全体系:以Metrics(Prometheus)、Logs(Loki)、Traces(Tempo)三大支柱为核心,融合OpenTelemetry统一采集、Grafana统一可视化及SLO质量度量,覆盖数据采集、存储、查询、告警、根因定位到自愈闭环,兼顾架构原理、落地规范与避坑指南。

微服务与云原生架构可观测性体系 全结构化知识总结

一、顶层核心定位与基础理论体系

1.1 核心定义与架构适配性

云原生可观测性是微服务分布式架构的核心底座能力,通过对系统内部输出的遥测数据进行采集、存储、计算、可视化与告警,实现对系统健康状态的全域感知、故障快速定位、根因分析与性能优化,解决微服务架构下「分布式链路长、实例动态扩缩容、故障扩散快、多语言异构、问题定位难」的核心痛点。

它与传统监控的本质差异:

维度 传统监控 云原生可观测性
核心目标 被动式故障告警,已知问题的阈值监控 主动式系统内省,覆盖未知问题的根因分析
数据体系 以基础设施指标为主,数据孤立 三大支柱(Metrics/Logs/Traces)全域联动,数据关联
架构适配 静态配置,适配固定IP的单体架构 动态服务发现,原生适配K8s容器化、弹性扩缩容的微服务架构
价值闭环 告警触发-人工处理的单点流程 可观测-告警-根因定位-自愈-容量规划-业务度量的全链路价值闭环

1.2 可观测性三大核心支柱(行业标准)

整个体系围绕三大支柱构建,本次核心组件与三大支柱的对应关系如下:

  1. Metrics(指标):Prometheus为核心事实标准,提供可聚合、时序化的数值型数据,用于系统状态量化、趋势分析、阈值告警与容量规划
  2. Logs(日志):Loki为核心云原生方案,提供事件级、非结构化/半结构化的文本数据,用于故障详情追溯、错误上下文还原、审计合规
  3. Traces(链路追踪):Grafana生态Tempo为配套方案,提供请求全链路的分布式追踪数据,用于微服务调用链路瓶颈定位、分布式事务故障排查

    补充行业标准:OpenTelemetry为当前云原生可观测性统一埋点与数据采集标准,可无缝对接Prometheus、Loki、Grafana,实现三大支柱数据的统一生成与标签对齐。

1.3 体系核心目标与价值落地

  1. 故障治理:分钟级故障发现、秒级根因定位、降低MTTR(平均故障恢复时间)
  2. 稳定性保障:基于SLI/SLO/SLA的服务质量量化管理,通过错误预算实现告警与迭代的平衡
  3. 性能优化:全链路性能瓶颈识别、资源利用率优化、接口响应时延优化
  4. 业务价值度量:从基础设施到应用再到业务的全链路可观测,实现IT指标与业务指标的关联映射
  5. 运维提效:自动化告警、降噪、自愈,降低人工运维成本,适配大规模微服务集群管理

二、核心组件深度拆解与原理体系

2.1 Prometheus:云原生Metrics监控事实标准

2.1.1 核心定位与架构

  • 定位:CNCF毕业项目,云原生场景下开源的时序数据库(TSDB)+ 监控告警引擎,是可观测性体系Metrics支柱的核心载体
  • 核心设计理念:Pull拉取模型、多维度标签数据模型、PromQL原生查询、云原生服务发现、去中心化架构
  • 完整核心架构:
    ┌─────────────────────────────────────────────────────────────┐
    │                        客户端/数据源层                        │
    │  Exporter集群 | 自定义SDK埋点 | Pushgateway | 远程存储端点  │
    └───────────────────────────┬─────────────────────────────────┘
                              ↓
    ┌─────────────────────────────────────────────────────────────┐
    │                      Prometheus Server核心                    │
    │  服务发现模块 → 抓取模块 →  PromQL引擎 → 本地TSDB存储 → 规则引擎 │
    └───────────────┬───────────────────────────┬─────────────────┘
                  ↓                           ↓
    ┌───────────────────────┐   ┌─────────────────────────────────┐
    │    远程存储集群       │   │         Alertmanager            │
    │ Thanos/VictoriaMetrics│   │ 告警路由/分组/抑制/静默/通知  │
    └───────────────────────┘   └─────────────────────────────────┘
    

2.1.2 核心概念与数据模型

  1. 时序数据模型指标名(Metric Name) + 标签集(Labels) = 唯一时序序列
    • 指标名:标识监控对象的测量维度(如node_cpu_seconds_total
    • 标签:键值对,实现多维度聚合与过滤,是Prometheus的核心能力,支持任意维度的指标切分
  2. 四大核心指标类型
指标类型 特性 适用场景
Counter(计数器) 只增不减,重启重置 请求量、错误量、调用次数、流量累计值
Gauge(仪表盘) 可增可减,实时数值 CPU使用率、内存使用率、连接数、队列长度
Histogram(直方图) 分桶统计,服务端计算,可聚合 接口响应时延、请求体大小、分位数统计(P95/P99)
Summary(摘要) 客户端计算分位数,不可聚合 低基数、单实例的精准分位数统计场景
  1. 核心基础概念:Job/Instance(监控任务与实例)、样本(Timestamp+Value)、告警规则、Recording Rule(预聚合规则)

2.1.3 核心能力与生态组件

  1. 核心能力
    • 原生K8s服务发现:支持Pod/Service/Endpoint/Node等资源的自动发现,完美适配云原生动态环境
    • PromQL查询语言:支持瞬时查询、范围查询、聚合运算、二元运算、函数计算,实现多维度指标分析
    • 规则引擎:支持Recording Rule(预聚合优化查询性能)与Alerting Rule(告警规则配置)
    • 联邦集群:支持层级化联邦部署,解决大规模多集群监控的性能瓶颈
    • 远程读写接口:支持对接Thanos、VictoriaMetrics等远程存储,解决单机存储容量与持久化问题
  2. 核心生态组件
    • 采集端:Node Exporter(主机监控)、各类中间件Exporter(MySQL/Redis/Kafka等)、Pushgateway(短生命周期任务指标采集)、客户端SDK(Go/Java/Python等)
    • 增强组件:Alertmanager(告警路由与降噪)、Thanos(全局视图、长期存储、高可用)、VictoriaMetrics(高性能时序存储替代方案)
    • 部署工具:Prometheus Operator(K8s环境声明式部署)、Helm Chart

2.2 Loki:云原生轻量级日志聚合系统

2.2.1 核心定位与设计理念

  • 定位:Grafana Labs出品,云原生场景下开源的日志聚合与分析系统,是可观测性体系Logs支柱的核心方案,对标ELK/EFK栈
  • 核心设计理念:只对标签建立索引,不对日志全文内容建立索引,与Prometheus采用完全对齐的标签体系,实现Metrics与Logs的无缝联动,大幅降低存储成本与运维复杂度,原生适配K8s容器环境
  • 核心优势:低存储成本、高扩展性、云原生友好、与Prometheus/Grafana深度集成、学习成本低(LogQL与PromQL语法对齐)

2.2.2 分布式架构与核心组件

Loki采用微服务化分布式架构,组件可独立扩缩容,适配大规模集群场景:

┌─────────────┐    ┌─────────────────────────────────────────┐
│ 日志采集端  │ →  │              Loki服务端                  │
│ Promtail/   │    │ Distributor → Ingester → 存储层         │
│ Fluent Bit  │    │ Querier/Ruler → Query Frontend          │
└─────────────┘    └─────────────────────────────────────────┘
  1. 采集层核心组件
    • Promtail:官方采集客户端,与Prometheus共享服务发现与标签配置,实现日志标签与指标标签100%对齐,是K8s环境首选采集方案
    • 兼容组件:Fluentd、Fluent Bit、Docker Driver等,适配异构采集场景
  2. 服务端核心组件
组件 核心职责
Distributor 日志写入入口,负责日志分发、校验、限流,一致性哈希分片
Ingester 日志写入组件,负责日志块的压缩、落盘,批量写入对象存储
Querier 日志查询入口,负责LogQL解析、并行查询Ingester内存数据与对象存储持久化数据
Query Frontend 查询前置代理,负责查询拆分、缓存、重试、限流,优化大规模查询性能
Ruler 规则引擎,支持日志预聚合与告警规则配置,对接Alertmanager
Compactor 日志压缩与合并组件,优化存储与查询性能
  1. 存储层
    • 索引存储:存储元数据与标签索引,支持Boltdb-Shipper、Cassandra等
    • 块存储:存储原始日志数据,支持S3、MinIO、阿里云OSS、腾讯云COS等对象存储,实现低成本海量日志存储

2.2.3 核心能力

  • LogQL查询语言:与PromQL语法高度兼容,支持日志过滤、管道操作、聚合计算、数值化指标转换,实现日志与指标的统一查询体验
  • 多租户原生支持:通过租户ID实现数据隔离,适配企业级多集群/多业务场景
  • 水平扩展能力:所有组件均可独立水平扩缩容,适配PB级日志规模
  • 深度生态联动:与Grafana原生集成,与Prometheus/Tempo实现一键跳转,完成「指标异常→日志详情→链路追踪」的全链路故障排查

2.3 Grafana:可观测性统一可视化与管控平台

2.3.1 核心定位

  • 定位:开源的统一可视化、分析与告警管控平台,是整个可观测性体系的统一控制台与用户交互入口,实现多数据源、多类型遥测数据的统一可视化、统一告警、统一运维管控
  • 核心价值:打破Metrics/Logs/Traces的数据孤岛,实现三大支柱的统一视图与联动分析,提供开箱即用的可视化能力,降低可观测性体系的使用门槛

2.3.2 核心架构与能力

  1. 核心分层架构
    ┌─────────────────────────────────────────────────────────────┐
    │                      前端交互层                              │
    │ Dashboard面板 | 即席查询Explore | 告警配置 | 权限管理      │
    └───────────────────────────┬─────────────────────────────────┘
                                ↓
    ┌─────────────────────────────────────────────────────────────┐
    │                      核心服务层                              │
    │ 数据源引擎 | 告警引擎 | 权限引擎 | 模板引擎 | 插件引擎     │
    └───────────────────────────┬─────────────────────────────────┘
                                ↓
    ┌─────────────────────────────────────────────────────────────┐
    │                      数据源接入层                            │
    │ Prometheus | Loki | Tempo | MySQL | ES | 云厂商监控 | 自定义 |
    └─────────────────────────────────────────────────────────────┘
    
  2. 核心能力
    • 多数据源统一接入:原生支持Prometheus、Loki、Tempo、Jaeger、MySQL、Elasticsearch、InfluxDB等上百种数据源,实现异构监控数据的统一管理
    • 可视化Dashboard能力:提供丰富的面板类型(折线图、柱状图、热力图、表格、仪表盘等),支持拖拽式配置、变量模板、钻取联动,实现从全局到细节的可视化下钻
    • Explore即席查询:提供原生的PromQL/LogQL查询编辑器,支持Metrics/Logs/Traces的联动查询,是故障根因定位的核心工具
    • 统一告警引擎(Grafana Alerting):实现多数据源的统一告警规则配置、告警分组、抑制、静默、通知,替代分散的告警配置,实现告警体系的统一管控
    • 企业级权限管控:支持多组织、多租户、RBAC细粒度权限控制,实现Dashboard、数据源、告警规则的权限隔离
    • 丰富的生态扩展:官方与社区提供海量开箱即用的Dashboard模板、数据源插件、面板插件,支持Grafana Cloud托管服务

三、完整监控告警体系 全链路架构与落地体系

3.1 监控告警体系整体分层架构

基于Prometheus+Grafana+Loki构建的完整监控告警体系,分为6个核心层级,实现从数据采集到价值闭环的全链路覆盖:

┌─────────────────────────────────────────────────────────────┐
│ 1. 数据采集层(Metrics/Logs/Traces统一采集,标签对齐)      │
├─────────────────────────────────────────────────────────────┤
│ 2. 数据存储层(时序数据/日志数据/链路数据的持久化与高可用) │
├─────────────────────────────────────────────────────────────┤
│ 3. 数据计算与查询层(PromQL/LogQL/预聚合/关联分析)         │
├─────────────────────────────────────────────────────────────┤
│ 4. 可视化与控制台层(Grafana统一Dashboard/分级大盘)        │
├─────────────────────────────────────────────────────────────┤
│ 5. 告警管控层(规则配置/检测/路由/降噪/通知/闭环)          │
├─────────────────────────────────────────────────────────────┤
│ 6. 运维运营层(SLO管理/故障自愈/容量规划/知识库)           │
└─────────────────────────────────────────────────────────────┘

3.2 各层级核心落地规范

3.2.1 数据采集层:统一采集与标签对齐规范

采集层是整个体系的基础,核心目标是全量覆盖、标签统一、低损耗、高可靠

  1. Metrics采集规范
    • 基础设施层:Node Exporter采集主机指标,Kube State Metrics采集K8s集群指标,cAdvisor采集容器指标
    • 中间件/数据库层:对应官方Exporter采集,统一标签规范
    • 应用层:通过OpenTelemetry SDK/客户端SDK实现自定义埋点,覆盖接口调用量、错误率、时延、业务指标
    • 短生命周期任务:通过Pushgateway实现指标推送采集
    • 核心规范:所有指标必须遵循统一命名规范{namespace}_{subsystem}_{name}_{unit},标签体系全局对齐,禁止高基数标签(如用户ID、订单号)
  2. Logs采集规范
    • 采集方案:K8s环境优先使用Promtail,异构环境使用Fluent Bit
    • 日志规范:应用输出结构化JSON日志,统一日志字段(trace_id、level、service、instance等),日志标签与Prometheus指标标签完全对齐
    • 采集规则:过滤无用日志,设置采集限流,避免日志风暴影响系统稳定性
  3. Traces采集规范:通过OpenTelemetry实现全链路埋点,trace_id贯穿Metrics/Logs/Traces,实现三大支柱的关联跳转

3.2.2 数据存储层:高可用与成本优化方案

  1. Metrics存储
    • 中小规模:Prometheus本地TSDB存储,设置合理的保留时间(默认15天)
    • 大规模/多集群:Thanos(全局视图+长期存储)、VictoriaMetrics(高性能替代方案),对接对象存储实现长期持久化
    • 核心优化:通过Recording Rule预聚合高基数指标,降低存储压力与查询延迟
  2. Logs存储
    • 架构选型:中小规模使用单体模式,大规模使用微服务分布式模式
    • 存储方案:对象存储存储原始日志,低成本海量存储;索引存储使用Boltdb-Shipper,简化运维
    • 核心优化:设置合理的日志保留时间,冷热数据分离,压缩存储,降低存储成本
  3. 通用规范:存储高可用部署,数据多副本备份,传输与存储加密,符合合规要求

3.2.3 可视化层:分级Dashboard大盘体系

基于Grafana构建分层级、可下钻、全覆盖的Dashboard体系,实现从业务到基础设施的全链路可视化:

  1. 一级大盘:业务总览大盘,核心业务指标(订单量、支付成功率、UV/PV、业务SLO达成率),面向管理层与业务负责人
  2. 二级大盘:应用服务大盘,核心RED指标(Rate请求量、Error错误率、Duration时延),面向开发与运维负责人
  3. 三级大盘:中间件/数据库大盘,MySQL/Redis/Kafka等中间件核心指标,面向中间件运维与开发
  4. 四级大盘:基础设施大盘,主机/K8s集群/网络/存储核心指标,面向运维团队
  5. 专项大盘:故障定位大盘、SLO大盘、容量规划大盘、安全审计大盘,面向特定场景

    核心规范:所有大盘必须配置统一变量模板(集群、命名空间、服务、实例),支持一键下钻,指标阈值标注,异常状态高亮

3.2.4 告警管控体系:全流程闭环设计

告警体系的核心目标是精准告警、降噪去重、分级响应、闭环管理,杜绝告警风暴与无效告警

  1. 告警全流程链路
    告警规则配置 → 异常检测 → 告警生成 → 路由分组 → 抑制静默 → 降噪去重 → 多渠道通知 → 故障处理 → 告警闭环 → 规则优化
    
  2. 核心组件分工
    • 规则配置:Prometheus Alerting Rule(指标告警)、Loki Ruler(日志告警)、Grafana Alerting(统一告警规则管理)
    • 告警路由与降噪:Alertmanager,核心能力包括:
      • 分组:将相同故障类型的告警合并,避免告警风暴
      • 抑制:高级别告警抑制低级别关联告警(如主机宕机告警抑制该主机上的所有应用告警)
      • 静默:故障处理期间临时屏蔽告警,避免重复通知
      • 去重:重复告警过滤,控制通知频率
    • 通知渠道:原生支持邮件、钉钉、企业微信、Slack、短信、电话,通过Webhook对接工单系统、OnCall轮值系统
  3. 告警规则设计黄金规范
    • 分级响应:按故障影响范围与严重程度分为P0-P4四级,对应不同的通知渠道与响应时效
    • 基于SLO告警:优先基于错误预算设置告警,替代静态阈值告警,避免无效告警,保障服务质量
    • 告警必含信息:故障等级、影响范围、异常指标详情、根因初步分析、处理预案链接、责任人
    • 核心原则:只告警需要人工介入处理的事件,所有告警必须有对应的处理预案,无预案的告警禁止上线
  4. 告警闭环管理:对接故障管理系统,实现告警从触发、处理、复盘、规则优化的全生命周期闭环,持续迭代告警规则,降低无效告警占比

四、三大支柱联动与企业级进阶体系

4.1 Metrics/Logs/Traces黄金三角联动

可观测性的核心进阶能力是打破数据孤岛,实现三大支柱的无缝联动,完成全链路故障排查,典型流程如下:

  1. 异常触发:Prometheus告警触发,Grafana大盘显示服务错误率突增、P99时延飙升
  2. 指标下钻:通过Grafana变量下钻,定位到异常服务与实例,查看异常指标的时间线与关联指标
  3. 日志关联:通过相同的标签(服务名、实例ID、Pod名)一键跳转到Loki,查看该实例对应时间窗口的错误日志,获取异常上下文
  4. 链路追踪:通过日志中的trace_id,一键跳转到Tempo/Jaeger,查看该请求的全链路调用拓扑,定位到故障节点与瓶颈接口
  5. 根因定位:结合三大支柱数据,完成根因分析,执行故障恢复,复盘优化

4.2 SLO体系落地(可观测性价值核心)

SLO(服务等级目标)是企业级可观测性体系的核心落地目标,实现服务质量的量化管理,与监控告警体系深度绑定:

  1. 核心概念
    • SLI(服务等级指标):量化服务质量的核心指标,如接口成功率、P99响应时延、服务可用性
    • SLO(服务等级目标):服务在一定周期内需要达成的SLI目标,如「月度接口成功率≥99.95%」
    • 错误预算:SLO允许的异常波动范围,如99.95%可用性对应的月度错误预算为21.6分钟
  2. 落地流程
    • 定义核心SLI:基于RED方法(Rate/Error/Duration)定义服务核心SLI指标,通过Prometheus采集计算
    • 设定SLO目标:基于业务需求与用户体验,设定合理的SLO目标与错误预算
    • 可视化:在Grafana构建SLO大盘,实时监控SLO达成率与错误预算消耗
    • 告警:基于错误预算消耗速率设置告警,替代传统静态阈值告警,实现「只在影响用户体验时告警」
    • 迭代优化:基于SLO达成情况,优化服务架构与迭代流程,平衡业务迭代与稳定性

4.3 大规模场景进阶优化方案

  1. 高基数问题治理
    • 核心痛点:Prometheus/Loki中高基数标签(如用户ID、订单号、trace_id)会导致时序序列爆炸,内存OOM、查询性能急剧下降
    • 解决方案:严格控制标签基数,禁止在指标标签中使用高基数字段;通过Recording Rule预聚合高基数指标;使用VictoriaMetrics等高基数优化的存储方案;Loki中高基数字段放在日志内容中,通过过滤器查询
  2. 多集群监控方案
    • 方案1:Prometheus联邦集群,层级化部署,全局Prometheus抓取区域Prometheus数据,实现全局视图
    • 方案2:Thanos方案,通过Thanos Sidecar对接每个集群的Prometheus,实现全局查询视图、长期存储、高可用
    • 方案3:VictoriaMetrics集群方案,统一接收多集群Prometheus的远程写入,实现全局统一存储与查询
  3. 高可用部署方案
    • Prometheus:多副本对等部署,Alertmanager集群部署,实现告警高可用
    • Loki:分布式微服务部署,Ingester多副本,实现写入高可用
    • Grafana:多副本部署,对接共享数据库(MySQL/PostgreSQL),实现配置持久化与高可用
  4. AIOps进阶能力
    • 异常检测:基于机器学习的时序数据异常检测,替代静态阈值,实现智能告警
    • 告警降噪:基于聚类算法的告警聚合,根因推荐,降低告警风暴
    • 故障自愈:告警触发后,通过Webhook调用自动化平台,执行扩缩容、重启、切流等自愈操作
    • 容量预测:基于时序数据的机器学习模型,预测资源容量瓶颈,提前扩容

五、最佳实践与避坑指南

5.1 核心最佳实践

  1. 指标设计最佳实践
    • 遵循命名规范,指标名带单位,语义清晰
    • 标签设计少而精,全局统一,避免高基数标签
    • 正确使用指标类型,Histogram优先于Summary用于分布式场景的分位数统计
    • 核心服务必须覆盖RED指标,基础设施必须覆盖USE指标(使用率/饱和度/错误)
  2. 日志采集最佳实践
    • 应用输出结构化JSON日志,统一关键字段
    • 日志标签与Prometheus指标标签100%对齐,实现无缝联动
    • 避免在日志中输出敏感信息,设置合理的日志级别
    • 控制日志输出量级,避免debug日志在生产环境全量输出
  3. 告警最佳实践
    • 告警分级,不同级别对应不同的响应流程与通知渠道
    • 基于错误预算的告警优先,减少静态阈值告警
    • 每一条告警必须有对应的处理预案,无预案不告警
    • 定期复盘告警,持续优化规则,降低无效告警占比
  4. 可视化最佳实践
    • 大盘分层设计,遵循从全局到局部的下钻逻辑
    • 核心指标优先展示,避免大盘信息过载
    • 统一阈值标注与异常高亮,提升异常识别效率
    • 复用变量模板,减少重复配置,提升大盘通用性

5.2 高频避坑指南

  1. 避免Prometheus高基数标签导致的内存OOM,严格控制标签的取值数量
  2. 避免告警风暴,通过分组、抑制、静默实现告警降噪,禁止无差别全量告警
  3. 避免Loki全文索引的错误用法,不要在标签中放入高基数字段,只对过滤维度高的字段建立标签
  4. 避免短生命周期任务的指标丢失,正确使用Pushgateway,设置合理的指标过期时间
  5. 避免分布式环境下的时间同步问题,所有节点必须配置NTP时间同步,否则会导致时序数据异常
  6. 避免Prometheus Pull模型的抓取超时,合理设置抓取间隔与超时时间,避免大指标量导致的抓取失败

六、从0到1落地实施路径

  1. 第一阶段:基础设施监控搭建
    部署Prometheus+Node Exporter+Kube State Metrics+Grafana,完成主机、K8s集群的基础设施监控,搭建基础可视化大盘
  2. 第二阶段:中间件与数据库监控
    部署对应中间件Exporter,完成MySQL/Redis/Kafka等核心中间件的监控,搭建中间件可视化大盘
  3. 第三阶段:日志体系搭建
    部署Promtail+Loki,完成容器与应用日志的采集、存储与查询,在Grafana中实现日志可视化与检索
  4. 第四阶段:应用与业务监控
    通过OpenTelemetry/SDK实现应用自定义埋点,覆盖RED指标与核心业务指标,搭建应用服务大盘与业务总览大盘
  5. 第五阶段:告警体系落地
    配置核心告警规则,部署Alertmanager,配置通知渠道与降噪策略,实现分级告警,完善告警处理预案
  6. 第六阶段:全链路可观测性落地
    集成分布式链路追踪(Tempo/Jaeger),实现Metrics/Logs/Traces三大支柱的联动,搭建故障定位专项大盘
  7. 第七阶段:企业级进阶优化
    落地SLO体系,完成大规模集群高可用部署与性能优化,对接自动化平台实现故障自愈,探索AIOps智能运维能力

七、生态全景与行业标准

  1. 核心开源生态:OpenTelemetry(统一埋点标准)、Thanos/VictoriaMetrics(Prometheus增强)、Tempo/Jaeger(链路追踪)、Alertmanager(告警管理)
  2. CNCF全景图:Prometheus、OpenTelemetry、Thanos均为CNCF毕业项目,是云原生可观测性的官方推荐标准
  3. 商业托管方案:Grafana Cloud、AWS CloudWatch、阿里云可观测平台ARMS、腾讯云可观测平台、华为云应用运维管理AOM
  4. 行业标准规范:OpenTelemetry遥测数据标准、SRE实践中的SLO体系规范、分布式系统可观测性最佳实践
相关文章
|
6天前
|
缓存 人工智能 自然语言处理
我对比了8个Claude API中转站,踩了不少坑,总结给你
本文是个人开发者耗时1周实测的8大Claude中转平台横向评测,聚焦Claude Code真实体验:以加权均价(¥/M token)、内部汇率、缓存支持、模型真实性及稳定性为核心指标。
2511 17
|
18天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
15992 48
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
24天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
34944 57
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
13天前
|
人工智能 JavaScript Ubuntu
低成本搭建AIP自动化写作系统:Hermes保姆级使用教程,长文和逐步实操贴图
我带着怀疑的态度,深度使用了几天,聚焦微信公众号AIP自动化写作场景,写出来的几篇文章,几乎没有什么修改,至少合乎我本人的意愿,而且排版风格,也越来越完善,同样是起码过得了我自己这一关。 这个其实OpenClaw早可以实现了,但是目前我觉得最大的区别是,Hermes会自主总结提炼,并更新你的写作技能。 相信就冲这一点,就值得一试。 这篇帖子主要就Hermes部署使用,作一个非常详细的介绍,几乎一步一贴图。 关于Hermes,无论你赞成哪种声音,我希望都是你自己动手行动过,发自内心的选择!
3054 29
|
3天前
|
云安全 人工智能 安全
|
3天前
|
人工智能 测试技术 API
阿里Qwen3.6-27B正式开源:网友直呼“太牛了”!
阿里云千问3.6系列重磅开源Qwen3.6-27B稠密大模型!官网:https://t.aliyun.com/U/JbblVp 仅270亿参数,编程能力媲美千亿模型,在SWE-bench等权威基准中表现卓越。支持多模态理解、本地部署及OpenClaw等智能体集成,已开放Hugging Face与ModelScope下载。
|
2天前
|
机器学习/深度学习 缓存 测试技术
DeepSeek-V4开源:百万上下文,Agent能力比肩顶级闭源模型
DeepSeek-V4正式开源!含V4-Pro(1.6T参数)与V4-Flash(284B参数)双版本,均支持百万token上下文。首创混合注意力架构,Agent能力、世界知识与推理性能全面领先开源模型,数学/代码评测比肩顶级闭源模型。
1342 6