告别高昂出站费用:LoongCollector + CDN 打造跨云低成本可观测数据实时采集链路

简介: LoongCollector 作为新一代统一可观测 Agent,将持续致力于为用户提供高性能、低成本、易使用的跨云数据采集解决方案,助力企业构建统一的可观测平台。

作者:林润骑(太业)


背景


在多云战略日益普及的今天,企业往往需要在不同云平台部署业务系统,同时又希望将可观测数据统一采集到单一平台进行分析和管理。然而,跨云数据传输的高昂成本成为了企业实施统一可观测性战略的主要障碍。


我们发现,CloudFront 等 CDN 产品的出站流量价格更低,随用量增加还享有阶梯折扣。通过将 CDN 作为数据传输的“跳板”,可以大幅降低跨云传输成本。


基于这一发现,阿里云可观测团队设计了 LoongCollector + CDN 的跨云低成本采集方案:

  • LoongCollector 作为新一代可观测数据采集器,具备 10 倍于同类开源方案的吞吐性能,同时资源占用降低 50% 以上,确保数据链路的高效与稳定。
  • CDN 作为流量出口,利用其价格优势和全球加速能力,在保证传输质量的同时显著降低成本。


本方案可将跨云数据传输成本显著降低,让企业以更低的代价实现统一可观测平台的愿景。


现有方案 & 痛点

1774247489371_c523557c93034296aa878da5f14b9c8f.png

方案一:纯公网

日志服务 SLS 对外提供公网域名,用户可以直接通过公网将数据发送到 SLS,且 SLS 不收取入站流量费用。


痛点

  • 成本问题虽然 SLS 不收取入站流量费用,但跨云采集面临源云平台的出站流量费用。以 AWS 为例,数据传输到互联网的费用约为 $0.09/GB,对于大规模数据采集场景,成本不可忽视。
  • 网络质量问题跨云公网访问受网络波动影响较大,可能出现丢包、延迟增加等问题,影响数据采集的稳定性和实时性。


方案二:纯公网 + SLS 加速域名

SLS 传输加速利用全球分布的云机房,将全球各地用户对日志服务的访问,经过智能路由解析至就近的接入点,使用优化后的网络及协议极大地提升访问速度。


痛点

双重成本除了源云平台的出站流量费用之外,还需要承担 DCDN 的加速费用,整体成本进一步增加。


方案三:跨云专线打通

通过云服务提供商的专线服务(如 AWS Direct Connect、阿里云高速通道等)建立跨云专用网络连接。


痛点

  • 建设成本高专线建设需要一次性投入大量资金,包括端口费用、专线租用费用等。
  • 维护复杂需要专业团队维护专线连接,运维成本高。
  • 灵活性差专线带宽固定,难以应对突发流量需求。
  • 建设周期长从申请到开通通常需要数周甚至数月时间。


跨云低成本采集方案


EC2 每月有 100GB 的出站免费额度,但是 CloudFront 的出站和公网访问源站的价格要比 EC2 的价格更低。更重要的是,CDN 产品通常提供分级定价和批量折扣,随着使用量增加,单位成本会进一步降低。通过 CDN 的加速链路,将 SLS 服务设置成源站的方式,我们可以复用 CDN 的转发链路,实现以下优势:


  • 成本优化利用 CDN 的价格优势,降低数据传输成本。
  • 易于实施无需建设专线,配置简单,可快速上线。
  • 弹性扩展按需使用,无需预留带宽,可灵活应对流量波动。


CloudFront 区域数据传输到源站的价格:

1774247579400_157366deacca4b168e6920750b6a29b9.png

CloudFront 请求次数价格(每月前 100 万次免费):

1774247590168_502571a81aff44e7a2028a4d3a280425.png

EC2 出公网价格:

以美国地域为例:10TB 的数据,通过 CloudFront 传输,成本比 EC2 直接公网传输可以节约 70%。


整体方案

本方案以 CloudFront 为例,整体的采集方案如图所示:

1774247615345_1329fd9837bc4b89b5696721b3e689e2.png

架构概览

AWS EC2(LoongCollector)

  • 部署在 AWS 上的采集/转发程序
  • 主要职责:

a. 从本地/应用采集日志或数据

b. 按 SLS 写入协议组包(HTTP POST)

c. 将数据发送到目标 SLS


CloudFront

  • 作为数据链路的中转入口,提供统一的域名接入点与边缘节点接入能力
  • 主要职责:

a. 接收 LoongCollector 的请求(HTTP/HTTPS)

b. 按行为规则转发到源站(此处源站为阿里云 SLS 的写入端)


SLS(阿里云日志服务)

  • 作为日志/数据接收与存储分析平台
  • 对外暴露 HTTP(S) 写入接口
  • 写入后数据落入指定 Project / Logstore(图中 Project)


SLS ConfigServer(管控端)

  • 用于下发采集配置、心跳、元数据管理、鉴权信息刷新等“控制面”能力
  • 对数据量要求低、实时性要求相对可控


链路分层:管控链路 & 数据链路

A. 管控链路(Control Plane)——直连公网

特点:请求量小、数据量小、对带宽不敏感。

  • LoongCollector 直接通过公网访问 SLS ConfigServer
  • 典型动作包括:
  • 拉取采集配置/规则
  • 选择直连公网的原因:
  • 控制流量小,对成本与链路质量要求不高
  • 架构更简单(减少中转层)


B. 数据链路(Data Plane)——通过 CloudFront 转发到 SLS

特点:持续写入、对稳定性/连通性敏感,可能存在跨境网络波动。

  • LoongCollector 将日志数据以 HTTP POST 方式发送到 CloudFront 域名
  • CloudFront 再将请求回源转发到阿里云 SLS 写入端
  • SLS 接收后写入指定 Project/Logstore


CloudFront 详细配置

这里以采集数据到 SLS 上海地域的 Project 为例。


源配置

注意事项:

1. SLS 的域名不要带 Project 前缀。

2. CloudFront 访问 SLS 域名,使用 HTTP 或者 HTTPS 都可以。


行为配置

1774248046676_2ea91af1430e40a9887be1a6cf5a4f81.png

注意事项:

1. CDN 默认会缓存响应内容,但 LoongCollector 发送数据是 POST 请求,需要配置为不缓存。

2. CloudFront 对 SLS 域名的请求,需要转发除 HOST 外所有的 header。


CloudFront 的域名验证

直接 Curl CloudFront 域名,如果有如下返回,则说明已配置成功。


{"Error":{"Code":"OLSInvalidMethod","Message":"The script name is invalid : /","RequestId":"XXX"}}

1774248089052_2b93e061b39b46a9922e15e1d3fe1d4c.png


LoongCollector 详细配置


使用 HTTP 协议发送数据


# /usr/local/ilogtail/ilogtail_config.json
{
    "primary_region" : "cn-shanghai",
    "config_servers" :
    [
        "https://logtail.cn-shanghai.log.aliyuncs.com"
    ],
    "data_servers" :
    [
        {
            "region" : "cn-shanghai",
            "disable_subdomain" : true,
            "endpoint_list": [
                "http://xxx.cloudfront.net"
            ]
        }
    ],
    ...
}


关键配置说明:

  • config_servers 中,配置 SLS 公网域名,标准格式为 logtail.${region}.log.aliyuncs.com
  • data_servers 中
  • 只需要配置主地域,endpoint_list 中设置成 HTTP 的 CloudFront 域名
  • disable_subdomain: true(关闭子域名转发)


使用 HTTPS 协议发送数据


# /usr/local/ilogtail/ilogtail_config.json
{
    "primary_region" : "cn-shanghai",
    "config_servers" :
    [
        "https://logtail.cn-shanghai.log.aliyuncs.com"
    ],
    "data_servers" :
    [
        {
            "region" : "cn-shanghai",
            "disable_subdomain" : true,
            "endpoint_list": [
                "https://xxx.cloudfront.net"
            ]
        }
    ],
    "enable_host_ip_replace": false,
    ...
}


关键配置说明:

  • config_servers 中,配置 SLS 公网域名,标准格式为 logtail.${region}.log.aliyuncs.com
  • data_servers
  • 只需要配置主地域,endpoint_list 中设置成 HTTPS 的 CloudFront 域名
  • disable_subdomain: true(关闭子域名转发)
  • enable_host_ip_replace: false(关闭 LoongCollector 内部的 DNS 解析)


LoongCollector 资源参数配置

LoongCollector 是部署在 EC2 或者节点上,因此需要预估单机采集的日志的原始数据量,调整资源参数,具体可以参考帮助文档:https://help.aliyun.com/zh/sls/select-a-network-type

1774248652850_48b6432f13284c9daafe76c49a1018ea.png

PS:LoongCollector 进行数据发送的时候,默认采用 LZ4 进行压缩,针对日志数据,可以有 5 ~ 10 倍的压缩效果。


网络质量测试结果

测试场景:

  • 韩国地域 EC2 采集数据到韩国地域 SLS。
  • 数据包压缩后 800K 左右。

可以看到在同地域场景下,CloudFront 的访问质量跟直接公网访问基本持平,HTTP 的访问延迟还是略低一些。


限制说明

  • LoongCollector 版本需要>=3.3.0。
  • 目前仅支持日志数据采集,时序、主机监控等数据还不支持通过 CDN 链路发送。
  • 本功能逐步按照地域灰度中,如需使用,可以联系 SLS 技术支持人员。


总结与展望


方案总结


本文介绍的跨云低成本可观测数据实时采集方案,通过 CDN + LoongCollector 的组合,实现了:


1. 成本降低相比纯公网方案,显著降低跨云数据传输成本。

2. 性能提升利用 CDN 的全球节点和 LoongCollector 的高性能,提升数据采集速度和稳定性。

3. 易于实施配置简单,无需建设专线,可快速上线。

4. 灵活扩展按需付费,自动弹性扩展,适应流量波动。


LoongCollector 作为新一代统一可观测 Agent,将持续致力于为用户提供高性能、低成本、易使用的跨云数据采集解决方案,助力企业构建统一的可观测平台。


参考资料:

[1] LoongCollector 官方文档

https://github.com/alibaba/loongcollector

[2] AWS CloudFront 官方文档

https://docs.aws.amazon.com/cloudfront/

[3] 阿里云 SLS 官方文档

https://help.aliyun.com/zh/sls/

相关文章
|
3月前
|
人工智能 前端开发 开发工具
从 ReAct 到 Ralph Loop:AI Agent 的持续迭代范式
Ralph Loop 通过外部循环机制,解决 Agent“半途而废”的痛点,实现可靠自主编程范式。
1298 39
|
19天前
|
人工智能 自然语言处理 安全
超简单!用云效 + AI 编程工具智能管理代码仓库
本文将介绍如何通过阿里云云效 MCP 提升日常代码管理的效率。传统的 Git 命令行操作将被自然语言交互所取代,大幅降低代码管理的学习成本和操作复杂度。
|
12天前
|
存储 人工智能 开发者
AI Agent 越来越难迭代,你缺少的不是功能
还在担心 Token 消耗过多?还在纠结 Agent 难以优化?不改一行业务代码,LoongSuite Python 探针帮你把一次请求从头到尾捋顺:哪一步访问了什么模型、调用了什么工具、召回了哪些文档、花费了多少 token、上下文发生了什么变化。
106 20
|
1月前
|
人工智能 运维 监控
你的 AI Agent 真的在受控运行吗?
以 OpenClaw 为案例,从行业威胁态势与运行时防护的固有局限出发,系统拆解 AI Agent 可观测体系的设计方法论:通过 Session 审计日志、应用日志与 OpenTelemetry 遥测三条数据管道,构建行为审计、威胁检测、成本管控与运维观测的完整闭环。
你的 AI Agent 真的在受控运行吗?
|
3月前
|
存储 人工智能 监控
数据跨境、隐私泄露、审计溯源——出海企业三大安全必答题
AI 出海刚起步就被罚?阿里云日志服务 SLS 来了! 提供从跨域集中审计、智能数据脱敏到全链路溯源的一站式解决方案,让合规不再是负担,而是全球化竞争的护城河。
384 33
|
5月前
|
存储 人工智能 运维
UModel 数据治理:运维世界模型构建实践
阿里云推出 UModel 统一建模框架,将实体、关系、数据、知识、行动融为一体,为大模型提供可推理、可交互的运维世界模型,推动可观测从‘被动响应’迈向‘主动优化’的新阶段。
901 66
|
1月前
|
人工智能 机器人 Serverless
打造云端数字员工:OpenClaw 的 SAE 弹性托管实践
OpenClaw GitHub星标破14万,标志着AI从对话框迈向自主智能体,以轻量CLI启动本地网关,提供安全、持久、可扩展的Agent运行时。依托阿里云SAE全托管Serverless容器环境,开箱即用、秒级弹性扩缩与跨可用区高可用,让AI真正成为可交付结果的“数字员工”。
|
3月前
|
存储 人工智能 安全
一文详解Kimi的AI Agent如何跑在阿里云上
Kimi携手阿里云,基于ACK与ACS Agent Sandbox构建端到端Agent基础设施:实现秒级沙箱启动、万级并发弹性调度、会话级状态保持及强安全隔离,支撑“深度研究”“OK Computer”等智能体产品稳定高效运行。(239字)
788 1
一文详解Kimi的AI Agent如何跑在阿里云上
|
3月前
|
存储 数据采集 弹性计算
面向多租户云的 IO 智能诊断:从异常发现到分钟级定位
当 iowait 暴涨、IO 延迟飙升时,你是否还在手忙脚乱翻日志?阿里云 IO 一键诊断基于动态阈值模型与智能采集机制,实现异常秒级感知、现场自动抓取、根因结构化输出,让每一次 IO 波动都有据可查,真正实现从“被动响应”到“主动洞察”的跃迁。
422 88
|
1月前
|
运维 监控 Cloud Native
巨人网络《超自然行动组》携手阿里云打造云原生游戏新范式
通过 ACK(容器服务)、ESS(弹性伸缩)、网络型负载均衡 NLB、OpenKruiseGame(OKG)、SLS(日志服务)、ARMS(应用实时监控服务)、阿里云原生防护(Native Protection),以及云原生数据库 polardb 和 Redis 的深度协同,巨人网络构建了一套高弹性、高可用、低成本、智能化、高安全且高性能数据处理能力的新一代游戏基础设施,为行业树立了云原生落地的标杆。如今,随着日活跃用户(DAU)突破千万大关,这套技术体系,已经成为游戏行业“云原生转型”的标杆案例。
439 19