CDN转存离线日志到OSS,实现更长时间的日志存储

本文涉及的产品
对象存储 OSS,20GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
对象存储 OSS,恶意文件检测 1000次 1年
简介: CDN转存离线日志到OSS,实现更长时间的日志存储

业务场景

虽然CDN日志管理中提供了运营报表的功能,但时间范围仅可以选择2个月范围的。有时我们需要按照季度甚至年度来进行数据分析,并且希望能有趋势图来帮助我们分析网站流量的走向,这时候我们就可以借助OSS和数据湖来帮助我们实现。

准备内容

  • 开通OSS
  • 开通云原生数据湖分析(这个要提前开通,否则在CDN操作转存日志时会报AliyunServiceRoleForOpenAnalytics 找不到的错误)

操作步骤

1、开通日志转存服务

进入CDN控制台,在日志管理>离线日志>通过数据湖下,点击“立即开通”。

选择转存的域名和需要转存的字段,因为后期不能修改这些字段,所以建议全部勾选。开通后效果如下:

我们可以到OSS的控制台查看每个Bucket的使用情况:

2、查询日志内容

  • 登录到云原生数据湖控制台
  • 根据第一步CDN转存的OSS区域,选择DLA的区域,此处我们选择 上海
  • 账号管理>创建子账号,输入子账号名、密码后点击确定(这一步的账号设置是为了方便后续使用DMS登录查询使用)
  • 进入导航 Serverless Presto > SQL执行,可以找到对应的数据湖库 alicdn_offline_log ,里面有一张表 alicdn_offline_log_cdn 就是我们转存日志后的数据表

使用基本的SQL语法就可以查询出表中的数据了。

如果你比较习惯使用 DMS 来进行数据查询等操作,可以参考以下步骤链接DLA:

  • 进入导航 Serverless Presto > SQL访问点 创建服务访问点

  • 选择 虚拟网络虚拟交换机后点击确定。如果没有的话,你需要到VPC控制台在DLA所在的区域创建一个。
  • 创建成功后,会在VPC网络模块,自动生成 VPC内访问链接
  • 如果你希望公网访问DLA,那么可以 设置白名单 后开启公网网络,创建成功后会自动分配一个公网地址。如果需要将DMS的白名单加入,详情可参考 DMS设置白名单

  • 点击登录到DMS,输入之前我们创建的账号和密码,点击确定即可登录成功
  • 如果登录后发现你的实例里面没有 alicdn_offline_log 这个库,说明你的账号没有这个库的权限,需要为账号赋权。赋权需要到DLA控制台下的 Serverless Presto > SQL执行 进行操作,语句如下:
GRANT ALL PRIVILEGES
ON alicdn_offline_log.* 
TO {your_account}


PS:在刚开通文件转存时数据文件同步会需要一定的时间,所以查询会没有数据。转存的数据是从开通转存后才会进入到数据湖中,历史的数据不会同步。

3、转存表文件

对于转存后的日志信息,我们使用比较多的场景是读取分析,所以为了提高读取的效率存放到OSS的文件使用的是ORC列存储的文件类型。

alicdn-offline-log

数据湖库名

cdn

和库名一同组合成表名

ds=YYYYMMddHH

按照小时做的文件分区

batch_id=xxxxx

同一分区时间内的数据文件的批次,每个批次中会再分多个文件

我们查询出来的数据中也是包含 ds 和 batch_id 这两列的:


总结

通过转存日志,我们可以获得访问更详细的数据,再结合一些BI分析工具如阿里云的Quick BI 产品,我们就可以制作更丰富的报表了。

相关文章
|
2月前
|
存储 运维 安全
阿里云国际站OSS与自建存储的区别
阿里云国际站对象存储OSS提供海量、安全、低成本的云存储解决方案。相比自建存储,OSS具备易用性强、稳定性高、安全性好、成本更低等优势,支持无限扩展、自动冗余、多层防护及丰富增值服务,助力企业高效管理数据。
|
5月前
|
存储 人工智能 Kubernetes
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
阿里云对象存储OSS是一款海量、安全、低成本、高可靠的云存储服务,是用户在云上存储的高性价比选择…
|
6月前
|
存储 Kubernetes 对象存储
StrmVol存储卷:如何解锁K8s对象存储海量小文件访问性能新高度?
如何提升海量文件的数据读取速率,对于AI训练集管理、量化回测、时序日志分析等场景尤为重要。阿里云容器服务(ACK))支持StrmVol类型存储卷,基于底层虚拟块设备及内核态文件系统,显著降低海量小文件访问延迟。
|
6月前
|
存储 运维 监控
SelectDB 实现日志高效存储与实时分析,完成任务可领取积分、餐具套装/水杯/帆布包!
SelectDB 实现日志高效存储与实时分析,完成任务可领取积分、餐具套装/水杯/帆布包!
|
2月前
|
存储 安全 API
某网盘不好用?有没有类似某网盘的存储软件?阿里云国际站 OSS:云存储的全能助手,你 get 了吗?
在数据爆炸时代,阿里云国际站OSS提供海量、安全、低成本的云存储服务,支持多种数据类型存储与灵活访问,助力企业与个人高效管理数据,降低存储成本。开通简便,操作友好,是理想的云端数据解决方案。
|
6月前
|
存储 Kubernetes 对象存储
StrmVol 存储卷:解锁 K8s 对象存储海量小文件访问性能新高度
本文介绍了阿里云容器服务(ACK)支持的StrmVol存储卷方案,旨在解决Kubernetes环境中海量小文件访问性能瓶颈问题。通过虚拟块设备与内核态文件系统(如EROFS)结合,StrmVol显著降低了小文件访问延迟,适用于AI训练集加载、时序日志分析等场景。其核心优化包括内存预取加速、减少I/O等待、内核态直接读取避免用户态切换开销,以及轻量索引快速初始化。示例中展示了基于Argo Workflows的工作流任务,模拟分布式图像数据集加载,测试结果显示平均处理时间为21秒。StrmVol适合只读场景且OSS端数据无需频繁更新的情况,详细使用方法可参考官方文档。
704 144
|
5月前
|
存储 人工智能 测试技术
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
OSSFS 2.0通过轻量化协议设计、协程化技术及FUSE3低级API重构,实现大文件顺序读写与小文件高并发加载的显著提升,在实际测试中表现出高达数十倍的吞吐量增长。适用于机器学习训练、推理等对高带宽低延迟要求严苛的场景,同时支持静态和动态挂载方式,方便用户在ACK集群中部署使用。
559 34
|
4月前
|
存储 关系型数据库 MySQL
成本直降30%!RDS MySQL存储自动分层实战:OSS冷热分离架构设计指南
在日均订单量超500万的场景下,MySQL数据年增200%,但访问集中在近7天(85%)。通过冷热数据分离,将历史数据迁移至OSS,实现存储成本下降48%,年省72万元。结合RDS、OSS与Redis构建分层架构,自动化管理数据生命周期,优化查询性能与资源利用率,支撑PB级数据扩展。
265 3
|
5月前
|
存储 数据可视化 开发工具
【Application Insights】Application Insights存储的Function App的日志存在"Operation Link" 为空的情况
在将 Azure Functions 升级到 .NET 8 和 Isolated Worker 模式后,Application Insights 的请求日志中 `operation_Link` 字段为空,导致分布式追踪无法正常关联。解决方法包括:确保引用正确的 SDK 包(如 `Microsoft.Azure.Functions.Worker.ApplicationInsights`),正确配置 Application Insights 服务,移除默认日志过滤规则,并使用最新依赖包以支持分布式追踪。通过这些步骤,可恢复端到端事务视图的可视化效果。
107 10