CDN转存离线日志到OSS,实现更长时间的日志存储

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: CDN转存离线日志到OSS,实现更长时间的日志存储

业务场景

虽然CDN日志管理中提供了运营报表的功能,但时间范围仅可以选择2个月范围的。有时我们需要按照季度甚至年度来进行数据分析,并且希望能有趋势图来帮助我们分析网站流量的走向,这时候我们就可以借助OSS和数据湖来帮助我们实现。

准备内容

  • 开通OSS
  • 开通云原生数据湖分析(这个要提前开通,否则在CDN操作转存日志时会报AliyunServiceRoleForOpenAnalytics 找不到的错误)

操作步骤

1、开通日志转存服务

进入CDN控制台,在日志管理>离线日志>通过数据湖下,点击“立即开通”。

选择转存的域名和需要转存的字段,因为后期不能修改这些字段,所以建议全部勾选。开通后效果如下:

我们可以到OSS的控制台查看每个Bucket的使用情况:

2、查询日志内容

  • 登录到云原生数据湖控制台
  • 根据第一步CDN转存的OSS区域,选择DLA的区域,此处我们选择 上海
  • 账号管理>创建子账号,输入子账号名、密码后点击确定(这一步的账号设置是为了方便后续使用DMS登录查询使用)
  • 进入导航 Serverless Presto > SQL执行,可以找到对应的数据湖库 alicdn_offline_log ,里面有一张表 alicdn_offline_log_cdn 就是我们转存日志后的数据表

使用基本的SQL语法就可以查询出表中的数据了。

如果你比较习惯使用 DMS 来进行数据查询等操作,可以参考以下步骤链接DLA:

  • 进入导航 Serverless Presto > SQL访问点 创建服务访问点

  • 选择 虚拟网络虚拟交换机后点击确定。如果没有的话,你需要到VPC控制台在DLA所在的区域创建一个。
  • 创建成功后,会在VPC网络模块,自动生成 VPC内访问链接
  • 如果你希望公网访问DLA,那么可以 设置白名单 后开启公网网络,创建成功后会自动分配一个公网地址。如果需要将DMS的白名单加入,详情可参考 DMS设置白名单

  • 点击登录到DMS,输入之前我们创建的账号和密码,点击确定即可登录成功
  • 如果登录后发现你的实例里面没有 alicdn_offline_log 这个库,说明你的账号没有这个库的权限,需要为账号赋权。赋权需要到DLA控制台下的 Serverless Presto > SQL执行 进行操作,语句如下:
GRANT ALL PRIVILEGES
ON alicdn_offline_log.* 
TO {your_account}


PS:在刚开通文件转存时数据文件同步会需要一定的时间,所以查询会没有数据。转存的数据是从开通转存后才会进入到数据湖中,历史的数据不会同步。

3、转存表文件

对于转存后的日志信息,我们使用比较多的场景是读取分析,所以为了提高读取的效率存放到OSS的文件使用的是ORC列存储的文件类型。

alicdn-offline-log

数据湖库名

cdn

和库名一同组合成表名

ds=YYYYMMddHH

按照小时做的文件分区

batch_id=xxxxx

同一分区时间内的数据文件的批次,每个批次中会再分多个文件

我们查询出来的数据中也是包含 ds 和 batch_id 这两列的:


总结

通过转存日志,我们可以获得访问更详细的数据,再结合一些BI分析工具如阿里云的Quick BI 产品,我们就可以制作更丰富的报表了。

相关文章
|
12月前
|
存储 人工智能 运维
防御OSS Bucket泄露:RAM权限策略+日志审计+敏感数据扫描三重防护
云存储安全三重防护体系,聚焦RAM权限控制、日志审计与敏感数据扫描,通过策略精控、异常检测与主动扫描构建闭环防御,有效应对配置错误导致的数据泄露风险,提升企业云上数据安全性。
812 0
|
SQL 分布式计算 Serverless
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
381 0
|
存储 监控 数据可视化
SLS 虽然不是直接使用 OSS 作为底层存储,但它凭借自身独特的存储架构和功能,为用户提供了一种专业、高效的日志服务解决方案。
【9月更文挑战第2天】SLS 虽然不是直接使用 OSS 作为底层存储,但它凭借自身独特的存储架构和功能,为用户提供了一种专业、高效的日志服务解决方案。
694 9
|
SQL 分布式计算 监控
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
本文演示了使用 EMR Serverless Spark 产品搭建一个日志分析应用的全流程,包括数据开发和生产调度以及交互式查询等场景。
57126 7
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
|
文字识别 算法 安全
视觉智能开放平台产品使用合集之如何将返回的图片链接转存到OSS(对象存储服务)
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
272 0
|
存储 运维 监控
运维编排最佳实践:将运维编排任务执行记录投递到OSS/SLS
运维编排服务(Operation Orchestration Service),简称OOS,是全面、免费的云上自动化运维平台,提供运维任务的管理和执行。典型使用场景包括:事件驱动运维,批量操作运维,定时运维任务,跨地域运维等,OOS为重要运维场景提供审批,通知等功能。OOS帮您实现标准化运维任务,从...
运维编排最佳实践:将运维编排任务执行记录投递到OSS/SLS
|
存储 分布式计算 监控
操作审计最佳实践:将阿里云操作日志持续投递到您的 SLS/OSS
操作审计(ActionTrail)帮助您监控并记录阿里云账号的活动,包括通过阿里云控制台、OpenAPI、开发者工具对云上产品和服务的访问和使用行为,记录为操作日志。 操作审计支持所有阿里云账号的免开通服务,默认为所有账号记录并存储近 90 天的日志。但在实际应用中,受法律法规和企业审计标准的要求,...
1504 0
|
监控 安全 Apache
什么是Apache日志?为什么Apache日志分析很重要?
Apache是全球广泛使用的Web服务器软件,支持超过30%的活跃网站。它通过接收和处理HTTP请求,与后端服务器通信,返回响应并记录日志,确保网页请求的快速准确处理。Apache日志分为访问日志和错误日志,对提升用户体验、保障安全及优化性能至关重要。EventLog Analyzer等工具可有效管理和分析这些日志,增强Web服务的安全性和可靠性。
600 9
|
监控 容灾 算法
阿里云 SLS 多云日志接入最佳实践:链路、成本与高可用性优化
本文探讨了如何高效、经济且可靠地将海外应用与基础设施日志统一采集至阿里云日志服务(SLS),解决全球化业务扩展中的关键挑战。重点介绍了高性能日志采集Agent(iLogtail/LoongCollector)在海外场景的应用,推荐使用LoongCollector以获得更优的稳定性和网络容错能力。同时分析了多种网络接入方案,包括公网直连、全球加速优化、阿里云内网及专线/CEN/VPN接入等,并提供了成本优化策略和多目标发送配置指导,帮助企业构建稳定、低成本、高可用的全球日志系统。
1193 55