CDN转存离线日志到OSS,实现更长时间的日志存储

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
简介: CDN转存离线日志到OSS,实现更长时间的日志存储

业务场景

虽然CDN日志管理中提供了运营报表的功能,但时间范围仅可以选择2个月范围的。有时我们需要按照季度甚至年度来进行数据分析,并且希望能有趋势图来帮助我们分析网站流量的走向,这时候我们就可以借助OSS和数据湖来帮助我们实现。

准备内容

  • 开通OSS
  • 开通云原生数据湖分析(这个要提前开通,否则在CDN操作转存日志时会报AliyunServiceRoleForOpenAnalytics 找不到的错误)

操作步骤

1、开通日志转存服务

进入CDN控制台,在日志管理>离线日志>通过数据湖下,点击“立即开通”。

选择转存的域名和需要转存的字段,因为后期不能修改这些字段,所以建议全部勾选。开通后效果如下:

我们可以到OSS的控制台查看每个Bucket的使用情况:

2、查询日志内容

  • 登录到云原生数据湖控制台
  • 根据第一步CDN转存的OSS区域,选择DLA的区域,此处我们选择 上海
  • 账号管理>创建子账号,输入子账号名、密码后点击确定(这一步的账号设置是为了方便后续使用DMS登录查询使用)
  • 进入导航 Serverless Presto > SQL执行,可以找到对应的数据湖库 alicdn_offline_log ,里面有一张表 alicdn_offline_log_cdn 就是我们转存日志后的数据表

使用基本的SQL语法就可以查询出表中的数据了。

如果你比较习惯使用 DMS 来进行数据查询等操作,可以参考以下步骤链接DLA:

  • 进入导航 Serverless Presto > SQL访问点 创建服务访问点

  • 选择 虚拟网络虚拟交换机后点击确定。如果没有的话,你需要到VPC控制台在DLA所在的区域创建一个。
  • 创建成功后,会在VPC网络模块,自动生成 VPC内访问链接
  • 如果你希望公网访问DLA,那么可以 设置白名单 后开启公网网络,创建成功后会自动分配一个公网地址。如果需要将DMS的白名单加入,详情可参考 DMS设置白名单

  • 点击登录到DMS,输入之前我们创建的账号和密码,点击确定即可登录成功
  • 如果登录后发现你的实例里面没有 alicdn_offline_log 这个库,说明你的账号没有这个库的权限,需要为账号赋权。赋权需要到DLA控制台下的 Serverless Presto > SQL执行 进行操作,语句如下:
GRANT ALL PRIVILEGES
ON alicdn_offline_log.* 
TO {your_account}


PS:在刚开通文件转存时数据文件同步会需要一定的时间,所以查询会没有数据。转存的数据是从开通转存后才会进入到数据湖中,历史的数据不会同步。

3、转存表文件

对于转存后的日志信息,我们使用比较多的场景是读取分析,所以为了提高读取的效率存放到OSS的文件使用的是ORC列存储的文件类型。

alicdn-offline-log

数据湖库名

cdn

和库名一同组合成表名

ds=YYYYMMddHH

按照小时做的文件分区

batch_id=xxxxx

同一分区时间内的数据文件的批次,每个批次中会再分多个文件

我们查询出来的数据中也是包含 ds 和 batch_id 这两列的:


总结

通过转存日志,我们可以获得访问更详细的数据,再结合一些BI分析工具如阿里云的Quick BI 产品,我们就可以制作更丰富的报表了。

相关实践学习
Serverless极速搭建Hexo博客
本场景介绍如何使用阿里云函数计算服务命令行工具快速搭建一个Hexo博客。
相关文章
|
3月前
|
存储 关系型数据库 MySQL
MySQL——数据库备份上传到阿里云OSS存储
MySQL——数据库备份上传到阿里云OSS存储
168 0
|
15天前
|
存储 弹性计算 数据管理
阿里云对象存储OSS收费标准,存储、流量和请求等多个计费项
阿里云对象存储OSS提供按量付费与包年包月两种计费方式,涵盖存储、流量、请求等费用。标准存储按量付费0.09元/GB/月,包年包月40GB起售,价格9元/年。公网流量出方向收费,内网及上传免费。具体费用视使用情况而定,详情见官网。
127 0
|
2月前
|
存储 监控 数据可视化
SLS 虽然不是直接使用 OSS 作为底层存储,但它凭借自身独特的存储架构和功能,为用户提供了一种专业、高效的日志服务解决方案。
【9月更文挑战第2天】SLS 虽然不是直接使用 OSS 作为底层存储,但它凭借自身独特的存储架构和功能,为用户提供了一种专业、高效的日志服务解决方案。
150 9
|
3月前
|
存储 JavaScript 前端开发
Vue中实现图片上传,上传后的图片回显,存储图片到服务器 【使用对象存储OSS】
这篇文章介绍了在Vue中实现图片上传到阿里云OSS对象存储服务的完整流程,包括服务端签名直传的前提知识、后端设置、前端组件封装以及图片上传和回显的效果展示。
|
3月前
|
存储 Java 关系型数据库
实时计算 Flink版产品使用问题之以jar包方式同步数据是否需要定义存储oss的位置
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
5月前
|
存储 DataWorks 关系型数据库
DataWorks产品使用合集之在使用数据集成中的同步任务从mysql同步表到oss,存储为csv时,最终生成的文件中没有表头,这个属性可以在哪里配置么
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
存储 分布式计算 大数据
MaxCompute产品使用合集之是否支持创建OSS外部表为分区表,并访问OSS上以分区方式存储的数据
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
消息中间件 数据采集 关系型数据库
离线数仓(三)【业务日志采集平台搭建】(2)
离线数仓(三)【业务日志采集平台搭建】
|
5月前
|
存储 消息中间件 Kafka
离线数仓(三)【业务日志采集平台搭建】(1)
离线数仓(三)【业务日志采集平台搭建】
|
5月前
|
消息中间件 存储 JSON
离线数仓(二)【用户行为日志采集平台搭建】(2)
离线数仓(二)【用户行为日志采集平台搭建】