DLA新函数发布:事件路径分析

简介: 概述业务系统常常会产生大量的事件日志和数据,记录各种事件发生的相关信息,一条事件日志或者数据通常包含如事件ID,事件名称,时间点等。针对该类事件日志或者数据,DLA新提供了事件路径分析的聚合函数,主要支持按照事件时间点、时间戳得到事件顺序发生的时间序列,某类或者多类、某个或者多个事件发生的时间间隔序列等等。

概述

业务系统常常会产生大量的事件日志和数据,记录各种事件发生的相关信息,一条事件日志或者数据通常包含如事件ID,事件名称,时间点等。针对该类事件日志或者数据,DLA新提供了事件路径分析的聚合函数,主要支持按照事件时间点、时间戳得到事件顺序发生的时间序列,某类或者多类、某个或者多个事件发生的时间间隔序列等等。

数据模型

以下举例说明这类事件数据的数据模型,后面函数示例也以该示例数据为例。数据包含
user_id,event_time,event_id,event_name,event_attr,event_date等6个字段,本例中每个字段间用|分隔,该类数据或者日志可以存储在多种数据源中,比如对象存储、数据库、KV等(可以访问:https://zhuanlan.zhihu.com/data-lake-analytics , 查看更多DLA的云上数据能力、场景和使用方法介绍)。

4490015|1483266703322|10002|登陆|{}|2017-01-01
4490015|1483220795802|10005|收藏商品|{}|2017-01-01
4490022|1483233554546|10004|浏览商品|{"brand": "Apple", "price": 3500}|2017-01-01
4490022|1483279486394|10002|登陆|{}|2017-01-01
4490022|1483220124362|10002|登陆|{}|2017-01-01
4490022|1483233099062|10002|登陆|{}|2017-01-01
4490022|1483267998231|10010|退订商品|{}|2017-01-01
4490029|1483222204303|10007|生成订单|{"price_all": 4500}|2017-01-01
4490029|1483240004108|10004|浏览商品|{"brand": "LianX", "price": 7500}|2017-01-01
4490029|1483254745351|10006|加入购物车|{}|2017-01-01

本例,假设上面数据以sample.txt文本存储在阿里云对象存储OSS中,路径为:

oss://your_test_data_bucket/event_sample_data/sample.txt

则建schema、建表:

CREATE DATABASE `basic_test`
WITH DBPROPERTIES (
    catalog = 'oss',
    location = 'oss://your_test_data_bucket/'
)
COMMENT '';


CREATE EXTERNAL TABLE IF NOT EXISTS `basic_test`.`event_test` (
    `user_id` bigint COMMENT '',
    `event_time` bigint COMMENT '',
    `event_id` int COMMENT '',
    `event_name` varchar COMMENT '',
    `event_attr` varchar COMMENT '',
    `event_date` date COMMENT ''
)
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY '\t'
STORED AS `TEXTFILE`
LOCATION 'oss://your_test_data_bucket/event_sample_data/'
TBLPROPERTIES (
    'auto.create.location' = 'true'
);

函数说明

1. event_sequence

说明:输出事件发生的时间点序列数组。

event_sequence(
  boolean desc,     -- 是否按照时间从大到小排列(可选,默认false,按照从小到大)
  bigint limit,     -- 输出的时间点序列数组的大小(可选,默认100,最大1000)
  bigint timeInMS   -- 事件发生的时间点、时间戳(必选,时间戳的long型,到毫秒)
)--> array[bigint] 

例如:

SELECT event_name, event_sequence(event_time) AS a 
FROM `basic_test`.`event_test`
GROUP BY 1 
ORDER BY 1;

-->

+-----------------+--------------------------------------------------------------+
| event_name      | a                                                            |
+-----------------+--------------------------------------------------------------+
| 加入购物车      | [1483254745351]                                              |
| 收藏商品        | [1483220795802]                                              |
| 浏览商品        | [1483233554546, 1483240004108]                               |
| 生成订单        | [1483222204303]                                              |
| 登陆            | [1483220124362, 1483233099062, 1483266703322, 1483279486394] |
| 退订商品        | [1483267998231]                                              |
+-----------------+--------------------------------------------------------------+


SELECT event_name, event_sequence(true, 3, event_time) AS a 
FROM `basic_test`.`event_test`
GROUP BY 1 
ORDER BY 1;

-->

+-----------------+-----------------------------------------------+
| event_name      | a                                             |
+-----------------+-----------------------------------------------+
| 加入购物车      | [1483254745351]                               |
| 收藏商品        | [1483220795802]                               |
| 浏览商品        | [1483240004108, 1483233554546]                |
| 生成订单        | [1483222204303]                               |
| 登陆            | [1483279486394, 1483266703322, 1483233099062] |
| 退订商品        | [1483267998231]                               |
+-----------------+-----------------------------------------------+

2. event_interval

说明:输出事件发生的时间点间隔序列数组。如果事件只发生一次,则无间隔值,对应数组输出空。

event_interval(
  boolean desc,         -- 是否按照时间从大到小排列(可选,默认false,按照从小到大)
  bigint limit,         -- 输出的时间点间隔序列数组的大小(可选,默认100,最大1000)
  bigint timeInMS,      -- 事件发生的时间点、时间戳(必选,时间戳的long型,到毫秒)
  varchar timeZoneKey,  -- 指定的时区名称(可选,默认为系统(DLA服务所在region)当前时区)
  varchar timeUnit      -- 要显示的时间点间隔的时间度量单位(*)
)--> array[bigint]
  
  
* 其中,时间度量单位目前支持:
 YEAR, QUARTER, MONTH, WEEK, DAY, HOUR, MINUTE, SECOND, MILLISECOND

例如:

SELECT event_name,
       event_interval(event_time, 'second') as a
FROM `basic_test`.`event_test`
GROUP BY 1
ORDER BY 1;

-->

+-----------------+-----------------------+
| event_name      | a                     |
+-----------------+-----------------------+
| 加入购物车      | []                    |
| 收藏商品        | []                    |
| 浏览商品        | [6449]                |
| 生成订单        | []                    |
| 登陆            | [12974, 33604, 12783] |
| 退订商品        | []                    |
+-----------------+-----------------------+



SELECT event_name,
       event_interval(true, 3, event_time, current_timezone(), 'millisecond') as a
FROM `basic_test`.`event_test`
GROUP BY 1
ORDER BY 1;

-->

+-----------------+-----------------------------------+
| event_name      | a                                 |
+-----------------+-----------------------------------+
| 加入购物车      | []                                |
| 收藏商品        | []                                |
| 浏览商品        | [-6449562]                        |
| 生成订单        | []                                |
| 登陆            | [-12783072, -33604260, -12974700] |
| 退订商品        | []                                |
+-----------------+-----------------------------------+



SELECT event_name,
       event_interval(event_time, 'UTC', 'day') as a
FROM `basic_test`.`event_test`
GROUP BY 1
ORDER BY 1;

-->

+-----------------+-----------+
| event_name      | a         |
+-----------------+-----------+
| 加入购物车      | []        |
| 收藏商品        | []        |
| 浏览商品        | [0]       |
| 生成订单        | []        |
| 登陆            | [0, 0, 0] |
| 退订商品        | []        |
+-----------------+-----------+

Data Lake Analytics首购和流量包优惠

首购用户1元10TB,流量包阶梯折扣优惠:https://et.aliyun.com/bdad/datalake
产品详情:https://www.aliyun.com/product/datalakeanalytics
云栖社区:https://yq.aliyun.com/teams/396
知乎社区:https://zhuanlan.zhihu.com/data-lake-analytics

相关实践学习
对象存储OSS快速上手——如何使用ossbrowser
本实验是对象存储OSS入门级实验。通过本实验,用户可学会如何用对象OSS的插件,进行简单的数据存、查、删等操作。
相关文章
|
2天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23281 2
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
4天前
|
人工智能 API 开发工具
Claude Code国内安装:2026最新保姆教程(附cc-switch配置)
Claude Code是我目前最推荐的AI编程工具,没有之一。 它可能不是最简单的,但绝对是上限最高的。一旦跑通安装、接上模型、定好规范,你会发现很多原本需要几小时的工作,现在几分钟就能搞定。 这套方案的核心优势就三个字:可控性。你不用依赖任何不稳定服务,所有组件都在自己手里。模型效果不好?换一个。框架更新了?自己决定升不升。 这才是AI时代开发者该有的姿势——不是被动等喂饭,而是主动搭建自己的生产力基础设施。 希望这篇保姆教程,能帮你顺利上车。做出你自己的作品。
7274 17
Claude Code国内安装:2026最新保姆教程(附cc-switch配置)
|
12天前
|
缓存 人工智能 自然语言处理
我对比了8个Claude API中转站,踩了不少坑,总结给你
本文是个人开发者耗时1周实测的8大Claude中转平台横向评测,聚焦Claude Code真实体验:以加权均价(¥/M token)、内部汇率、缓存支持、模型真实性及稳定性为核心指标。
4531 24
|
7天前
|
人工智能 JSON BI
DeepSeek V4 来了!超越 Claude Sonnet 4.5,赶紧对接 Claude Code 体验一把
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro 的真实体验与避坑记录 本文记录我将 Claude Code 对接 DeepSeek 最新模型(V4Pro)后的真实体验,测试了 Skills 自动化查询和积木报表 AI 建表两个场景——有惊喜,也踩
3178 10
|
6天前
|
人工智能 缓存 BI
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro,跑完 Skills —— OA 审批、大屏、报表、部署 5 大实战场景后的真实体验 ![](https://oscimg.oschina.net/oscnet/up608d34aeb6bafc47f
2614 8
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
|
24天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
20178 61
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)