基于对象 - 事件模式的数据计算问题

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 基于对象-事件模式的数据计算是商业中最常见的数据分析任务之一。这种模式涉及对象(如用户、账户、商品等)及其相关的事件记录,通过这些事件数据可以进行各种统计分析,如漏斗分析、交易次数统计等。然而,SQL 在处理这类任务时表现不佳,特别是在有序计算方面。SPL 作为一种强化离散性和有序集合的语言,能够高效地处理这类计算,避免了大表 JOIN 和大结果集 GROUP BY 的性能瓶颈。通过按 ID 排序和分步计算,SPL 能够显著提高计算效率,并支持实时数据处理。

基于对象 - 事件模式(schema)的数据计算,可以说是商业中最常见的一种数据分析任务。这里说的对象可以是电商系统用户、游戏玩家、银行账号、手机、车辆等等,通常会有个唯一的 ID,对象涉及的事件都记录在这个 ID 下,比如手机的通话记录、用户的操作日志、银行账号的交易记录等。有时候 ID 会复杂一些,不一定是一个单一对象。比如 ERP 系统中统计仓库中商品的库龄,ID 会是仓库和商品的组合,事件则是商品的入库和出库动作,总会同时涉及仓库和商品。
有了事件数据后,我们就可以进行各种各样的统计。一个比较常见的的任务就是统计指定时间段内、涉及事件满足某种条件的 ID 的数量,更一般的说法是计算每个 ID(在指定时间段内)的涉及事件的某些聚合值,然后再基于这些聚合值做 ID 的整体统计。统计事件满足某种条件的 ID 数量,可以看成这个聚合值是布尔值(真 / 假)的情况(再统计真值的数量)。

有些聚合计算比较简单,不涉及事件发生的次序,只是统计满足某些条件的事件的发生次数或事件信息的合计值(次数本质上是在合计 1),比如银行账号的交易额超过 1 万元的交易次数、节假日发生的交易额,手机通话时间不超过 3 秒的次数,游戏用户购买某类装备的金额,…。我们可以把这类任务称为无序计算。而事件通常都是有发生时刻属性,也就有先后次序,对应地,还会有更多且更有业务意义的有序计算,也就聚合目标会和事件的发生时刻及次序相关。
比较著名的例子就是电商漏斗分析。给定一个步骤序列(比如浏览商品、下单、付款),针对每个用户找出一个短的时间窗口内(比如 3 天),在其中该用户按次序实施了这个步骤序列的最多步数(可能 0 步)。类似地,计算每张信用卡是否连续三天都有超过 1000 元的交易(这里的聚合值是个布尔值),新注册的游戏用户下次登录时刻的间隔天数,…。
计算出 ID 相关的聚合值后,再进一步统计所有 ID 的整体情况就比较简单了。比如漏斗分析中,有了每个 ID 实施的(指定步骤的)最多步数,就可以统计出走到每一步的 ID 数量(只要简单计数),进而分析哪一步的用户流失率最严重。这就是有业务意义的数据分析了。

可以想像出,相当大比例的业务数据都可以抽象成这种 ID+ 事件的模式,所以说基于 ID 的事件数据计算是最常见的数据分析任务。
然而,SQL 并不擅长实现这种统计任务,简单的无序计算问题还不大,但面对更重要的有序计算就会显得非常力不从心。

要解释这个问题,我们先要总结出这种事件数据计算的几个特征:

  1. ID 数量非常多,少则数千万,多则几亿甚至几十亿
  2. 同一 ID 的事件数量并不多,一般几到几百条,再多也就是几千条;
  3. 针对这些事件的聚合计算可能很复杂,特别是有序计算,几乎不可能用一个简单的聚合函数写出来,经常需要多个步骤才能完成计算
  4. 计算聚合值不会用到其它 ID 的事件数据,也就是 ID 之间是无关的。
    有些计算目标看起来不满足特征 4,比如时空碰撞任务需要计算出某个手机(或车辆)在同一时间片段和空间范围出现次数最多的其它手机号,这看起来像是两个 ID 的事件数据一起参与计算,但实际上目标手机是确定的,它的事件数据可以事先取出后被认为是常数,每个其它手机号的事件数据事实上都在和这套常数一起计算,仍然可以认为 ID 之间无关。

SQL 的难点主要是两个方面。
ID 相关事件的聚合计算,会涉及多条互相依赖的事件记录。SQL 对这种跨行记录运算的支持力度很弱,即使有了窗口函数仍然很不方便,通常还是要借助 JOIN 将跨行记录拼到一行中才能进一步做更复杂的判断。计算过程中涉及的事件数量越多,参与 JOIN 的子查询(用于筛选出合适的事件记录 )也会越多,而且还会有依赖性(比如漏斗分析中第二步要第一步的基础的寻找),导致子查询本身也要用 JOIN 来实现事件筛选。而且,这些子查询的基础都是整个事件表,再用 ID 相等及其它筛选条件作为 JOIN 条件,而事件表常常非常巨大(ID 本身就非常多,每个 ID 还会有多条事件),大表 JOIN 不仅计算速度低下,而且也很容易跑崩,即使借助分布式系统也不容易做好。
有些事件还可能有更大的子表,比如订单表会有订单明细,实际聚合计算会更复杂,而且 JOIN 涉及的数据量也更大,这会进一步加剧上述困境。
有时 SQL 中也会用 EXISTS 来实现某些存在性的聚合计算结果,EXISTS 中 FROM 的表仍然是这个巨大的事件表,再用 ID 和主查询的 ID 相同及再加上其它筛选条件来判断,本质上和 JOIN 区别不大(事实上,大多数 EXISTS 都会被数据库优化成 JOIN 来实现,否则就计算复杂度太高了)。复杂的 EXISTS 子句的理解难度更大,优化难度也更大,这时如果难以被优化器转换成 JOIN,计算量就非常可怕了。

ID 相关的聚合值,和 ID 的关系是一对一的,也就是每个 ID 对应一套聚合值。而 JOIN 的结果并没有这个特征(EXISTS 这方面略好,但又有前述难以优化的问题),所以还要再做一次 GROUP BY ID 才能把结果的维度计算正确。而 ID 数量非常多,大结果集分组也是个性能非常差的计算任务。
有时候最后的统计是对 ID 的计数,GROUP BY 就会退化成 COUNT DISTINCT,计算逻辑会简单一些,但复杂度的数量级并没有变(DISTINCT 相当于没有聚合值的 GROUP BY,COUNT DISTINCT 则是在 DISTINCT 基础上再计数)。SQL 中绝大多数计算慢的 COUNT DISTINCT 都是因为这类事件数据计算任务造成的。

这是一个 SQL 写的简化后的三步漏斗分析,感受一下其中的 JOIN 以及 GROUP BY。

WITH e1 AS (
    SELECT uid,1 AS step1, MIN(etime) AS t1
    FROM events
    WHERE etime>=end_date-14 AND etime<end_date AND etype='etype1'
    GROUP BY uid),
e2 AS (
    SELECT uid,1 AS step2, MIN(e1.t1) as t1, MIN(e2.etime) AS t2
    FROM events AS e2 JOIN e1 ON e2.uid = e1.uid
    WHERE e2.etime>=end_date-14 AND e2.etime<end_date AND e2.etime>t1 AND e2.etime<t1+7 AND etype='etype2'
    GROUP BY uid),
e3 as (
    SELECT uid,1 AS step3, MIN(e2.t1) as t1, MIN(e3.etime) AS t3
    FROM events AS e3 JOIN e2 ON e3.uid = e2.uid
    WHERE e3.etime>=end_date-14 AND e3.etime<end_date AND e3.etime>t2 AND e3.etime<t1+7 AND etype='etype3'
    GROUP BY uid)
SELECT SUM(step1) AS step1, SUM(step2) AS step2, SUM(step3) AS step3
FROM e1 LEFT JOIN e2 ON e1.uid = e2.uid LEFT JOIN e3 ON e2.uid = e3.uid

更多步的漏斗就要写更多的子查询来 JOIN。

还有一个规则更复杂些的漏斗,最后统计还涉及 GROUP BY 和 COUNT(DISTINCT):

WITH e1 AS (
    SELECT userid, visittime AS step1_time, MIN(sessionid) AS sessionid, 1 AS step1
    FROM events e1 JOIN eventgroup ON eventgroup.id = e1.eventgroup
    WHERE visittime >= DATE_ADD(arg_date,INTERVAL -14 day) AND visittime < arg_date AND eventgroup.name = 'SiteVisit'
    GROUP BY userid,visittime
), e2 AS (
    SELECT e2.userid, MIN(e2.sessionid) AS sessionid, 1 AS step2, MIN(visittime) AS step2_time, MIN(e1.step1_time) AS step1_time
    FROM events e2 JOIN e1 ON e1.sessionid = e2.sessionid AND visittime > step1_time JOIN eventgroup ON eventgroup.id = e2.eventgroup
    WHERE visittime < DATE_ADD(step1_time ,INTERVAL +1 day) AND eventgroup.name = 'ProductDetailPage'
    GROUP BY e2.userid
), e3 AS (
    SELECT e3.userid, MIN(e3.sessionid) AS sessionid, 1 AS step3, MIN(visittime) AS step3_time, MIN(e2.step1_time) AS step1_time
    FROM events e3 JOIN e2 ON e2.sessionid = e3.sessionid AND visittime > step2_time JOIN eventgroup ON eventgroup.id = e3.eventgroup
    WHERE visittime < DATE_ADD(step1_time ,INTERVAL +1 day) AND (eventgroup.name = 'OrderConfirmationType1')
    GROUP BY e3.userid
)
SELECT s.devicetype AS devicetype,
    COUNT(DISTINCT CASE WHEN fc.step1 IS NOT NULL THEN fc.step1_userid  ELSE NULL END) AS step1_count,
    COUNT(DISTINCT CASE WHEN fc.step2 IS NOT NULL THEN fc.step2_userid  ELSE NULL END) AS step2_count,
    COUNT(DISTINCT CASE WHEN fc.step3 IS NOT NULL THEN fc.step3_userid  ELSE NULL END) AS step3_count,
FROM (
    SELECT e1.step1_time AS step1_time, e1.userid AS userid, e1.userid AS step1_userid, e2.userid AS step2_userid,e3.userid AS step3_userid,
           e1.sessionid AS step1_sessionid, step1, step2, step3
    FROM e1 LEFT JOIN e2 ON e1.userid=e2.userid LEFT JOIN e3 ON e2.userid=e3.userid ) fc
LEFT JOIN sessions s ON fc.step1_sessionid = s.id 
GROUP BY s.devicetype

其实,只要利用上面说的那几条特征,事件数据统计任务并不难做。
如果我们把事件数据按 ID 排序,每次读出一个 ID 对应的事件到内存,这占不了多少内存(特征 2),然后再用分步计算出这个 ID 对应的聚合值,内存使用过程化的语言可以容易进行非常复杂的计算(特征 2)。这样,不会有大表 JOIN,关联运算仅局限在一个 ID 所属的事件范围内(特征 4)。因为每次针对一个 ID 计算完相应的聚合值,后续也没有 GROUP BY,COUNT DISTINCT 会变成简单的 COUNT。
这个算法完全避免了大表 JOIN 和大结果集的 GROUP BY,不仅占用内存很小,而且还很容易并行。而大表 JOIN 和大结果集 GROUP BY 都属于消耗内存巨大且并行成本很高的运算。
可惜,用 SQL 无法实现这样的算法,主要原因有两点:1. SQL 缺乏离散性,不能用过程化语句写出复杂的跨行运算逻辑,就只能借助 JOIN(或 EXISTS);2. 关系代数中的集合无序,数据表中的数据也是无序的,即使刻意有序存储 SQL 也无法利用。
SPL 强化了离散性,可以方便地写出多步骤的跨行运算,特别是对次序有关的运算支持非常好;SPL 的理论基础离散数据集基于有序集合,能够刻意保证存储的次序,而且提供有序游标语法,可以一次读入一个 ID 的数据。

用 SPL 实现上面相同的漏斗运算:
QQ_1730100967763.png

event.ctx 按 uid 有序存储,A4 就可以每次读入一个 ID 的(指定时间段内的)所有事件。多步漏斗的运算逻辑由后面的 A5/A6 两句实现,只要针对内存中当前 ID 的事件处理就可以了,按自然思路写出来,没有 JOIN 动作。后面也没有 GROUP BY,最后 A7 只要简单的计数就可以了。
这个代码对任意步数的漏斗都通用,只要改变 A1 即可。

另一个也类似:
QQ_1730101048625.png

在 A6 读入一个 ID 的所有事件,然后来实现复杂判断逻辑,最后分组统计时也只要简单计数就可以了,不用再考虑去重了。

这个算法依赖于事件数据对 ID 有序,而事件产生次序通常而是发生时刻。那么,是不是只能应用于事先排序过的历史数据上,对来不及一起排序的实时数据就无效了呢?
SPL 已经考虑到这一点,SPL 的复组表可以在数据进入时实现增量排序,实时保证数据在读出时对 ID 有序,可以让这个算法应用到最新的数据上。而且,因为这类运算的条件通常都会有一个时间区间,SPL 的存储还支持双维有序机制,可以迅速将时间区间外的数据过滤掉,大幅度减少数据遍历。
排序确实是时间成本较高的运算,但是一次性的,一旦完成了排序,之后的各种运算都会变得非常快。而且,SPL 复组表的数据组织机制相当于把大排序拆成多次可实时进行的小排序,将排列时间分散到日常的数据维护中,除了第一次迁移系统时会有个较长时间的排序外,日后数据不断追加过程的排序时间基本无感,而获得的计算时间提升却是数量级的。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
3月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
201 6
|
3月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
88 2
|
3月前
|
消息中间件 监控 数据可视化
大数据-79 Kafka 集群模式 集群监控方案 JavaAPI获取集群指标 可视化监控集群方案: jconsole、Kafka Eagle
大数据-79 Kafka 集群模式 集群监控方案 JavaAPI获取集群指标 可视化监控集群方案: jconsole、Kafka Eagle
121 2
|
3月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
91 0
|
3月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
96 0
|
5月前
|
分布式计算 资源调度 大数据
【决战大数据之巅】:Spark Standalone VS YARN —— 揭秘两大部署模式的恩怨情仇与终极对决!
【8月更文挑战第7天】随着大数据需求的增长,Apache Spark 成为关键框架。本文对比了常见的 Spark Standalone 与 YARN 部署模式。Standalone 作为自带的轻量级集群管理服务,易于设置,适用于小规模或独立部署;而 YARN 作为 Hadoop 的资源管理系统,支持资源的统一管理和调度,更适合大规模生产环境及多框架集成。我们将通过示例代码展示如何在这两种模式下运行 Spark 应用程序。
285 3
|
2月前
|
SQL 存储 算法
基于对象 - 事件模式的数据计算问题
基于对象-事件模式的数据计算是商业中最常见的数据分析任务之一。对象如用户、账号、商品等,通过唯一ID记录其相关事件,如操作日志、交易记录等。这种模式下的统计任务包括无序计算(如交易次数、通话时长)和有序计算(如漏斗分析、连续交易检测)。尽管SQL在处理无序计算时表现尚可,但在有序计算中却显得力不从心,主要原因是其对跨行记录运算的支持较弱,且大表JOIN和大结果集GROUP BY的性能较差。相比之下,SPL语言通过强化离散性和有序集合的支持,能够高效地处理这类计算任务,避免了大表JOIN和复杂的GROUP BY操作,从而显著提升了计算效率。
|
3月前
|
存储 分布式计算 druid
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
49 1
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
|
3月前
|
分布式计算 大数据 分布式数据库
大数据-158 Apache Kylin 安装配置详解 集群模式启动(一)
大数据-158 Apache Kylin 安装配置详解 集群模式启动(一)
60 5
|
3月前
|
消息中间件 分布式计算 监控
大数据-78 Kafka 集群模式 集群的应用场景与Kafka集群的搭建 三台云服务器
大数据-78 Kafka 集群模式 集群的应用场景与Kafka集群的搭建 三台云服务器
116 6