实时计算pv/uv Demo-阿里云开发者社区

实时计算pv/uv Demo

2021-01-13 3457

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： 本文由阿里巴巴高级技术专家邓小勇（静行）分享，主要用 Demo 演示如何通过实时计算 Flink 实时计算pv/uv的场景。

作者 | 邓小勇（静行），阿里巴巴高级技术专家

本文由阿里巴巴高级技术专家邓小勇（静行）分享，主要用 Demo 演示如何通过实时计算 Flink 实时计算pv/uv的场景。内容将从以下几部分进行：

App 计算 pv/uv 场景
实现方案（From Flink-1.11）
DDL
DML
实操

首先为大家展示一个比较简单的pv/uv场景。以下图所示的APP为例，整个业务构架需要几个入口，包括用户访问入口、作者入口和运营人员入口。在运营人员入口进去可以查看系统的一些指标，比如app 的pv/uv。

幻灯片3.png

在开始介绍如何计算实时pv/uv之前，可以先了解下上图的10个字段和它们对应的含义。通过这些字段可以了解到，用户在APP上的任何一次操作都会在数据库中留下一条对应的记录，所有记录就是该用户在APP上的操作流水。

那么如何实时计算pv/uv呢？

有两种方案。

幻灯片4.png

方案一，MySQL的变更数据同步到Kafka后进行实时计算。由于 Flink在设计之初是具有流表二象性的，所以在 Flink 1.1版本之后，就可以实现 Flink 对 Kafka变更数据的处理了，包括处理一些修改、删除等操作。处理后的结果会放到阿里云Hologress里，方便用户进行大数据查询和分析。

方案二，从上图可以看到方案一比方案二只多了一个Kafka，在 Flink 1.11 版本之后，可以直接通过Debezium连接MySQL，然后经过Flink 实时计算，也可以完成同样功能。

两个方案都可以实现，那么如何选择呢？主要取决于业务。如果数据只是暂存，日志需要展示或是需要多个下游使用，需要保存到Kafka；如果日志不需要回溯，或是没有下游使用，那么方案二更适合。