【转载】时隔一年多,我又用起了 Superset

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 去年 6 月份在流利说提离职后,leader 问我为什么要走。我说,流利说有很健全的数据处理基础设施,但这不是所有的公司都会有的条件,所以我想看看在一个基建不全的创业公司我是否也可以像现在一样做的好。

去年 6 月份在流利说提离职后,leader 问我为什么要走。我说,流利说有很健全的数据处理基础设施,但这不是所有的公司都会有的条件,所以我想看看在一个基建不全的创业公司我是否也可以像现在一样做的好。

7 月份正式离职到了现在的公司,一开始靠数着运营后台的订单,看着公众号后台的涨粉,配合友盟拿到的分享数据,拉了张 EXCEL 大表就开始预测着未来的营收支出。在业务蒸蒸日上的时候,给出的预测结果表现的也是很让人满意,隔壁公司的黄老板还天天跑来串门问怎么预测的。

预测的结果看起来十分的美好,但是它其实需要有很多的前提假设成立才能站得住脚,比如用户大体的表现是一致的,又比如投放成本不会过高,再比如微信不会打击朋友圈打卡。所以我迫切的希望了解事实是否像我们假设的那般美好,我开始提议希望能在这家公司建立第一套数据基建 —— 自采集埋点配合数据库查询。

我深知它的价值,只要有原始数据未来就可以拿它们计算出我们需要的结果。但是我又无法辩驳过 CTO 市面上已有那么多成熟的第三方数据平台可用,为什么一定要大费周章的自建埋点体系。我抛出的每个具体的理由都因为存在其他的解决方案而不成立,而当我抛出 它是为了解决未来可能会出现不确定问题 时又被要求给出具体的问题。

我又试图说服 COO 出面帮我说服 CTO,但是被几个理由驳回了:

创业公司都不知道能不能活下去,你花资源做这些基础建设万一公司倒闭了那不是浪费资源么?

数据能给我们反馈,但是不能告诉我们接下来该做什么 。

最后我选择了妥协,继续使用友盟看用户行为数据,业务数据需求需要提交给后端来开发输出到 BI后台。这样的模式弊端太明显了,因为数据需求一开始是不确定的,只有被证实过有价值且需要经常观察的数据才会被固化到 BI 报表里,而现在我们直接掠过了不同维度的数据观察,就直接跳到固化报表这一步,像极了还没学会走路就想要开始跑了。

BI 报表的设计到评审,全程都是非常痛苦的一件事情,因为我无法确定设计出来的这些维度、指标是否能够满足后续分析需求,过度设计的话又无法在评审上顺利地说服开发。外加上后端资源有限,每次提交的 BI 报表需求都需要协调后端资源,想看的数据往往要等上一两周才能看到,难受极了。业务方也不敢去想太多的数据需求,因为即使提了也不会被满足,还不如多花点时间想想自己该做什么。

如果业务没有受挫,这家公司的数据航线应该会一直朝着之前既定的方向前进。当数据持续下跌后,所有人开始焦虑到底发生了什么,寄希望于我能根据数据给出答案。但是我能看到的数据其实和其他人是一样的,那我唯一能表现出不一样的地方只有对相关业务动作的联想,但是这些联想出来的猜想又没有其他数据可以去验证,最后大部分只能不了了之。

为了尽可能在现有的数据条件下,搞清楚到底发生了什么,我说服了CTO和后端开发给我了 MongoDB 的查询权限。MongoDB 的语法写起来痛苦极了,因为 MongoDB 是非关系型数据库(NOSQL),它的主要应用场景是单表查询,如果需要频繁查询的关联信息往往会被开发冗余在表中。但是数据分析的不确定性数据需求,往往需要关联各式各样的表才能输出结果,所以我不得不开始生涩地使用 $match 语法。在被后端开发告知 MongoDB $match 的性能要比 $in 差很多 后,我后面通过 pymongo 结合 pandas 进行数据分析了,写起来也顺手多了。

然而仅仅依赖业务数据,还有很多问题无法得到解释,最后在 CEO 和 COO 的推动下公司终于决定自建埋点采集。期间其实还有尝试过友盟以外的第三方数据平台,但是最后都被否掉了。因为第三方数据平台往往是标品,他们能够满足的是众多公司共有的数据问题,而一些个性化的需求满足起来可能成本会比自建还要高的多。

我一开始以为自采集的埋点用户数据会直接进入数据库存放起来的,结果 CTO 调研了一圈最后选择了 阿里云的日志服务,这玩意儿有点类似 Kafka ,可以存放、加工日志类数据的地方。有些抵触但是还能接受,至少可以进行用户分层分析了。于是我们制定了一套自采集的框架,包含了:埋点文档规范、埋点数据字段、埋点上报时机等,会通过后端写入日志服务时补充一些用户标签数据。

虽然可以进行分层的用户行为分析了,也一定程度上解决了很多的问题。但是业务数据和埋点数据依旧是隔离的,如果需要用到标签以外的业务数据进行分层时,阿里云的日志服务有点捉襟见肘了。而老板们原计划的大数据团队建设是放在了 Q4,但是我觉得等不了那么久。因为当时正在招第一个数据分析师,如果招来了人却因为工具受限而无法发挥出他的价值,我会觉得很浪费。

无意间在 日志服务 的投递功能里发现了 MaxCompute —— 阿里云数加(DataWorks)平台的一款数据计算引擎,看了简介又去知乎、简书上了解了下相关评价,感觉可以一试。去找了 CTO,这回他很支持,我猜大概率是因为他比较倾向于使用第三方现成的工具,而不是自己搭建一套东西。开通 MaxCompute 后,我们先是把 日志服务 的数据投递到了MaxCompute表里,再通过 DataWorks 的数据集成功能把 MongoDB 的数据集成到 MaxCompute 表中。

就这样我们打通了我们的埋点数据和业务数据,我写了很多的配置脚本去同步 MongoDB 的数据,又花了大量的时间来构建一些中间表。数据库顶层的模型设计我直接照搬了流利说的—— ETL -> DW(Data Warehouse) -> DM (Data Market) -> DA (Data Analysis) ,这应该也是一个业内比较通用的做法。同时 DataWorks 提供的数据服务,很方便的能让后端调用 MaxCompute 表中的数据,一定程度上减轻了我们对后端资源的需求。

由于 MaxCompute 更像是结合 Hive 和 airflow 的产品,而数加配套的 QuickBI 似乎又没那么好用,我总觉得我们还是缺少了一个交互式分析工具。毕竟数据需求中总会有一些周期性但是又只持续一段时间的需求,如果将他们产品化吧似乎有点浪费,不产品化吧每隔一段时间跑来问你要也挺烦的。于是乎我就研究了下 Superset, 恰好看到 MaxCompute 的文档中提到过,MaxCompute Lightning兼容PostgreSQL接口,所有支持PostgreSQL数据库连接的客户端工具都可以用于连接MaxCompute Lightning,而 Superset 也恰好支持 PostgreSQL数据库连接。在本地测试成功后,我就去和 CTO 分享了一下并得到了支持,预计下周就可以用上了。

我对于 Superset 的期待是

数据赋能运营,让业务方可以在最短的时间内看到自己想看到的数据

释放后端资源,让后端同学可以更专注于他们更专业的地方

提升分析效率,短时间内可以看到更多的数据,不同维度的多项指标

这是一篇碎碎念,纯粹是因为有一种熬出头的感觉外带点兴奋写下的,发与不发纠结了两天。想表达的点就是创业公司想要搭建一套完成的数据分析基础设施,很难又很简单。难在这对创业公司的绝大多数人都是陌生的领域,外加眼花缭乱的第三方市场。虽然明知这件事的重要,但是很难作出一个正确的决策。简单的是,无论采用直接可用的第三方数据平台,还是用云厂商提供的封装后的一整套体系,又或是基于云厂商提供的服务自建一套,都有很多现成的可用的方案。

结尾再普及一下什么是埋点数据和业务数据,这两种数据其实都是原始数据:

业务数据往往是因为业务开展需要存储下来的,比如你的订单、昵称、头像、聊天记录等等,不难发现这些数据有个共性——它们都是你的行为产生的结果,所以业务数据可以简单理解为行为结果数据。

埋点数据只是想对用户行为加以分析而收集的,比如你打开了小王的朋友圈,你扫了一下二维码,你播放了某首歌曲等等,同样的埋点数据也有共性——它们都是你行为过程中采集的数据,所以埋点数据可以简单的理解为过程数据。

结合两类原始数据就可以给你赋予各种各样的标签,再把带有同类标签的用户聚合在一起观察业务表现的共性就是绝大多数的数据分析场景。

原创: 柯小一
公众号:柯一不等式

欢迎加入“MaxCompute开发者社区2群”
image

相关实践学习
MongoDB数据库入门
MongoDB数据库入门实验。
快速掌握 MongoDB 数据库
本课程主要讲解MongoDB数据库的基本知识,包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用(唯一索引、地理索引、过期索引、全文索引等)、MapReduce操作实现、用户管理、Java对MongoDB的操作支持(基于2.x驱动与3.x驱动的完全讲解)。 通过学习此课程,读者将具备MongoDB数据库的开发能力,并且能够使用MongoDB进行项目开发。   相关的阿里云产品:云数据库 MongoDB版 云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。 云数据库MongoDB版(ApsaraDB for MongoDB)完全兼容MongoDB协议,基于飞天分布式系统和高可靠存储引擎,提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。 产品详情: https://www.aliyun.com/product/mongodb
目录
相关文章
|
存储 分布式计算 Hadoop
头歌Educoder——大数据Hadoop开发环境搭建(二)
配置开发环境 - Hadoop安装与伪分布式集群搭建
1990 0
头歌Educoder——大数据Hadoop开发环境搭建(二)
|
1月前
|
SQL API Apache
官宣|Apache Flink 1.20 发布公告
Apache Flink 1.20.0 已发布,这是迈向 Flink 2.0 的最后一个小版本,后者预计年底发布。此版本包含多项改进和新功能,涉及 13 个 FLIPs 和 300 多个问题解决。亮点包括引入物化表简化 ETL 管道开发,统一检查点文件合并机制减轻文件系统压力,以及 SQL 语法增强如支持 `DISTRIBUTED BY` 语句。此外,还进行了大量的配置项清理工作,为 Flink 2.0 铺平道路。这一版本得益于 142 位贡献者的共同努力,其中包括来自中国多家知名企业的开发者。
711 7
官宣|Apache Flink 1.20 发布公告
|
4月前
|
SQL Java API
官宣|Apache Flink 1.19 发布公告
Apache Flink PMC(项目管理委员)很高兴地宣布发布 Apache Flink 1.19.0。
2266 2
官宣|Apache Flink 1.19 发布公告
|
4月前
|
数据可视化 Docker 容器
隐语实训营-第4讲:SecretFlow和SecretNote的安装
介绍secretflow及其可视化工具secretfNote的安装,课程链接:https://www.bilibili.com/video/BV161421S7xY/?spm_id_from=333.999.0.0 下:https://www.bilibili.com/video/BV12r421t77V/?spm_id_from=333.999.0.0
141 1
|
4月前
|
Ubuntu Docker 容器
隐语实训营 第四课 安装部署secretflow&secretnote
`secretflow`推荐使用Docker部署,尤其在WSL环境中。运行命令`docker run -it secretflow-registry.cn-hangzhou.cr.aliyuncs.com/secretflow-lite-anolis8:latest`启动。对于`secretnote`,编辑`docker-compose.yml`文件,配置Alice和Bob节点,然后执行`sudo docker-compose up -d`部署。访问http://localhost:8090/,设置Alice的IP为127.0.0.1:8888,Bob的IP为虚拟机以太网地址:8092,完成。
192 0
|
11月前
|
SQL 存储 Java
官宣|Apache Flink 1.18 发布公告
官宣|Apache Flink 1.18 发布公告
1254 3
官宣|Apache Flink 1.18 发布公告
|
分布式计算 Java Hadoop
|
11月前
|
分布式计算 运维 大数据
盘点下近几年退役的顶级 Apache 大数据项目 - 继 Sentry,Sqoop 之后,Ambari 正式退役!
盘点下近几年退役的顶级 Apache 大数据项目 - 继 Sentry,Sqoop 之后,Ambari 正式退役!
|
SQL Web App开发 算法
官宣|Apache Flink 1.17 发布公告
Apache Flink PMC(项目管理委员)已宣布发布 Apache Flink 1.17.0。Apache Flink 是领先的流处理标准,流批统一的数据处理概念在越来越多的公司中得到认可。
官宣|Apache Flink 1.17 发布公告
|
SQL Web App开发 缓存
官宣|Apache Flink 1.16 发布公告
Flink 社区正一步一步推动 Streaming warehouse 从概念变为现实并走向成熟。
官宣|Apache Flink 1.16 发布公告
下一篇
DDNS