关于内部OLAP工具的一些设计思路

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 更新: 内部olap工具终于来了 https://deepinsight.alipay.com/index.htm#/list/self-analysis ----------------------------------------------------- 最近一年在蚂蚁接触了很多的数据分析需求,会用到各种交付工具,总的来说是非常方便的,唯一一个没有找到最佳实践的需求场景是OL

更新: 内部olap工具终于来了

https://deepinsight.alipay.com/index.htm#/list/self-analysis

最近一年在蚂蚁接触了很多的数据分析需求,会用到各种交付工具,总的来说是非常方便的,唯一一个没有找到最佳实践的需求场景是OLAP,现有的这些工具基本上都无法直接给到需求方使用;所以特地总结一下olap相关的一些工具设计思路,希望能给平台产品有些帮忙;如果已经有可用的产品了,还请告知~

当前了解到的内部两大主力工具

1、Deepinsight
链接: https://deepinsight.alipay.com/index.htm#/welcome/home/roleBusiness
无olap功能,但是提供数据集的共享,可以在后台编辑界面实现olap功能,页面如下:
image.png

可以用olap的数据源,用olap的方法配置报表,查询就伤不起了

2、FBI
链接: https://sg.fbi.alibaba-inc.com/fbi/home.htm
自称有olap功能,但也是在配置逻辑里面实现的,页面如下:
image.png

只能说不DI更难用

3、AEM的olap
链接: https://aem.alibaba-inc.com/project/aes/page/analytics
最像olap的页面,可惜只是应用内部的简单实现,这里列出来就是给大家对比下,页面如下:
image.png

这个算是按照 olap的产品思路做的东西了,可惜我们没办法能力复用

4、其他
DI 和 FBI 可以说基本没有olap的产品能力,所以就不具体说了,大家可以去参考其他大厂的olap产品对比下
咱们同学分享的 【产品调研】字节跳动BI解决方案-Datawind
https://www.atatech.org/articles/178756?commentId=302744&msgid=4234715#comment-302744
里面有olap的页面:
image.png

字节的这个olap设计是大家比较认可的,几年前在友商那边做的olap就是这种,在产品层面并没有太多复杂的东西,所以我们要求不高的

用户希望的OLAP工具

直接说几个当前数仓环境下,用户的主要诉求,因为和传统的olap已经不太一样了,这个是我们做olap最应该注意的地方。
1、 简单可用
主题选择+维度选择+指标选择+筛选功能+可视化方式 = 查询结果
不需要记住使用方法,点几下鼠标就可以搞定;
配置类的东西交给后台研发同学

2、不怕查询太慢
这一点和olap自身定位有些冲突,但真实场景用户确实可以接受10-20秒的等待;
因为找数据同学提数据、提需求,绝对不止这个时间,分析大部分的场景都不是急迫的,大家都知道大数据量查询慢,所以非常理解;
点几下鼠标,等几分钟,比自己写sql写关联跑任务简单多了

3、配置发布要快
也就是研发侧的响应要快,新增一个数据主题,新增一个维度或者指标,可以快速上线使用;
这就是有和没有的问题,大家可以接受查询慢,但是维度、指标一定要有,这个才是他们可以获取数据的前提;
所以开发配置的功能要高效

技术方案方面

宗旨就是:在慢的基础上尽可能的提供快速查询的能力
计算引擎:odps做预加工和托低计算,adb、explorer等做实时计算,hbase进行distinct预计算或实时计算
查询固化:自动将查询生成odps离线任务和数据

对于到底要不要做预计算,从经验上看,增加了架构的复杂度,预计算的扩展性很差,在当前分布式计算速度已经很快的情况下,直接计算性价比更高;可以在需求层面做分拆,按不同的需求设计不同的粒度数据主题

产品方案方面

主题选择+维度选择+指标选择+筛选功能+可视化方式 = 查询结果
如上,形成6个主要功能区域;
维度和指标一定要分组、筛选功能一定要灵活、分析保存和共享能力一定要有

最后、
还是太懒了,写不了太多东西,希望有用

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
运维 监控 算法
稳定性保障6步走:高可用系统大促作战指南!
年年有大促,大家对于大促稳定性保障这个词都不陌生,业务场景尽管各不相同,“套路”往往殊路同归,全链路压测、容量评估、限流、紧急预案等,来来去去总少不了那么几板斧。跳出这些“套路”,回到问题的本质,我们为什么要按照这些策略来做?除了口口相传的历史经验,我们还能做些什么?又有什么理论依据?
稳定性保障6步走:高可用系统大促作战指南!
|
监控 数据可视化 大数据
蚂蚁金服数据洞察分析平台DeepInsight:人人都是数据分析师
小蚂蚁说: 大数据时代,由数据驱动的用户行为分析、运营分析、业务分析无疑是最被关注的“热词”,尤其对于拥有海量数据的大中型企业来说,对数据的需求已远远超越了传统数据报表所能提供的范畴。如何运用自助式BI实现当代企业精细化运营,已成为企业运营管理的新课题。
7594 0
|
移动开发 前端开发 程序员
有哪些代码开源平台值得推荐?
开源是程序员最高的浪漫
|
SQL Cloud Native 测试技术
【数据库评测】Cloudwave 4.0 单机版 VS Starrocks 3.0 单机版
【数据库评测】Cloudwave 4.0 单机版 VS Starrocks 3.0 单机版
298 0
|
存储 canal 消息中间件
数据仓库系列(三)数仓分层的意义价值及如何设计数据分层
数据仓库系列(三)数仓分层的意义价值及如何设计数据分层
1759 0
数据仓库系列(三)数仓分层的意义价值及如何设计数据分层
|
存储 缓存 前端开发
软件架构分层,你的项目处于什么阶段?
软件架构分层,你的项目处于什么阶段?
1165 0
软件架构分层,你的项目处于什么阶段?
|
监控 关系型数据库 数据库
Greenplum csvlog(日志数据)检索、释义(gp_toolkit.gp_log*)
标签 PostgreSQL , Greenplum , csvlog , gp_toolkit 背景 由于GP为分布式数据库,当查看它的一些日志时,如果到服务器上查看,会非常的繁琐,而且不好排查问题。
2745 0
|
SQL 存储 运维
蚂蚁实时低代码研发和流批一体的应用实践
蚂蚁实时数仓架构师马年圣,在 Flink Forward Asia 2022 流批一体专场的分享。
9647 1
|
Cloud Native 前端开发 Java
致景科技|一站式动态多环境建设案例
致景科技成立于2013年12月,是领先的纺织产业互联网企业,国家高新技术企业。旗下拥有“百布”、“全布”、“天工”、“致景金条”、“致景纺织智造园”、“致景智慧仓物流园”等业务板块,致力于通过大数据、云计算、物联网等新一代信息技术,全面打通纺织服装行业的信息流、物流和资金流,帮助行业实现协同化、柔性化、智能化的升级,构建纺织服装纵向一体化的数智化综合服务平台。
致景科技|一站式动态多环境建设案例
|
开发框架 前端开发 JavaScript
SpringMVC入门案例【三层架构和MVC、SpringMVC的概述和入门程序】(超详细)
SpringMVC入门案例【三层架构和MVC、SpringMVC的概述和入门程序】(超详细)
SpringMVC入门案例【三层架构和MVC、SpringMVC的概述和入门程序】(超详细)