OneSQL OLAP分析平台是如何解决BIGO大数据平台的问题的?
"OneSQL OLAP分析平台通过以下方式解决BIGO大数据平台的问题:
统一查询入口:用户通过统一的Hue查询页面入口以Hive SQL语法为标准提交查询。
统一查询语法:集Flink、Spark、Presto等多种查询引擎于一体,各引擎通过适配Hive SQL语法来执行查询任务。
智能路由:根据历史SQL执行情况、集群繁忙情况及引擎对SQL语法的兼容性来选择合适的引擎执行查询。
失败重试:监控SQL任务执行情况,若失败则选择其他引擎重试。"
用户在 APP,Web 页面上的行为日志数据,以及关系数据库的 Binlog 数据会被同步到 BIGO 大数据平台消息队列,以及离线存储系统中,然后通过实时的,离线的数据分析手段进行计算,以应用于实时推荐、监控、即席查询等使用场景。然而存在以下几个问题:
OLAP 分析平台入口不统一:Presto/Spark 分析任务入口并存,用户不清楚自己的 SQL 查询适合哪个引擎执行,盲目选择,体验不好;另外,用户会在两个入口同时提交相同查询,以更快的获取查询结果,导致资源浪费;
离线任务计算时延高,结果产出太慢:典型的如 ABTest 业务,经常计算到下午才计算出结果;
各个业务方基于自己的业务场景独立开发应用,实时任务烟囱式的开发,缺少数据分层,数据血缘。
面对以上的问题,BIGO 大数据平台建设了 OneSQL OLAP 分析平台,以及实时数仓。
通过 OneSQL OLAP 分析平台,统一 OLAP 查询入口,减少用户盲目选择,提升平台的资源利用率;
通过 Flink 构建实时数仓任务,通过 Kafka/Pulsar 进行数据分层;
将部分离线计算慢的任务迁移到 Flink 流式计算任务上,加速计算结果的产出;
另外建设实时计算平台 Bigoflow 管理这些实时计算任务,建设实时任务的血缘关系。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。