开发者社区> 问答> 正文

OneSQL OLAP分析平台是如何解决BIGO大数据平台的问题的?

OneSQL OLAP分析平台是如何解决BIGO大数据平台的问题的?

展开
收起
真的很搞笑 2024-07-22 22:36:41 28 0
2 条回答
写回答
取消 提交回答
  • "OneSQL OLAP分析平台通过以下方式解决BIGO大数据平台的问题:

    统一查询入口:用户通过统一的Hue查询页面入口以Hive SQL语法为标准提交查询。
    统一查询语法:集Flink、Spark、Presto等多种查询引擎于一体,各引擎通过适配Hive SQL语法来执行查询任务。
    智能路由:根据历史SQL执行情况、集群繁忙情况及引擎对SQL语法的兼容性来选择合适的引擎执行查询。
    失败重试:监控SQL任务执行情况,若失败则选择其他引擎重试。"

    2024-07-23 09:50:46
    赞同 展开评论 打赏
  • 用户在 APP,Web 页面上的行为日志数据,以及关系数据库的 Binlog 数据会被同步到 BIGO 大数据平台消息队列,以及离线存储系统中,然后通过实时的,离线的数据分析手段进行计算,以应用于实时推荐、监控、即席查询等使用场景。然而存在以下几个问题:

    OLAP 分析平台入口不统一:Presto/Spark 分析任务入口并存,用户不清楚自己的 SQL 查询适合哪个引擎执行,盲目选择,体验不好;另外,用户会在两个入口同时提交相同查询,以更快的获取查询结果,导致资源浪费;

    离线任务计算时延高,结果产出太慢:典型的如 ABTest 业务,经常计算到下午才计算出结果;

    各个业务方基于自己的业务场景独立开发应用,实时任务烟囱式的开发,缺少数据分层,数据血缘。

    面对以上的问题,BIGO 大数据平台建设了 OneSQL OLAP 分析平台,以及实时数仓。

    通过 OneSQL OLAP 分析平台,统一 OLAP 查询入口,减少用户盲目选择,提升平台的资源利用率;

    通过 Flink 构建实时数仓任务,通过 Kafka/Pulsar 进行数据分层;

    将部分离线计算慢的任务迁移到 Flink 流式计算任务上,加速计算结果的产出;

    另外建设实时计算平台 Bigoflow 管理这些实时计算任务,建设实时任务的血缘关系。

    image.png
    参考文档https://flink-learning.org.cn/article/detail/5e1346050125d69fc226d1069e4d5652?name=article&tab=suoyou&page=19

    2024-07-23 09:22:21
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Data+AI时代大数据平台应该如何建设 立即下载
大数据AI一体化的解读 立即下载
极氪大数据 Serverless 应用实践 立即下载