云HBase X-Pack解决传统数据仓库瓶颈,赋能客户计算分析业务

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
简介: 某游戏公司随着业务快速发展,用户行为日志快速增长,需要从海量的点击流日志和激活日志中挖掘数据的价值,比如广告转化率、激活率,每日安装用户成本等等。原来使用GreenPlum做实时计算和统计分析遇到一些瓶颈,最终使用阿里云HBase X-Pack构建了满足业务需求的数据处理平台。

  某游戏公司随着业务快速发展,用户行为日志快速增长,需要从海量的点击流日志和激活日志中挖掘数据的价值,比如广告转化率、激活率,每日安装用户成本等等。

业务挑战

  原来使用GreenPlum做实时计算和统计分析。但是GreenPlum存在以下缺陷,难以应对业务的快速发展:

  • GreenPlum架构难以应对日益复杂的计算任务;
  • Greenplum的单表分区数目有限制,同时多级分区支持不够友好,不适用单表数据量比较大且需要永久保存的日志,如果单个分区表数据量比较大的时候查询性能无法满足业务性能需求;
  • Greenplum扩容时由于数据要重分布会比较慢;
  • Greenplum不适合处理非结构化的数据。

解决方案

  在这样的背景下选择了阿里云HBase SQL服务(Phoenix)+ Spark服务构建实时计算和数据仓库解决方案,其中HBase SQL提供在线查询能力、Spark提供流式处理、复杂分析等能力来满足业务需求。下面是业务数据仓库架构图:
image
  如上图梳理业务数据,对数据进行分层存储在HBase SQL(Phoenix)+Spark中:

  • 操作数据层:手游客户端、用户中心、广告监测、游戏服务器等产生的原始日志;
  • 数据明细层:”操作数据层”使用Spark Streaming等进行数据去噪、去重、字段规范后写入HBase SQL服务,也可以直接使用JDBC写入数据;
  • 数据汇总层:”数据明细层”的数据可以定期使用Spark SQL(按天或者按小时)ETL(比如关联维表、过滤、聚合)后写入到”数据汇总层”。数据汇总层的数据供后续的复杂分析;
  • 应用数据层:直接对外提供数据查询服务(基于HBase SQL服务)支撑上层大数据风控、广告推荐、海量数据精细化运营;“数据汇总层“的数据经过处理后会把结果数据写入到HBase SQL中对外提供查询服务。

价值

  • 毫秒级识别拦截代充订单。HBase SQL(Phoenix) 高并发实时读写,TPS可达百万量级,并发十万量级,毫秒级简单查询;
  • Spark优秀的计算能力。同样作业Spark基于列式存储Parquet的分析在数据量大的情况下比Greenplum集群有10倍的性能提升。支撑了广告转化率、激活率,安装用户成本,数据驱动精细化运营等业务计算需求;
  • 一站式解决方案。Spark服务原生支持通过SQL读取HBase SQL(Phoenix)数据能力,具备列裁剪、谓词下推、分区裁剪等优化;高效的把HBase SQL在线库的数据ETL后归档到Spark数据仓库;
  • 聚焦业务。全托管的Spark服务保证了作业运行的稳定性,释放运维人力,同时数据工作台降低了spark作业管理成本。用户也调研过ecs自建Hadoop生态,最终选择了HBase的Spark服务,包括以下原因:
Spark服务 开源Hadoop生态(ECS自建)
服务模式 全托管,免运维,提供SLA保障,开箱即用 投入团队研发和运维服务,无SLA保障
产品功能 一站式解决方案,Spark深度融合HBase服务,精心调优,无需配置 功能繁杂,开源组件多,学习,配置调优成本高
性能 Spark分析HBase的connector深度优化,内置connector,无需配置 社区版本,connector配置繁琐,无质量和SLA保障
易用性 专门的Spark的数据工作台、restful 服务、command line 缺少企业级的数据工作台

技术社群

群福利:群内每周进行群直播技术分享及问答
加入方式1:点击link申请加入
加入方式2:钉钉扫码加入
image

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
SQL 存储 分布式数据库
【通过Hive清洗、处理和计算原始数据,Hive清洗处理后的结果,将存入Hbase,海量数据随机查询场景从HBase查询数据 】
【通过Hive清洗、处理和计算原始数据,Hive清洗处理后的结果,将存入Hbase,海量数据随机查询场景从HBase查询数据 】
274 0
|
4月前
|
分布式计算 大数据 分布式数据库
"揭秘HBase MapReduce高效数据处理秘诀:四步实战攻略,让你轻松玩转大数据分析!"
【8月更文挑战第17天】大数据时代,HBase以高性能、可扩展性成为关键的数据存储解决方案。结合MapReduce分布式计算框架,能高效处理HBase中的大规模数据。本文通过实例展示如何配置HBase集群、编写Map和Reduce函数,以及运行MapReduce作业来计算HBase某列的平均值。此过程不仅限于简单的统计分析,还可扩展至更复杂的数据处理任务,为企业提供强有力的大数据技术支持。
78 1
|
4月前
|
消息中间件 存储 大数据
大数据-数据仓库-实时数仓架构分析
大数据-数据仓库-实时数仓架构分析
153 1
|
5月前
|
SQL 存储 关系型数据库
计算效率提升 30 倍、存储资源节省 90%,雨润集团基于 Apache Doris 的统一实时数据仓库建设实践
数字化转型的浪潮中,高效准确的数据分析能够帮助雨润集团快速洞察市场动态、优化供应链管理、提高生产效率。雨润集团引入了 Apache Doris 构建了统一实时数据仓库,实现了计算效率提升 30 倍、存储资源节省 90%、成本降低超 100 万、人员效率提升 3 倍,为智能化、高效化转型指明了方向。
计算效率提升 30 倍、存储资源节省 90%,雨润集团基于 Apache Doris 的统一实时数据仓库建设实践
|
7月前
|
分布式计算 Hadoop 关系型数据库
Hadoop任务scan Hbase 导出数据量变小分析
Hadoop任务scan Hbase 导出数据量变小分析
97 0
|
7月前
|
SQL 消息中间件 分布式数据库
基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例(三)离线分析
基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例(三)离线分析
132 0
|
7月前
|
存储 关系型数据库 MySQL
云数据仓库ADB的 热数据存储空间 在哪里看?热数据存储空间 的计费是怎么计算的?
云数据仓库ADB的 热数据存储空间 在哪里看?热数据存储空间 的计费是怎么计算的?
96 0
|
存储 SQL 分布式数据库
记录一次 Hbase 线上问题的分析和解决,并分析总结下背后的知识点 - KeyValue size too large
记录一次 Hbase 线上问题的分析和解决,并分析总结下背后的知识点 - KeyValue size too large
|
SQL 数据挖掘 HIVE
Hive数据仓库维度分析
Hive数据仓库维度分析
167 0
|
存储 Cloud Native 大数据
实时分析、融合统一及云原生,现代化数据仓库未来发展必经之路|专访飞轮科技 CEO 马如悦
Apache Doris 历经近十年的发展,为何还能持续保持竞争力和活力?其背后的核心推动力又是什么?