HBase助力点触科技构建实时计算和数据仓库解决方案

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
简介: 百万量级TPS;10倍性能提升

点触科技业务背景

厦门点触科技股份有限公司,新三板挂牌企业(股票代码:870702),成立于2013年,是一家以历史养成类游戏研发与发行为主,专业从事手机游戏的策划、研发制作、商业化运营的创新型发展公司。目前已经成功研发出《叫我万岁爷》、《我在大清当皇帝》、《Game of Sultan》、《皇上吉祥》等多款历史题材类游戏并深受玩家喜爱。覆盖了全国及港台、东南亚等部分海外市场。

点触科技业务挑战

1、某些恶意用户利用信用卡或者别的漏洞刷单(代充),系统需要实时查询多种日志(比如登入日志,充值日志等)从而识别并拦截游戏代充订单,才能避免损失代充订单的钱。
2、随着业务快速发展,用户行为日志快速增长,需要从海量的点击流日志和激活日志中挖掘数据的价值,比如广告转化率、激活率,每安装用户成本等等。
3、原来使用Greenplum做实时计算和统计分析。但是Greenplum存在以下缺陷,难以应对业务的快速发展:

1)Greenplum架构难以应对日益复杂的计算任务;
2)Greenplum的单表分区数目有限制,同时多级分区支持不够友好,不适用单表数据量比较大且需要永久保存的日志,如果单个分区表数据量比较大的时候查询性能无法满足业务性能需求;
3)Greenplum扩容时由于数据要重分布会比较慢;
4)Greenplum不适合处理非结构化的数据。

点触科技基于HBase SQL服务(Phoenix)+ Spark服务解决方案

选择阿里云HBase SQL服务(Phoenix)+ Spark服务构建实时计算和数据仓库解决方案。
1、HBase SQL提供在线查询能力、Spark提供流式处理、复杂分析等能力来满足业务需求;
2、梳理业务数据,对数据进行分层存储在HBase SQL(Phoenix)+Spark中:

1)操作数据层:手游客户端、用户中心、广告监测、游戏服务器等产生的原始日志;
2)数据明细层:【操作数据层】使用Spark Streaming等进行数据去噪、去重、字段规范后写入HBase SQL服务,也可以直接使用JDBC写入数据;
3)数据汇总层:【数据明细层】的数据可以定期(按天或者按小时)ETL(比如关联维表、过滤、聚合)后写入到【数据汇总层】。数据汇总层的数据供后续的复杂分析;
4)应用数据层:直接对外提供数据查询服务(基于HBase SQL服务)支撑上层大数据风控、广告推荐、海量数据精细化运营;【数据汇总层】的数据经过处理后会把结果数据写入到HBase SQL中对外提供查询服务。
image.jpeg

使用HBase SQL服务(Phoenix)+ Spark服务为点触科技带来的价值

1、毫秒级识别拦截代充订单。HBase SQL(Phoenix) 高并发实时读写,TPS可达百万量级,并发十万量级,毫秒级简单查询;
2、Spark优秀的计算能力。同样作业Spark基于列式存储Parquet的分析在数据量大的情况下比Greenplum集群有10倍的性能提升。支撑了广告转化率、激活率,安装用户成本,数据驱动精细化运营等业务计算需求;
3、一站式解决方案。Spark服务原生支持通过SQL读取HBase SQL(Phoenix)数据能力,具备列裁剪、谓词下推、分区裁剪等优化;高效地把HBase SQL在线库的数据ETL后归档到Spark数据仓库;
4、聚焦业务。全托管的Spark服务保证了作业运行的稳定性,释放运维人力,同时数据工作台降低了Spark作业管理成本。

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
4月前
|
存储 数据采集 分布式计算
阿里巴巴数据仓库实践:从离线到实时的一体化探索
阿里巴巴的数据仓库实践从离线到实时的一体化探索,不仅为企业自身业务的快速发展提供了有力支撑,也为行业树立了标杆。通过不断优化技术架构、提升数据处理能力、加强数据治理和安全管理,阿里巴巴的实时数仓将为企业创造更大的价值,推动数字化转型的深入发展。未来,随着技术的不断进步和业务的持续拓展,阿里巴巴的实时数仓实践将展现出更加广阔的应用前景和发展空间。
|
分布式计算 Kubernetes 流计算
Iceberg+Amoro+CloudEon体验云原生数据湖
通过使用CloudEon、Iceberg、Flink、Spark和Amoro,您可以轻松地在Kubernetes上构建一个强大的大数据基础环境。
487 0
|
4月前
|
分布式计算 运维 大数据
混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践。
除了资源效率和成本的优势外,混合云模式还为斗鱼带来了可量化的成本、增值服务以及额外的专业服务。阿里云的专业团队可以为斗鱼提供技术咨询和解决方案,帮助斗鱼解决业务难题。此外,计算资源的可量化也使得斗鱼能够清晰地了解资源使用情况,为业务决策提供依据。
|
6月前
|
SQL 大数据 BI
从离线到实时:无锡锡商银行基于 Apache Doris 的数据仓库演进实践
从离线到实时:无锡锡商银行基于 Apache Doris 的数据仓库演进实践
|
6月前
|
存储 机器学习/深度学习 运维
数据仓库与数据湖:解析企业数据管理的两大利器
在信息时代,企业数据的管理和分析变得至关重要。数据仓库和数据湖作为两种不同的数据管理模式,各自具有独特的特点和应用场景。本文将深入探讨数据仓库与数据湖的概念、优势和应用,帮助读者更好地理解和运用这两个工具。
171 0
|
SQL 存储 人工智能
数据平台发展史-从数据仓库数据湖到数据湖仓 2
数据平台发展史-从数据仓库数据湖到数据湖仓
|
消息中间件 SQL 大数据
37手游云平台基于Flink+Hologres大数据建设实践
本文介绍37手游云平台基于Flink+Hologres大数据建设实践
2997 1
37手游云平台基于Flink+Hologres大数据建设实践
|
SQL 消息中间件 存储
基于 HBase 的大数据在线分析|学习笔记
快速学习基于 HBase 的大数据在线分析
基于 HBase 的大数据在线分析|学习笔记
|
分布式计算 Hadoop
《构建Hadoop生态批流一体的实时数仓》电子版地址
《构建Hadoop生态批流一体的实时数仓》PPT
110 0
《构建Hadoop生态批流一体的实时数仓》电子版地址
融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系
本文由 T3 出行大数据平台负责人杨华和资深大数据平台开发工程师王祥虎介绍 Flink、Kylin 和 Hudi 湖仓一体的大数据生态体系以及在 T3 的相关应用场景。
融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系