Ali-HBase的SQL实践与改进

简介: HBase原生api虽然赋予了用户极致的控制力,但也带来了较高的开发成本和学习成本,而SQL则很好的解决了这个使用问题。本文从为什么需要SQL开始谈起,进而讲解了SQL on Hbase,接着着重分享了Ali-Hbase SQL的优化与改进,最后对未来进行了展望。

福利:国际顶级盛会HBaseCon Asia 2018将于8月在北京举行,目前正免费开放申请中,更多详情参考https://yq.aliyun.com/promotion/631

如果你对大数据存储、分布式数据库、HBase等感兴趣,欢迎加入我们,一起做最好的大数据在线存储,职位参考及联系方式:https://maimai.cn/job?webjid=1heZGIyM4&srcu=1aOrffoj1&src=app&fr=my_jobsrecruit_job


摘要:
2017云栖大会Hbase专场,阿里巴巴的天穆带来Ali-HBase的SQL实践与改进的演讲。本文主要从为什么需要SQL开始谈起,进而讲解了SQL on Hbase,接着着重分享了Ali-Hbase SQL的优化与改进,最后对未来进行了展望。

PPT下载请点击

以下是精彩内容整理:

为什么需要SQL?

1


时间序列数据的存取:按照时间顺序追加新记录,按照时间范围查询数据,查询结果按时间倒排。我们数据是按照时间产生的,最新写的数据一定写在表头,在分布式情况下所有操作都落在表头,则表头所在的服务器必然会成为写热点。

Hash散列

2


解决写热点问题就是打散、随机分布,使得任何一行数据都能分布在表的一个随机位置。这带来一个新的问题,数据不再有序,无法按时间进行范围查询。

分桶

3


可见,解决写热点和按时间范围查询是一对矛盾的需求。为了同时满足这两个需求,我们需要做一些折中,也就是分桶,通过对原始主键取模,则任何一行数据都可以落在一个随机的“桶”里面,而数据在桶内是有序的,可以按照时间范围来查询。这样,就兼顾了写请求的打散和数据的范围查询需求。其代价是范围查询时必须并发查所有桶,并对结果进行合并。

4


例如,先查第一个分桶,再查第二个和第三个分桶,得到了70、60、50的结果。因为多机并发查询,分桶方案其实在一定程度上提升了读的性能。

基于HBase Native api的实现

5


刚刚说的场景是经过高度抽象的,实际的场景不可能这么简单,即使在简单的场景下就需要做这么多事情。我们HBase API要想用好Hbase就需要很多额外的事情,需要写非常多的代码。学习成本也是很高的,如果想很精准地使用是很需要技巧的,很多东西都要靠经验,用户在利用HBase API的时候要付出很高的学习成本和开发成本。大部分的HBase用户都会遇到这些类似的问题,而且每个用户都需要了解怎么去解决这些问题,使用了HBase API以后可以对自己的业务做到完全地把控。

SQL on HBase

6


为什么HBase API这么难用,说到底就是太底层了,仅提供了“原语级别的操作”。我们希望能够降低用户的接入门槛,能够低成本低接入Hbase,怎么做这件事情?阿里HBase大部分场景都是相对简单的,并且有共性的,所以我们希望能够引入中间层,来解决这个共性问题。中间层就是SQL,我们希望SQL能够替代API成为HBase的默认户接口。

7


基于Phoenix的SQL ON HBase解决方案,Phoenix就是针对HBase来设计的,而且Phoenix在HBase之间也可以结合得非常好,这也是我们选择Phoenix的一个主要原因。下面看几个具体的场景示例:

支付宝智能搜索dump平台

8


支付宝智能搜索Dump平台,左边的数据源是各种各样的业务数据库,可能是MYSQL,可能是HBase的,对业务数据库的变更操作会同步到HBase集群里面很多张维表里面,对维表生成宽表。对于HBase来讲,这个场景除了实时写之外还有很大的全量导入。读是通过很多的全局二级索引,经常变更的索引表。因为搜索的业务,用户的需求经常发生变更,这样对应我们的索引表发生变更,虽然有一些成本,但是相比MYSQL来讲,这个变更的成本是可以接受的。因为业务增长比较快,所以线性扩容也是关键点。

商品报表

9


商品报表是另外一套吞吐型的业务,它也有实时的全量写,而且也需要二级索引来生成多维报表。这个报表的场景跟DUMP场景不一样,这个单表比较大,在我们业务里面最大的表在压缩之后有80个TB。

物联网设备信息存储

10


物联网场景也非常典型,读写相对比较简单,但是数据量特别大,对写吞吐要求很高。在这种情况下,存储的成本以及写的吞吐能力、扩容能力,这些是HBase比较擅长。在成本这块,采用冷热分离存储以及压缩算法降低成本。

HBase SQL的场景基本上都是HBase自己的场景,海量的数据、线性扩展等等,但SQL赋予了HBase丰富的查询语义,从而拓展了HBase的业务边界。

Ali-Hbase SQL

11


为了支持这些场景,我们在HBase做了很多的优化和改进,在HBase本身我们针对阿里的场景做了很多性能和功能上的变革。在稳定性方面,我们做了很多工作,能够让HBase久经双十一沙场。Ali-HBaseSQL与Phoenix在功能补齐、功能增强、数据导入导出方面有所改善。Phoenix在索引选择方面有缺陷,我们重做了一套基于RBO的查询优化器,同时增强了可以访问多张索引表的能力。另外,也配套开发了数据导入导出插件,使得数据可以在各个系统之间自如流动。

性能优化

目标是将简单请求的性能优化到极致,与对应的HBase Native API性能差距小于5%。单行读写的场景下,SQL和HBase API的差距很明显。
客户端的元数据缓存,元数据:列名、数据类型、表属性、索引信息等等。元数据更新策略:并不是每次都刷新元数据,我们做了周期性的刷新,通过版本号的方式来识别是不是最新的,如果不是最新的就更新一版,这是优化UPSERT的缓存更新策略。

12


SELECT优化,我们会根据用户请求的类型来选择使用scan或者get,这个选择对性能影响非常大,因为我们的目标是优化简单的请求,在极高的tps情况下,RT上优化一点点在用户那边的体现都是非常明显的。由于我们并不是分析型的场景,并不需要数据的预取,所以,spooling这部分可以直接移除。做了这些事情以后,SQL的读性能已经跟HBase 原生api比较接近了。

此外,HBase + SQL也在阿里云上提供,并支持从其他的RDBMS迁移至云HBase。

未来的工作

未来的计划是支持列名映射以及ImmutableDataEncoding,我们现在正在调研这两个特性。列名映射在大宽表的情况下能够节省1/3—1/2的存储空间。immutableData编码能进一步节省近50%的存储空间,但其限制是数据不能修改。

另外,重客户端也是需要改变的,目前,我们要优化功能或者修复bug都需要让用户去升级SQL客户端,这是非常恶心的事情;所以,支持query server mode和瘦客户端,可以有效解决产品不断迭代的问题,用户不需要升级也可以享受到我们的改进;

支持分布式Sequence,最终我们也要把SQL的能力做到分布式;

可选的索引一致性,异步全局二级索引,有些场景下用户不需要强一致性,比如说日志,最终在1分钟之内一致就OK了,所以我们做一个异步的全局更新,更新成本也进一步降低了。

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
16天前
|
SQL 监控 安全
数据库安全:SQL注入防御实践
【7月更文挑战第11天】SQL注入攻击作为一种常见的网络攻击手段,对数据库的安全性和业务稳定构成了严重威胁。为了有效防御SQL注入攻击,开发者和数据库管理员应采取一系列实践措施,包括输入验证与过滤、使用参数化查询、限制数据库用户权限、使用Web应用程序防火墙、定期更新和打补丁、实施实时监控和审计以及使用HTTPS协议等。通过这些措施的实施,可以显著提升数据库的安全性,降低遭受SQL注入攻击的风险。同时,开发者和数据库管理员应持续关注新的安全威胁和防御技术,不断提升自身的安全防护能力。
|
20天前
|
SQL 运维 监控
MSSQL性能调优深度解析:索引优化策略、SQL查询优化技巧与高效并发管理实践
在Microsoft SQL Server(MSSQL)的运维与优化领域,性能调优是确保数据库高效运行、满足业务需求的关键环节
|
20天前
|
SQL 存储 数据库
SQL Server性能优化策略与实践
在使用Microsoft SQL Server(简称MSSQL)进行数据库管理时,性能优化是确保系统高效运行、提升用户体验的关键环节
|
1月前
|
存储 大数据 分布式数据库
使用Apache HBase进行大数据存储:技术解析与实践
【6月更文挑战第7天】Apache HBase,一个基于HDFS的列式存储NoSQL数据库,提供高可靠、高性能的大数据存储。其特点是列式存储、可扩展至PB级数据、低延迟读写及多版本控制。适用场景包括大规模数据存储、实时分析、日志存储和推荐系统。实践包括集群环境搭建、数据模型设计、导入、查询及性能优化。HBase在大数据存储领域扮演关键角色,未来有望在更多领域发挥作用。
|
27天前
|
SQL 数据挖掘 BI
SQL DISTINCT关键字的使用技巧与实践
SQL DISTINCT关键字的使用技巧与实践
|
2月前
|
SQL 数据采集 监控
14个Flink SQL性能优化实践分享
本文档详细列举了Apache Flink SQL的性能调优策略。主要关注点包括:增加数据源读取并行度、优化状态管理(如使用RocksDB状态后端并设置清理策略)、调整窗口操作以减少延迟、避免类型转换和不合理的JOIN操作、使用广播JOIN、注意SQL查询复杂度、控制并发度和资源调度、自定义源码实现、执行计划分析、异常检测与恢复、监控报警、数据预处理与清洗、利用高级特性(如容器化部署和UDF)以及数据压缩与序列化。此外,文档还强调了任务并行化、网络传输优化、系统配置调优、数据倾斜处理和任务调度策略。通过这些方法,可以有效解决性能问题,提升Flink SQL的运行效率。
113 5
|
1月前
|
SQL 存储 关系型数据库
SQL 入门教程:从基础到实践
**SQL 概述与基础操作** SQL,结构化查询语言,用于管理和操作数据库。核心概念包括数据库、表、行和列。基本语法涵盖DQL(查询)、DDL(定义)、DML(操纵)和DCL(控制)。关键操作: 1. **查询**:`SELECT`从表中获取数据。 2. **插入**:`INSERT INTO`添加新记录。 3. **更新**:`UPDATE`修改数据。 4. **删除**:`DELETE`移除记录。高级操作涉及条件、排序、分组和联合查询。实践操作需要数据库环境,如MySQL或在线编辑器。通过实例学习,如查询员工信息、部门员工及增删改数据,掌握SQL基础。
39 0
|
2月前
|
SQL 监控 关系型数据库
【PolarDB开源】PolarDB SQL优化实践:提升查询效率与资源利用
【5月更文挑战第24天】PolarDB是高性能的云原生数据库,强调SQL查询优化以提升性能。本文分享了其SQL优化策略,包括查询分析、索引优化、查询重写、批量操作和并行查询,以及性能监控与调优方法。通过这些措施,可以减少响应时间、提高并发处理能力和降低成本。文中还提供了相关示例代码,展示如何分析查询和创建索引,帮助用户实现更高效的数据库管理。
208 1
|
2月前
|
SQL 关系型数据库 数据库
阿里云数据库 RDS SQL Server版实战【性能优化实践、优点探析】
本文探讨了Amazon RDS SQL Server版在云数据库中的优势,包括高可用性、可扩展性、管理便捷、安全性和成本效益。通过多可用区部署和自动备份,RDS确保数据安全和持久性,并支持自动扩展以适应流量波动。可视化管理界面简化了监控和操作,而数据加密和访问控制等功能保障了安全性。此外,弹性计费模式降低了运维成本。实战应用显示,RDS SQL Server版能有效助力企业在促销高峰期稳定系统并保障数据安全。阿里云的RDS SQL Server版还提供了弹性伸缩、自动备份恢复、安全性和高可用性功能,进一步优化性能和成本控制,并与AWS生态系统无缝集成,支持多种开发语言和框架。
219 2
|
2月前
|
SQL 资源调度 监控
Flink SQL性能优化实践
Apache Flink流处理性能优化指南:探索数据源读取并行度、状态管理、窗口操作的优化策略,包括设置默认并行度、使用RocksDB状态后端、调整窗口大小。调优方法涉及数据源分区、JOIN条件优化、使用Broadcast JOIN。注意SQL复杂度、并发控制与资源调度,如启用动态资源分配。源码层面优化自定义Source和Sink,利用执行计划分析性能瓶颈。异常检测与恢复通过启用检查点,监控任务性能。预处理数据、使用DISTINCT去重,结合UDF提高效率。选择高效序列化框架和启用数据压缩,优化网络传输和系统配置。处理数据倾斜,均衡数据分布,动态调整资源和任务优先级,以提升整体性能。
70 2