HBaseCon亚洲2018峰会盛大开幕 阿里带你洞悉HBase大数据生态最新发展和行业实践

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 Tair(兼容Redis),内存型 2GB
简介: 作为国内的主要社区贡献者,阿里巴巴此次联合小米、华为、滴滴等国内主流互联网企业承办的HBaseCon亚洲2018峰会落户北京,本次HBaseCon亚洲峰会不仅得到了Apache官方授权,还得到了来自Cloudera,Intel等商业公司社区PMC的强烈支持。

8月17日,HBaseCon亚洲2018峰会在北京歌华开元大酒店盛大开幕。作为Apache基金会旗下HBase社区的顶级用户峰会,HBaseCon大会是Apache HBase™官方从2012年开始发起和延续至今的技术会议,先后在美国加州、日本东京和中国深圳等地举办,得到了Google、Facebook、雅虎和阿里巴巴等众多全球顶级互联网公司大力支持。
image
作为国内的主要社区贡献者,阿里巴巴此次联合小米、华为、滴滴等国内主流互联网企业承办的HBaseCon亚洲2018峰会落户北京,本次HBaseCon亚洲峰会不仅得到了Apache官方授权,还得到了来自Cloudera,Intel等商业公司社区PMC的强烈支持。在本次峰会上,三十余位来自亚洲一线互联网和大数据生态相关企业的技术专家和社区领袖集体亮相,为广大开发者带来了HBase及大数据技术生态的最新洞察和行业实践。
image
在本次HBaseCon亚洲峰会的主论坛上,HBase资深PMC、Cloudera HBase负责人Michael Stack,以及HBase PMC、阿里巴巴高级技术专家Yu Li(李钰)站在开源社区的角度为大家分享了HBase的前世今生;同时,阿里巴巴资深技术专家Chunhui Shen(沈春辉)以及阿里云HBase技术负责人Long Cao(曹龙)则为大家分享了HBase在阿里巴巴集团以及阿里云中的最新发展动态。

此外,在本次HBaseCon亚洲峰会上,三十余位HBase高级技术专家还围绕HBase Internal、Ecology and Solution以及Application三个话题进行了深入的探讨和交流分享。本次HBaseCon亚洲峰会不仅为广大开发者提供了一个了解HBase社区的最新动态和发展计划的窗口,还分享了国内外一线大厂围绕HBase生态的生产实践经验,更为广大HBase开发者以及使用者带来了一场优质的技术盛宴。
image

本文就来看看HBaseCon亚洲2018峰会上来自阿里巴巴HBase技术专家的精彩分享。

1、Use CCSMap to improve HBase YGC time (Chance Li, Xiang Wang and Lijin Bin)

在本次分享中,三位阿里巴巴技术专家为我们分享了使用CCSMap的原因,CCSMap的具体数据结构,阿里巴巴又是如何通过使用CCSMap来提升HBase YGC时间,以及对于未来进一步相关工作的展望。除此之外,在演讲中还分享了2018年以来,阿里巴巴在搜索方面对于提升服务等级协议(SLA)所作出的努力。
image

CCSMap是采用了紧凑的数据格式实现的排序Map,其支持无锁的并发写入和查询,能够降低系统的内存消耗,并大幅度降低GC的停顿时间,提升系统的吞吐。与JDK自带的ConcurrentSkipListMap相比而言,CCSMap在50Byte长度KV的测试中,读写吞吐提升了 20~30%,内存占用减少了40%。

2、Separating hot-cold data into heterogeneous storage based on layered compaction (Wenlong Yang)

在本次分享中,HBase Committer,阿里巴巴技术专家,HBase内核负责人WenLong Yang(杨文龙)为大家介绍了HBase上的一种基于分层Compaction和异构存储的冷热分离方案。这种冷热自动分离的特性,能够在系统内部对数据按时间进行物理分层和异构存储(如冷数据使用低成本介质和高压缩率算法,热数据使用高速介质和低压缩率算法),并且对用户访问保持透明。在分享中,杨文龙结合阿里巴巴集团的典型业务场景,从冷热数据的识别、分层压实以及查询优化三个方面深入浅出地为大家讲解了HBase上的内建的冷热多层异构存储特性。
image

以往的冷热分离方案通常需要构建多个表或者集群来分散地存放冷热数据,而在阿里巴巴内部的HBase分支AliHB中,实现了一套全新的冷热分离方案。这套方案在一张表里通过compaction将冷热数据自动分开,并且能根据冷热数据的特点使用异构介质来平衡存储的性能和成本。同时,针对业务的查询,该方案能够自动地帮助用户进行存储优化,整个过程完全对业务完全透明。在阿里巴巴对于内部业务的测试中发现,这套新的冷热分离存储方案能够降低50%的RT以及25%的存储空间。

3、Kerberos—based Big Data Security Solution and Practice in Alibaba Cloud HBase (Jiajia Li and Chao Guo)

在本次分享中,Apache Kerby/Directory PMC,Intel大数据研发工程师Jiajia Li(李佳佳)与阿里云高级开发工程师Chao Guo(郭超)为大家分享了基于Kerberos的大数据安全解决方案以及其在阿里云HBase上的应用实践。本次分享从Hadoop的鉴权服务谈起,为大家介绍了Hadoop的鉴权服务的背景以及HAS(Hadoop Authentication Service)的相关知识,之后结合具体的实践介绍了阿里云HBase的大数据安全解决方案,以及阿里云在该方案的基础之上所做的相关优化工作。
image

本次分享中介绍的基于Kerberos的大数据安全解决方案是一种全新的认证解决方案HAS,阿里巴巴已经将该方案应用于阿里云数据库HBase(ApsaraDB for HBase)上的安全和工程应用实践中。HAS支持插件的方式将企业现有的身份认证系统接入Kerberos,使得安全管理人员不需要在已有用户账号系统和Kerberos数据库之间迁移和同步。因此,开源大数据生态系统的大部分组件可以以很小的成本接入HAS。阿里云ApsaraDB for HBase对HAS实现了高可用、高性能、强安全、定制化plugin认证方式等安全和生产环境的稳定性功能。

4、HTAP DB—System : ApsaraDB HBase Phoenix and Spark (Yun Zhang and Wei Li)

在本次分享中,阿里云高级开发工程师Yun Zhang(张赟)和阿里云技术专家Wei Li(李伟)首先从架构设计、用例场景、最佳实践以及挑战与提升这四个方面为大家介绍了基于阿里云ApsaraDB HBase的Phoenix,之后又为大家介绍了如何将ApsaraDB HBase/Phoenix与Spark结合起来发挥更大的价值,不仅为大家分析了选用Spark的原因,还详细地介绍了融合使用ApsaraDB HBase和Spark的架构设计与具体实现,最后还针对于此方案适用的大数据在线报表服务、日志索引以及查询等4种典型应用场景进行了介绍。
image

Phoenix查询引擎支持使用SQL进行HBase数据的查询,会将SQL查询转换为一个或多个HBase API,协同处理器与自定义过滤器的实现,并编排执行。使用Phoenix进行简单查询,性能量级能够达到毫秒级别。

5、A real—time cold backup solution for HBase with zero HBase modification,low latency and heterogeneous storage (QingYi Meng)

在本次分享中,阿里巴巴技术专家QingYi Meng(孟庆义)为大家介绍了能够实现一种零侵入,低延时,异构存储的HBase实时冷备解决方案。在分享中,QingYi Meng首先从HBase的备份发展现状谈起,之后介绍了阿里巴巴对于HBase数据备份的具体需求,在需求之后,重点介绍了阿里巴巴的零侵入的存量备份方案,以及在低延时,快速集群重建方面的设计和实践,在分享的最后还对于数据备份的未来进行了展望。
image

数据可靠性是业务的生命线,同时也是分布式存储系统的核心价值之一。常见的主备容灾,异地多活可以做到机房级、城市级的容灾保障,但通常的解决方案使用的是同构系统,并且由单一团队运维,由于软件缺陷或者运维人员失误而造成的数据丢失案例是真实存在的。另一方面,可能发生的数据污染要求系统具备回溯到任意历史时间点的能力。而独立于HBase部署的零侵入,低延时,异构存储的HBase实时冷备方案,能够在不影响线上业务的情况下通过周期存量备份+实时增量备份的方式将数据存储在异构系统中。

更多精彩欢迎观看大会视频https://yq.aliyun.com/promotion/631

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
3月前
|
SQL 分布式计算 运维
如何对付一个耗时6h+的ODPS任务:慢节点优化实践
本文描述了大数据处理任务(特别是涉及大量JOIN操作的任务)中遇到的性能瓶颈问题及其优化过程。
|
2月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
92 4
|
4月前
|
Java 大数据 分布式数据库
Spring Boot 与 HBase 的完美融合:探索高效大数据应用开发的新途径
【8月更文挑战第29天】Spring Boot是一款广受好评的微服务框架,以其便捷的开发体验著称。HBase则是一个高性能的大数据分布式数据库系统。结合两者,可极大简化HBase应用开发。本文将对比传统方式与Spring Boot集成HBase的区别,展示如何在Spring Boot中优雅实现HBase功能,并提供示例代码。从依赖管理、连接配置、表操作到数据访问,Spring Boot均能显著减少工作量,提升代码可读性和可维护性,使开发者更专注业务逻辑。
294 1
|
28天前
|
存储 消息中间件 分布式计算
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
Cisco WebEx 早期数据平台采用了多系统架构(包括 Trino、Pinot、Iceberg 、 Kyuubi 等),面临架构复杂、数据冗余存储、运维困难、资源利用率低、数据时效性差等问题。因此,引入 Apache Doris 替换了 Trino、Pinot 、 Iceberg 及 Kyuubi 技术栈,依赖于 Doris 的实时数据湖能力及高性能 OLAP 分析能力,统一数据湖仓及查询分析引擎,显著提升了查询性能及系统稳定性,同时实现资源成本降低 30%。
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
|
1月前
|
边缘计算 人工智能 搜索推荐
大数据与零售业:精准营销的实践
【10月更文挑战第31天】在信息化社会,大数据技术正成为推动零售业革新的重要驱动力。本文探讨了大数据在零售业中的应用,包括客户细分、个性化推荐、动态定价、营销自动化、预测性分析、忠诚度管理和社交网络洞察等方面,通过实际案例展示了大数据如何帮助商家洞悉消费者行为,优化决策,实现精准营销。同时,文章也讨论了大数据面临的挑战和未来展望。
|
3月前
|
存储 分布式计算 分布式数据库
深入理解Apache HBase:构建大数据时代的基石
在大数据时代,数据的存储和管理成为了企业面临的一大挑战。随着数据量的急剧增长和数据结构的多样化,传统的关系型数据库(如RDBMS)逐渐显现出局限性。
558 12
|
2月前
|
SQL 消息中间件 分布式计算
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
106 0
|
2月前
|
SQL 大数据
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
76 0
|
2月前
|
SQL 消息中间件 分布式计算
大数据-130 - Flink CEP 详解 - CEP开发流程 与 案例实践:恶意登录检测实现
大数据-130 - Flink CEP 详解 - CEP开发流程 与 案例实践:恶意登录检测实现
68 0
|
4月前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决