云HBase建设之开篇

本文涉及的产品
RDS PostgreSQL Serverless,0.5-4RCU 50GB 3个月
推荐场景:
对影评进行热评分析
云数据库 RDS SQL Server,基础系列 2核4GB
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
简介: 阿里云云HBase团队在2月份推出了云HBase产品,此款产品的内核在集团内部已经使用了6年之久,那么跟社区版本的HBase有怎样的区别,我们又做了怎样的产品化,本系列将会为用户详细介绍这些点。

前言

阿里云云HBase团队在2月份推出了云HBase产品,此款产品的内核在集团内部已经使用了6年之久,那么跟社区版本的HBase有怎样的区别,我们又做了怎样的产品化,本系列将会为用户详细介绍这些点。
云HBase地址https://cn.aliyun.com/product/hbase

云HBase

云HBase的内核是基于开源社区1.1版本系列,在此之上深度改造,之前阿里在较早版本有较多的优化也会渐渐迁移到此版本中。目前在内部服务了整个集团的大数据结构化存储需求,比如:平台类需求:日志同步服务、监控系统等;用户物体行为类需求:淘宝交易、收藏夹、旺旺消息、物联网等;报表类需求:天猫大屏、商家报表等。这些有很大一部分是因为Mysql等传统关系型数据库不能满足需求,分库分表又比较麻烦且不能根本解决问题。较大的一些互联网公司,比如:google、facebook、alibaba在较早就寻求了新的解决方案-HBase。随着互联网的发展,我们遇到很多中小型公司,都有数T、数P的HBase集群,且这些集群没有改动过一行HBase源代码,出现问题后也只能干瞪眼,服务长时间不可用甚至面临数据丢失的风险,更加不会去改造HBase以满足日益增长业务需求。
云HBase团队不会满足就拿开源包装,我们真正做的是需要深度改造内核,满足日益复杂化、多样化的大数据存储需求。阿里从2011年初开始步入HBase的发展、建设之路,是国内最早应用、研究、发展、回馈的团队,也诞生了HBase社区在国内的第一位Committer,成为HBase在中国发展的积极布道者。过去的几年时间,阿里累积向社区回馈了上百个Patch, 在诸多核心模块的功能、稳定性、性能作出积极重大的贡献,拥有多位Committer,成为推动HBase的长远发展的重要力量之一。

云HBase建设

主要是两个体系:

  • 管控体系:由于我们有数千个、甚至数万个HBase集群,所以,我们必须是自动化的。这个体系建设的是怎么去管控好10000个HBase集群,为数万家公司提供云HBase的服务。
  • 内核建设:目前云HBase主要围绕云上构建HBase,需要充分利用云的优势,比如:弹性、资源无限、随时随地、默认有多个可用区及多个地区。我们主要围绕:性能、运维、成本、安全、可用性、功能等方面建设内核。

具体会在每个章节具体论述,由于篇幅较多,本篇博客,只作为指引。
hbase_

场景特性类

HBase的特性比较多,比如:TTL、离散的TTL、多版本、动态列、异步写等等。这些根据具体的场景结合能发挥HBase较大的优势,也会有一些篇幅总结此类,当然也会穿插在云HBase的建设之中。

社区HBase

我们也会积极贡献回社区,我们也会积极跟进社区的新的功能,也会把社区好功能反馈到云HBase中。

后记

我们有很多功能没有放出来,或者说在公测阶段没有,或者还来不及产品化,请一定关注我们的产品发展。此篇博文系列,也将会列出后续云HBase重点的特性、功能点。云HBase团队目的就是让客户能享受阿里巴巴一样的HBase服务,每个公司都能基于云HBase做出自己好的产品。

社群

技术交流钉钉大群 阿里云 HBase+Spark社区 【强烈推荐!】 群内每周进行群直播技术分享及问答

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
1月前
|
存储 缓存 监控
【赵渝强老师】HBase的体系架构
本文介绍了HBase的体系架构,包括HMaster、RegionServer和ZooKeeper的主要功能。HMaster负责Region的分配和管理,RegionServer处理数据的读写操作,ZooKeeper维护集群状态并协调分布式系统的运行。文章还详细解释了Region、WAL预写日志、Block Cache读缓存和MemStore写缓存的作用。
|
存储 NoSQL 关系型数据库
每日积累【Day 3】Hbase架构深入学习
每日积累【Day 3】Hbase架构深入学习
每日积累【Day 3】Hbase架构深入学习
|
存储 分布式计算 Hadoop
大数据开发笔记(十):Hbase实践
(要求先配置好hadoop环境,版本hadoop2皆可,先启动zookeeper)
141 0
|
分布式计算 IDE Java
【小白视角】大数据基础实践(四) 分布式数据库HBase的常用操作
目录 1. 环境配置 2. 操作步骤: 2.1 环境搭建 2.2 Hbase Shell 2.3 Java Api 3. 结论 最后 1. 环境配置 ⚫ 操作系统:Linux(建议 Ubuntu18.04); ⚫ Hadoop 版本:3.1.3; ⚫ JDK 版本:1.8; ⚫ Java IDE:IDEA; ⚫ Hadoop 伪分布式配置 ⚫ HBase1.1.5
249 0
【小白视角】大数据基础实践(四) 分布式数据库HBase的常用操作
|
存储 数据采集 消息中间件
阿里HBase在用户画像领域的实践
互联网应用的一个特点是拥有海量的用户,这些海量的用户会产生海量的行为数据,有些产品还会需要去爬取更多的外部数据。基于海量数据的模型训练最终刻画出用户画像,基于用户画像自动的指导系统决策,在效率和准确度上给行业带来了质变。
6375 0
阿里HBase在用户画像领域的实践
|
存储 大数据 分布式数据库
|
Hbase 分布式数据库 监控
阿里HBase高可用8年“抗战”回忆录
2011年毕玄和竹庄两位大神将HBase引入阿里技术体系,2014年接力棒转到东8区第一位HBase commiter天梧手中,多年来与淘宝、旺旺、菜鸟、支付宝、高德、大文娱、阿里妈妈等几乎全BU合作伙伴携手共进,支撑了双十一大屏、支付宝账单、支付宝风控、物流详情等核心业务。2018年双十一,HBase全天处理请求2.4万亿行,单集群吞吐达到千万级别。从一个婴儿成长为青年,阿里HBase摔过很多次,甚至头破血流,我们在客户的信任之下幸运的成长,感激涕零。
3999 0
|
存储 监控 大数据
基于阿里云HBase产品的游戏大数据实践
本文介绍了厦门点触科技股份有限公司使用阿里云HBase建立游戏大数据平台的实践。
3141 0
|
存储 监控 分布式数据库
“十年磨一剑”--有赞的HBase平台实践和应用之路
在中国HBase技术社区第十届meetup杭州站中,有赞数据开发工程师赵原向大家分享了HBase在有赞的产品定位,重点介绍了有赞HBase和相关管控平台的研发建设、以及在HBase 1.2.6版本之上所做的改造、改造原因以及给业务实践带来的价值。
3805 0
|
大数据 分布式数据库 数据库
HBase+Spark技术双周刊 第四期
群直播 线下活动 推荐专家
3490 0