前言
阿里云云HBase团队在2月份推出了云HBase产品,此款产品的内核在集团内部已经使用了6年之久,那么跟社区版本的HBase有怎样的区别,我们又做了怎样的产品化,本系列将会为用户详细介绍这些点。
云HBase地址:https://cn.aliyun.com/product/hbase
云HBase
云HBase的内核是基于开源社区1.1版本系列,在此之上深度改造,之前阿里在较早版本有较多的优化也会渐渐迁移到此版本中。目前在内部服务了整个集团的大数据结构化存储需求,比如:平台类需求:日志同步服务、监控系统等;用户物体行为类需求:淘宝交易、收藏夹、旺旺消息、物联网等;报表类需求:天猫大屏、商家报表等。这些有很大一部分是因为Mysql等传统关系型数据库不能满足需求,分库分表又比较麻烦且不能根本解决问题。较大的一些互联网公司,比如:google、facebook、alibaba在较早就寻求了新的解决方案-HBase。随着互联网的发展,我们遇到很多中小型公司,都有数T、数P的HBase集群,且这些集群没有改动过一行HBase源代码,出现问题后也只能干瞪眼,服务长时间不可用甚至面临数据丢失的风险,更加不会去改造HBase以满足日益增长业务需求。
云HBase团队不会满足就拿开源包装,我们真正做的是需要深度改造内核,满足日益复杂化、多样化的大数据存储需求。阿里从2011年初开始步入HBase的发展、建设之路,是国内最早应用、研究、发展、回馈的团队,也诞生了HBase社区在国内的第一位Committer,成为HBase在中国发展的积极布道者。过去的几年时间,阿里累积向社区回馈了上百个Patch, 在诸多核心模块的功能、稳定性、性能作出积极重大的贡献,拥有多位Committer,成为推动HBase的长远发展的重要力量之一。
云HBase建设
主要是两个体系:
- 管控体系:由于我们有数千个、甚至数万个HBase集群,所以,我们必须是自动化的。这个体系建设的是怎么去管控好10000个HBase集群,为数万家公司提供云HBase的服务。
- 内核建设:目前云HBase主要围绕云上构建HBase,需要充分利用云的优势,比如:弹性、资源无限、随时随地、默认有多个可用区及多个地区。我们主要围绕:性能、运维、成本、安全、可用性、功能等方面建设内核。
具体会在每个章节具体论述,由于篇幅较多,本篇博客,只作为指引。
场景特性类
HBase的特性比较多,比如:TTL、离散的TTL、多版本、动态列、异步写等等。这些根据具体的场景结合能发挥HBase较大的优势,也会有一些篇幅总结此类,当然也会穿插在云HBase的建设之中。
社区HBase
我们也会积极贡献回社区,我们也会积极跟进社区的新的功能,也会把社区好功能反馈到云HBase中。
后记
我们有很多功能没有放出来,或者说在公测阶段没有,或者还来不及产品化,请一定关注我们的产品发展。此篇博文系列,也将会列出后续云HBase重点的特性、功能点。云HBase团队目的就是让客户能享受阿里巴巴一样的HBase服务,每个公司都能基于云HBase做出自己好的产品。
HBase技术交流社区 - 阿里官方“HBase生态+Spark社区大群”点击加入:https://dwz.cn/Fvqv066s