阿里巴巴高级技术专家 李钰(绝顶)在2017杭州云栖大会中做了题为《HBase在阿里搜索推荐中的应用》的分享,就HBase的历史和规模、应用场景、问题与优化、开源与未来做了深入的分析。
https://yq.aliyun.com/download/1772?spm=a2c4e.11154804.0.0.20686a79ubOXWh
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在2017杭州云栖大会中,阿里巴巴高级技术专家李钰(绝顶)的分享《HBase在阿里搜索推荐中的应用》深入探讨了HBase的关键方面,尽管直接的分享内容细节未包含在当前知识库中,我们可以根据已有的资料概述HBase的应用场景、优势及技术特性,这些信息与李钰分享的主题紧密相关。
**1. 应用场景概述
大数据场景:HBase适用于海量全量数据的低成本存储、快速批量导入和实时访问,能与Spark、MaxCompute等大数据平台集成,支持大规模离线分析。
广告系统:处理高并发、低延迟需求,存储用户画像特征、点击流等,支撑实时竞价和广告定位投放服务。
车联网:存储车辆轨迹、状态信息,服务于网约车、物流运输、新能源车检测等领域,提供弹性、低成本解决方案。
互联网社交:存储聊天记录、评论等,构建稳定可靠的现代社交Feed流系统。
金融与零售:管理海量订单记录、风控数据,满足行业对成本、并发和灵活性的要求。
IoT与时空数据:如车联网、智慧物流,实时处理位置数据,进行监控、路径规划和分析。
2. 核心优势
高性能:单个毫秒级响应时间,水平扩展至千万级QPS。
低成本:高压缩比,支持冷热数据分离,使用HDD/OSS存储降低成本。
弹性扩展:存储计算分离架构,独立伸缩,自动化扩容。
灵活数据模型:动态列,自由增减属性;TTL自动过期;多版本支持。
高可用性:主备双活容灾,请求自动容错,SLA达99.95%。
数据压缩与编码:支持多种压缩算法(LZO, ZSTD, LZ4等),以及DataBlockEncoding减少重复数据,优化存储效率。
数据压缩算法选择:根据业务类型选择合适的压缩算法,如对实时性要求极高时推荐使用LZ4,而监控类或物联网场景建议采用ZSTD以获得更高压缩率。
操作指南:通过alter
命令修改表属性实现压缩编码设置,并通过major_compact
命令执行大压缩,注意在业务低峰期操作以避免影响性能。
综上所述,虽然无法直接提供分享的具体内容,但基于现有知识库,可以看出HBase在阿里巴巴体系内特别是在搜索推荐、大数据处理、广告、车联网、社交、金融零售以及IoT等场景中扮演着关键角色,其设计旨在满足高并发、低延迟、低成本和高度可扩展性的需求。通过不断的技术优化和策略调整,如高效的数据压缩与编码策略,HBase持续为阿里巴巴集团内外的多样化业务提供强有力的支持。