当海量存储系统插上搜索引擎的翅膀,阿里云HBase增强版(Lindorm)全文索引功能技术解析

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 Tair(兼容Redis),内存型 2GB
简介: 作者:正研

新用户9.9元即可使用6个月云数据库HBase,更有低至1元包年的入门规格供广大HBase爱好者学习研究,更多内容请参考链接

阿里云HBase增强版(Lindorm)简介

阿里云数据库HBase增强版,是基于阿里集团内部使用的Lindorm产品研发的、完全兼容HBase的云上托管数据库,从2011年开始正式承载阿里内部业务的海量数据实时存储需求,支撑服务了淘宝、支付宝、菜鸟、优酷、高德等业务中的大量核心应用,历经双十一、春晚、十一出行节等场景的大规模考验,在成本、性能、稳定性、功能、安全、易用性等方面相比社区版拥有诸多优势和企业级能力,更多介绍可以参考Lindorm帮助文档(https://help.aliyun.com/document_detail/119548.html

当大数据存储遇上复杂查询

HBase是目前广泛使用的NoSQL数据库,其具有Schemeless特性,高吞吐,海量存储和无限水平扩展的特性,因此被很好地应用在了推荐、风控、物联网、画像、表单等所有大数据场景。但是原生的HBase只支持Rowkey索引,即按rowkey的二进制排序的索引。HBase的Scan请求可基于此rowkey索引高效的执行整行匹配、前缀匹配、范围查询等操作。但若需要使用rowkey之外的列进行查询,则只能使用filter在指定的rowkey范围内进行逐行过滤。若无法指定rowkey范围,则需进行全表扫描,不仅浪费大量资源,查询RT也无法保证。

为了解决用户基于非主键列的查询问题,阿里云HBase增强版(Lindorm)内置原生的全局二级索引功能,对于列较少且有固定查询模式的场景来说,阿里云的高性能二级索引方案能够完美解决此类问题,同时仍保持强大的吞吐与性能。这个索引方案在阿里内部使用多年,经历了多次双11考验,尤其适合解决海量数据的全局索引场景。关于高性能二级索引,用户可以参考《数据查询的玄铁剑:Lindorm二级索引功能解析》一文(https://developer.aliyun.com/article/740009 ), 同时,社区也有Phoenix,在HBase之上提供了插件式的二级索引以及SQL能力,使用SQL可以比较简单地表达一些复杂查询。

但是,当面对更加复杂的查询,比如表单、日志查询里面的模糊查找,用户画像里面的随机条件组合查询等等,二级索引方案会显得力不从心。而这些查询,正是搜索引擎的优势。
image.png
Solr是分布式全文检索的最佳实践之一。Solr支持各种复杂的条件查询和全文索引。通过智能集成Solr,Lindorm可以充分发挥海量数据的实时存储和检索能力,使得其可以高效支撑于:需要保存大数据量数据,而查询条件的字段数据仅占原数据的一小部分,并且需要各种条件组合查询的业务。例如:

  • • 常见物流业务场景,需要存储大量轨迹物流信息,并需根据多个字段任意组合查询条件
  • • 交通监控业务场景,保存大量过车记录,同时会根据车辆信息任意条件组合检索出感兴趣的记录
  • • 各种网站会员、商品信息检索场景,一般保存大量的商品/会员信息,并需要根据少量条件进行复杂且任意的查询,以满足网站用户任意搜索需求等。

数据同步的难题

要想在Lindorm中集成Solr,必须想办法将业务写入Lindorm的主表数据实时索引到Solr中,然而存储主表数据的宽表引擎和存储索引数据的Solr检索引擎有很大的差异性,比如数据模型上,两者差别较大,写入能力上,也有巨大的差异。针对宽表与检索两种异构引擎间的数据同步,目前市面上主要有两种类似的方案:

应用双写

双写是最容易想到,也是最容易实现的方案。以用户自己维护的双写HBase+Solr为例:
业务将数据写入HBase的同时,也将同样的数据写入Solr即可。有些用户使用了HBase的Coprocessor功能,hook了HBase的写入逻辑,在HBase完成写入时,在Coprocessor中写入solr,本质上也是双写HBase和Solr
image.png
但双写HBase和Solr存在非常多的问题,需要用户自己去解决:
一致性难以保证

  • 当HBase写入成功,Solr写入失败,或者HBase写入失败,Solr写入成功都会造成数据不一致,用户需要自己处理此类情况。
  • HBase支持更新部分列,而Solr只能整行更新,因此当更新HBase后,还需要在HBase中读取整行数据,才能写入Solr,当有多个线程同时修改一行时,会导致HBase和Solr中的数据不一致。
  • 就算用户写入HBase时是整行全量更新,无需回读,写入HBase和写入Solr并不是原子更新,很难保证HBase的写入顺序跟Solr中的修改顺序一致从而导致数据不一致问题

稳定性降低
双写HBase和Solr等于把HBase和Solr的可用性捆绑在了一起。Solr的可用性会反过来影响HBase的可用性。一旦Solr出现问题,用户要么选择放弃写Solr,放弃数据一致性来确保可用性,要么只能无限重试等待Solr恢复来确保数据一致性,但降低了可用性。在HBase的Coprocessor中写Solr的用户的稳定性问题尤为突出,如果用户没有处理好Solr的抛错和重试时的内存管理,很容易直接造成HBase RegionServer的宕机。
读写能力下降
很多用户选择HBase的主要原因是HBase具有海量吞吐能力,而现在双写Solr等于将HBase的写入能力拉低到了Solr的水平,大部分业务都无法接受。同时双写时需要回读HBase获取整行数据,回读会造成HBase额外的压力,从而进一步降低了HBase的读写能力

开源Lily HBase Indexer

Lily HBase Indexer(下文简称Indexer)是Cloudera推出的HBase和Solr之间的数据同步组件。他利用了HBase的Replication功能,将自己"伪装"成一个HBase的Replication sink集群,当HBase有数据写入时,Replication会通过读取WAL文件获取最新更新传输到Indexer里,然后再由Indexer写入Solr。
image.png
同样,这套方案也存在大量问题:
同步效率低

  • Indexer使用的是Replication框架。在Replication框架下,一行数据的更新需要先要序列化写入WAL,然后通过Replication从WAL中读出反序列化,然后序列化成二进制数据发送到Indexer,Indexer再反序列化成数据才能写入Solr。整个过程非常低效,同步的速率受限于HBase的Replication能力,往往Solr的写入瓶颈还没达到,就已经达到了HBase的Replication瓶颈。
  • Indexer的同步模型是每一个HBase表,都开启一条Replication通道(一个Replication Peer)。有10张HBase表需要同步到Solr,就必须有10个Replication Peer,这意味着同一个WAL,会被读取10次(每个peer都读取一次)随着同步表的增多,对HDFS的压力也就越大。
  • 由于HBase是SchemaLess的,Indexer收到Replication发过来的WAL后,无法知道是否在WAL中有整行数据,因此它必须在写Solr之前回读HBase获取整行数据。因此实际上,WAL中的entry发送过来后,有用的只有rowkey,其他的数据还是要依靠回读,这些WAL entry经历了这么长的发送链路,但大部分信息却是无用的。同时,回读会占用HBase资源,影响HBase稳定性。

数据一致性无法保证
使用Indexer同步HBase到Solr会经常遇到两者之间数据不一致的问题,这也是Indexer的用户吐槽最多的地方。

这些不一致往往发生的非常随机,一般用户也很难查到原因,让人摸不到头脑。我们深入研究Indexer后发现了他的问题所在。由于Indexer依赖了HBase的Replication做同步,而HBase Replication有一个重要的特点就是乱序发送,这对于HBase集群之间的Replication无影响,因为HBase可以用KV的时间戳来保证最终一致。但是Solr是不支持列时间戳的,HBase的写入乱序到达Indexer会导致写入Solr中的数据与HBase不一致。

比如用户有两次更新同一行,。但是在replication过程中, ts2的更新先到Indexer,而ts1的更新后到,这会导致Indexer将Solr中的这行的数据更新成value1,导致HBase和Solr的数据不一致。另外,由于HBase是先写WAL再内存可见,在回读HBase过程中,Indexer也可能没有获取到最新数据导致Solr数据不一致。

同时HBase支持多family,多版本,自定义时间戳,各种类型的删除,Solr模型的支持比较有限,Indexer没有处理好这些问题,我们发现有多个case都会导致HBase和Solr的数据不一致,这里就不一一列举了。
Indexer官方已经不再维护
Indexer社区代码已经4年没有更新,所有的这些问题都不会再修复,这也是使用Indexer的最大风险,面对这些问题和bug,用户只能自行解决。

云HBase增强版(Lindorm)全文索引

通过分析应用双写和开源的Lily HBase Indexer存在的种种问题,Lindorm在研发全文索引功能时,从中吸取相关经验,进行创新的设计,使得宽表和检索两类引擎正确而自然的结合在一起,方便用户即开即用。
image

在此方案中,我们选用了自研的BDS组件做Lindorm的宽表引擎到Solr检索引擎间的数据同步。BDS是一个cloud native的HBase生态数据同步服务,可以提供高效的数据实时同步和全量迁移能力,关于BDS的介绍,用户可以参照《BDS - HBase数据迁移同步方案的设计与实践》一文(https://yq.aliyun.com/articles/704977 )。
image.png
在此方案中,我们使用BDS完美解决了Lindorm的宽表引擎和检索引擎Solr因为模型不一致,WAL乱序等等问题带来的数据不一致问题。不管用户是部分更新,多版本,自定义时间戳,多family写入,还是删除行、列,两个引擎之间的数据都不会产生不一致问题(具体的做法在申请专利中,专利申请完成后再专文对外分享)。
同时整个系统采用分布式分层架构,各个组件之间可以独立自由伸缩,BDS服务、Lindorm的宽表引擎服务和检索引擎服务都具备无限的横向扩展能力,从而提供海量数据的无限存储和实时检索。
在使用上, Lindorm全文索引功能非常简单易用,用户可以通过HBase Shell(Lindorm原生API暂未开放)就可以管理同步映射的Schema,BDS对于用户来说是完全透明的。不像在Lily HBase Indexer方案中,用户还需要和Indexer交互,管理schema。具体的操作大家可以参考全文索引使用快速入门的帮助(https://help.aliyun.com/document_detail/161121.html ),简单来说,用户只需要在HBase Shell中执行一条命令,就可以为数据列创建Solr索引

 hbase shell> add_external_index_field 'testTable', {FAMILY => 'f', QUALIFIER => 'money', TARGETFIELD => 'money_f', TYPE => 'FLOAT' }

同时BDS还具有丰富的WebUI界面和监控和报警信息,用户可以非常方便地获取同步状态和报错信息。比如在云监控中,我们可以清晰地看到同步的延迟,同时可以通过订阅报警,随时发现异常。
image.png
最后是 阿里云HBase增强版(Lindorm)全文索引与其他方案的一个对比

方案 双写 Lily HBase Indexer Lindorm全文索引
同步效率 受限于Solr 受限于HBase Replication,扩展性差 受限于Solr
稳定性 会影响HBase稳定性 会影响HBase稳定性 无影响
数据一致性 无法保证 无法保证 可以保证一致性
Cloud Native N/A N/A 云原生,支持扩容,升级配置,同步通道可独立扩展,报警监控一应俱全

案例介绍

目前已经有非常多的公司和业务已经在线上使用Lindorm的全文索引。这里给大家介绍几个使用案例。

某快递公司包裹平台

该快递公司的包裹系统原来使用了Oracle,由于业务的增长Oracle的单表数据过大已经造成瓶颈,并且只能存储1个月的数据。在这么大规模的数据下,上万网点的分析查询已经慢到无法接受的程度。该公司采用了Lindorm全文索引的方案改造之后,不仅可以将可查数据扩展到6个月,在引入Solr做多维查询后,查询能力也比之前好了五倍。

image.png

某O2O公司订单系统

该公司原来的订单查询系统使用了DRDS分库分表,由于订单量巨大,DRDS分32个库都已经只能放下6个月的订单数据。而该公司希望查询系统能够查询所有订单数据。同时由于查询时有多达15个维度条件的随机组合查询,传统的二级索引方案已经无法满足要求。在选用了Lindorm全文索引方案后,得益于Lindorm的海量存储能力,一个表就能放下所有历史数据。由于单个Solr的表索引数据不宜过大,因此该业务使用了我们推荐的Solr分库分表功能(Alias功能),Lindorm宽表存储中的数据自动增量同步到不同的Solr Collection中(按时间分割),在查询时,无需查询全量Solr数据,只需要根据时间维度查询少量Solr Collection。在新方案下,该公司不仅实现了能够在线查询所有历史数据,还能秒级返回查询结果。

image.png

某在线教育公司营销平台

该公司原来的营销平台直接基于MySQL,由于MySQL列不能太多,只能把各个系统的数据分布在多张表内,然后再采用DTS同步的方式,订阅Binlog,再写入到自建HBase的大宽表中。然后把写入事件记在Kafka上,再消费Kafka的消息,回读HBase数据同步到Solr中,最后提供给营销系统使用。整个链路非常长,组件非常多,难以维护,容易出稳定性问题。在使用了Lindorm的全文索引方案后,仅仅使用了一个Lindorm就解决了所有的问题,简单易运维,同时获得了 Cloud native的能力,各个组件都可以无限水平扩展和扩容。

image.png
总结
阿里云Lindorm全文索引方案给广大用户提供了存储与检索的一站式解决能力,相比之前的方案,不仅简单易用,容易维护,同时能够利用Cloud Native的特性解决一系列运维上的难题。在技术上,阿里云Lindorm使用了一种高性能,低延迟的异构存储同步方案,避免了之前一些方案的性能问题,并完美地解决了宽表引擎和检索引擎的模型差异所带来的数据不一致的问题,在后续的计划中,Lindorm还将提供统一的多维查询能力,系统会自动利用Solr索引对多条件查询加速,而无需应用显示地访问Solr,进一步优化使用体验。目前,有大量的公司和用户已经基于此功能打造了他们的在线查询和离线分析系统,欢迎更多的用户前来试用。产品主页:https://www.aliyun.com/product/hbase ,产品使用帮助:https://help.aliyun.com/document_detail/146604.html

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
97 10
|
4天前
|
自然语言处理 文字识别 数据处理
多模态文件信息抽取:技术解析与实践评测!
在大数据和人工智能时代,企业和开发者面临的挑战是如何高效处理多模态数据(文本、图像、音频、视频)以快速提取有价值信息。传统方法效率低下,难以满足现代需求。本文将深度评测阿里云的多模态文件信息抽取解决方案,涵盖部署、应用、功能与性能,揭示其在复杂数据处理中的潜力。通过自然语言处理(NLP)、计算机视觉(CV)、语音识别(ASR)等技术,该方案助力企业挖掘多模态数据的价值,提升数据利用效率。
18 4
多模态文件信息抽取:技术解析与实践评测!
|
6天前
|
存储 物联网 大数据
探索阿里云 Flink 物化表:原理、优势与应用场景全解析
阿里云Flink的物化表是流批一体化平台中的关键特性,支持低延迟实时更新、灵活查询性能、无缝流批处理和高容错性。它广泛应用于电商、物联网和金融等领域,助力企业高效处理实时数据,提升业务决策能力。实践案例表明,物化表显著提高了交易欺诈损失率的控制和信贷审批效率,推动企业在数字化转型中取得竞争优势。
43 14
|
7天前
|
域名解析 负载均衡 安全
DNS技术标准趋势和安全研究
本文探讨了互联网域名基础设施的结构性安全风险,由清华大学段教授团队多年研究总结。文章指出,DNS系统的安全性不仅受代码实现影响,更源于其设计、实现、运营及治理中的固有缺陷。主要风险包括协议设计缺陷(如明文传输)、生态演进隐患(如单点故障增加)和薄弱的信任关系(如威胁情报被操纵)。团队通过多项研究揭示了这些深层次问题,并呼吁构建更加可信的DNS基础设施,以保障全球互联网的安全稳定运行。
|
7天前
|
缓存 网络协议 安全
融合DNS技术产品和生态
本文介绍了阿里云在互联网基础资源领域的最新进展和解决方案,重点围绕共筑韧性寻址、赋能新质生产展开。随着应用规模的增长,基础服务的韧性变得尤为重要。阿里云作为互联网资源的践行者,致力于推动互联网基础资源技术研究和自主创新,打造更韧性的寻址基础服务。文章还详细介绍了浙江省IPv6创新实验室的成立背景与工作进展,以及阿里云在IPv6规模化部署、DNS产品能力升级等方面的成果。此外,阿里云通过端云融合场景下的企业级DNS服务,帮助企业构建稳定安全的DNS系统,确保企业在数字世界中的稳定运行。最后,文章强调了全链路极致高可用的企业DNS解决方案,为全球互联网基础资源的创新提供了中国标准和数字化解决方案。
|
7天前
|
缓存 边缘计算 网络协议
深入解析CDN技术:加速互联网内容分发的幕后英雄
内容分发网络(CDN)是现代互联网架构的重要组成部分,通过全球分布的服务器节点,加速网站、应用和多媒体内容的传递。它不仅提升了访问速度和用户体验,还减轻了源站服务器的负担。CDN的核心技术包括缓存机制、动态加速、流媒体加速和安全防护,广泛应用于静态资源、动态内容、视频直播及大文件下载等场景,具有低延迟、高带宽、稳定性强等优势,有效降低成本并保障安全。
30 3
|
20天前
|
运维 安全 Cloud Native
阿里云云安全中心全面解析
阿里云云安全中心作为一款集持续监测、深度防御、全面分析、快速响应能力于一体的云上安全管理平台,为企业提供了全方位的安全保障。本文将详细介绍阿里云云安全中心的功能、应用场景、收费标准以及购买建议,帮助您更好地了解和利用这一强大的安全工具。
阿里云云安全中心全面解析
|
28天前
|
机器学习/深度学习 人工智能 自然语言处理
秒级响应 + 99.9%准确率:法律行业文本比对技术解析
本工具基于先进AI技术,采用自然语言处理和语义匹配算法,支持PDF、Word等格式,实现法律文本的智能化比对。具备高精度语义匹配、多格式兼容、高性能架构及智能化标注与可视化等特点,有效解决文本复杂性和法规更新难题,提升法律行业工作效率。
|
25天前
|
数据采集 存储 JavaScript
网页爬虫技术全解析:从基础到实战
在信息爆炸的时代,网页爬虫作为数据采集的重要工具,已成为数据科学家、研究人员和开发者不可或缺的技术。本文全面解析网页爬虫的基础概念、工作原理、技术栈与工具,以及实战案例,探讨其合法性与道德问题,分享爬虫设计与实现的详细步骤,介绍优化与维护的方法,应对反爬虫机制、动态内容加载等挑战,旨在帮助读者深入理解并合理运用网页爬虫技术。
|
1月前
|
机器学习/深度学习 自然语言处理 监控
智能客服系统集成技术解析和价值点梳理
在 2024 年的智能客服系统领域,合力亿捷等服务商凭借其卓越的技术实力引领潮流,它们均积极应用最新的大模型技术,推动智能客服的进步。
76 7