HBase用户福利
新用户9.9元即可使用6个月云数据库HBase,更有低至1元包年的入门规格供广大HBase爱好者学习研究,更多内容请参考链接
云HBase增强版全文索引服务已经上线,提供更加丰富的查询场景,请参考链接
前言
设想您有没有遇到过这样的问题:
1、表变更
业务逻辑中设置了访问某个表A,突然有一天需要修改为表B,此时只能修改配置进行线上变更。
2、分库分表
业务大部分场景只访问最近一周的数据,可以每隔一周新建一张表来存储,这样可以确保高效的查询热数据。在这个场景中需要自己来维护表的创建和删除,带来一定的业务复杂性。
本文介绍的Alias(别名)将会完美的解决上面两个问题,通过内核级的支持大大简化业务逻辑。
适用场景
时间序列场景
业务数据具有明显的时间特性,可以基于时间来创建不同的索引,这样既能降低单个索引的大小,又能提升查询性能。整个过程中业务不需要自己维护索引创建和删除。
重建索引场景
在不影响已有索引查询下,重建新的索引,待索引建完后,指向新的索引访问。整个过程中业务不需要代码变更。
如何使用Alias
基本功能:Alias指向已有的索引表
curl "http://solrhost:8983/solr/admin/collections?action=CREATEALIAS&name=your_alias_name&collections=your_collection_name_A"
上面的url代表,创建一个Alias名为your_allias_name,其指向一个索引表your_collection_name_A。这样业务逻辑中可以只设置访问your_alias_name,内核会自动转发请求到真实的索引表上。假设某一天需要变更索引表名为your_collection_name_B,执行一次更改Alias命令。
删除Alias
curl "http://solrhost:8983/solr/admin/collections?action=DELETEALIAS&name=your_alias_name"
修改Alias
curl "http://solrhost:8983/solr/admin/collections?
action=ALIASPROP&name=your_alias_name&collections=your_collection_name_B"
这样,业务代码上不需要任何变更即可访问新的索引表。
高级功能:自动分表
内核级支持按照时间字段自动分表,大大简化业务逻辑。下面以具体的示例来介绍:业务要求以周为单位创建索引表,并且能够自动删除旧的索引表。
curl "http://solrhost:8983/solr/admin/collections?action=CREATEALIAS&name=your_alias_name&router.start=NOW-30DAYS/DAY&router.autoDeleteAge=/DAY-90DAYS&router.field=your_date_dt&router.name=time&router.interval=%2B7DAY&router.maxFutureMs=86400000&create-collection.collection.configName=_indexer_default&create-collection.numShards=1"
参数 | 值 | 说明 |
---|---|---|
router.start | NOW-30DAYS/DAY | 第一个collection创建的时间点,样例中给出的NOW-30DAYS/DAY代表以30天前开始新建索引 |
router.interval | +7DAY | 间隔多久创建新的索引表,样例中给出的是每隔7天新建一个索引表 |
router.autoDeleteAge | /DAY-90DAYS | 自动淘汰多久前的索引表,样例中给出的是淘汰90天前的索引表 |
router.field | your_date_dt | 分表的时间字段,默认业务中需要携带这个字段,并指定时间值,例如:2020-02-26T00:00:00Z |
router.maxFutureMs | 8640000000 | 代表最大容忍写入的时间字段your_date_dt与当前时间的差值,防止写入过大的时间字段或者过小的时间值,样例中给出的是100天 |
collection.collection.configName | _indexer_default | 代表创建的索引表依赖的配置集 |
create-collection.numShards | 1 | 创建的索引表shard个数,默认为1 |
上面的业务含义,以30天前(今天是3月5日)开始创建索引,每隔7天新建一个索引,写入的数据必须携带时间字段your_date_dt,并且它的值与当前时间在100天以内,周期性的删除90天过期的索引。
效果如下
注意事项
1.业务必须带有时间字段,可以为Date类型,可以为Long类型。
2.查询时,默认是查询全部索引表。此时,可以单独指定查询某个索引表。需要通过API或者URL获取到所有collection列表,提取其中的时间字段来判断真实访问的collection。
参考文档
https://lucene.apache.org/solr/guide/7_3/collections-api.html#createalias
https://lucene.apache.org/solr/guide/7_3/collections-api.html#list