Tablestore入门指南-GetRange范围查询详解

本文涉及的产品
对象存储 OSS,20GB 3个月
文件存储 NAS,50GB 3个月
云备份 Cloud Backup,100GB 3个月
简介: 查询接口 表格存储Tablestore作为大数据存储服务,提供了多种数据输出接口,主要包含: 单行读(GetRow)、 批量读(BatchGetRow)、 范围读(GetRange)、多元索引检索(Search)以及通道服务的数据订阅(Tunnel Service)。

查询接口

表格存储Tablestore作为大数据存储服务,提供了多种数据输出接口,主要包含: 单行读(GetRow)、 批量读(BatchGetRow)、 范围读(GetRange)、多元索引检索(Search)以及通道服务的数据订阅(Tunnel Service)。本文将详细讲述范围读的功能、使用与限制。

功能说明

GetRange接口提供了Tablestore数据的范围读取能力。通过接口,范围内数据将会按照指定的顺序(正序或逆序)逐页返回。用户需要提供范围的起始、终止的主键,来限定数据的范围。若总数据未能一个请求完整返回,可以通过连续翻页的方式,持续遍历下一页,知道获取完整结果。

限制条件

一次返回数据的行数超过 5000 行,或者返回数据的数据大小大于 4 MB。满足以上任一条件时,超出上限的数据将会按行级别被截掉并返回下一行数据主键信息。

API定义

message GetRangeRequest {
    required string table_name = 1;        // 表名
    required Direction direction = 2;        // 返回顺序
    repeated string columns_to_get = 3;        // 返回列参数
    optional TimeRange time_range = 4;       // 返回列版本号范围
    optional int32 max_versions = 5;       // 返回列版本个数
    optional int32 limit = 6;       // 单次请求返回行数限制
    required bytes inclusive_start_primary_key = 7;       // 范围请求起始主键
    required bytes exclusive_end_primary_key = 8;       // 范围请求结束主键
    optional bytes filter = 10;       // 条件过滤
    optional string start_column = 11;       // 返回属性列列名起始
    optional string end_column = 12;       // 返回属性列列名结束
    optional bytes token = 13;       // 已废弃
    optional string transaction_id = 14;       // 事务ID
}

message GetRangeResponse {
    required ConsumedCapacity consumed = 1;       // Cu消耗统计
    required bytes rows = 2;       // 返回的行数据结果
    optional bytes next_start_primary_key = 3;       // 翻页标识,下一页起始主键
    optional bytes next_token = 4;       // 已废弃
}

参数说明

table_name

表名,范围读接口仅对一张表做请求;

direction

方向或顺序,范围读正序(主键由小到大)、倒序(主键由大到小)返回,默认设置正序。

columns_to_get

返回列名,返回列的字段,支持全部列返回。若指定列名但列不存在,整行数据不返回(不代表行不存在)。

time_range

版本号范围,属性值版本号返回范围。

max_versions

版本号最大个数,属性值版本返回最大个数。

limit

单次请求行数限制,如果存在条件过滤或行数据较大,实际返回行数可能小于参数,不代表后面没有数据。要通过response中next_start_primary_key是否为空判断。

范围设置

边界起、止都是完整的主键,代表特定的范围位置。倒序时,起始主键需要大于结束主键。范围包含如下两个参数:

  • inclusive_start_primary_key:主键起始值(包含边界);
  • exclusive_end_primary_key:主键结束值(不包含边界);

filter

条件过滤器,可以提供列值的条件过滤筛选。支持列值的大于、小于、等于比较,以及多列字段的与或非混合条件。

宽行读

指定列名范围的读取参数,字段按字符串序排列,基于范围范围范围内属性列。包含如下两个参数:

  • start_column:属性列的其实字段;
  • end_column:属性列的终止字段;

transaction_id

事务ID,支持事务读。范围查询请求是针对一个表的请求,如果数据范围限制在一个分区键内,可以提供事务查询能力。

功能与示例

最左匹配

表中数据存储基于PrimaryKey有序排列,主表是一个特殊的基于主键的联合索引。因此,数据范围查询遵循联合索引的最左匹配原则。即:范围查询时如果某一列提供了具体的范围值(非单值),则下一列的范围限制约束是无效的。具体参考下图:

image.png

上例中,第一列主键的起止不同,导致第二列的限制未能生效,pk2=4的行也会出现在结果中。只有当前一列的起始、终止参数一样时,该列的起止限制条件才有效。如果用户需要查询pk2有限制范围的所有行,应当考虑创建二级索引,将pk2作为索引的第一列主键。

连续翻页

当范围条件数据单次请求未拿到全量数据时,需要用户基于NextStartPrimaryKey做连续翻页,从而遍历全部命中数据。如果GetRangeResponse.getNextStartPrimaryKey()非空,则一定还有数据。通过将获取的PrimaryKey设置到原请求中重新构建,然后再次发起请求。

  • 注意:不可以通过行数等于零来判断翻页结束。
PrimaryKey nextStartPrimaryKey = null;
do {
    GetRangeResponse getRangeResponse = syncClient.getRange(getRangeRequest);
    List<Row> pageRowList = getRangeResponse.getRows();  // 判断存在下一页,重构请求

    nextStartPrimaryKey = getRangeResponse.getNextStartPrimaryKey();
    if (nextStartPrimaryKey != null) {                 // 判断存在下一页,重构请求
        criteria.setInclusiveStartPrimaryKey(nextStartPrimaryKey);
        getRangeRequest.setRangeRowQueryCriteria(criteria);
    }
} while (nextStartPrimaryKey != null);              // 持续翻页,直到没有下一页

迭代器

为了方便用户遍历全量数据,我们提供了迭代器接口。用户无需关心请求构建、结果判断等逻辑,只需将异步Client与请求体作为参数构建GetRangeIterator即可。迭代器内部自动发起请求,消费完一页数据后会自动发起下一页请求;

AsyncClient asyncClient = (AsyncClient) syncClient.asAsyncClient();
GetRangeIterator getRangeIterator = new GetRangeIterator(asyncClient, getRangeRequest);

while (getRangeIterator.hasNext()) {
    Row row = getRangeIterator.next();
}

过滤器

表格存储过滤器的过滤条件支持算术运算(=、!=、>、>=、<、<=)和逻辑运算(NOT、AND、OR),支持最多 10 个条件的组合。通过条件组合,限制列(含主键)属性取值的约束。Limit限制的是过滤前的结果个数,经过过滤后实际返回的结果可能小于limit甚至没有数据。

SingleColumnValueFilter

单列的条件过滤参数。示例:Col0 == 0

SingleColumnValueFilter singleColumnValueFilter = new SingleColumnValueFilter("Col0",
        SingleColumnValueFilter.CompareOperator.EQUAL, ColumnValue.fromLong(0));
// 如果不存在 Col0 这一列, 也不返回。

CompositeColumnValueFilter

组合多个算术运算符号达到多条件组合过滤的效果。示例:Col0 == 0 and Col1 >= 100

CompositeColumnValueFilter composite1 = new CompositeColumnValueFilter(CompositeColumnValueFilter.LogicOperator.AND);
SingleColumnValueFilter single1 = new SingleColumnValueFilter("Col0",
      SingleColumnValueFilter.CompareOperator.EQUAL, ColumnValue.fromLong(0));
SingleColumnValueFilter single2 = new SingleColumnValueFilter("Col1",
      SingleColumnValueFilter.CompareOperator.GREATER_THAN, ColumnValue.fromLong(100));
composite1.addFilter(single1);
composite1.addFilter(single2);

PassIfMissing

另外由于稀疏列的属性,部分行的属性列可能不存在,此时可以使用PassIfMissing参数来设置期望的过滤形式。

  • True:代表如果这一列不存在也返回;
  • False:代表这一列不存在就不返回。

示例:列不存在时不返回

singleColumnValueFilter.setPassIfMissing(false);

表格存储使用手册

本文结合Java SDK的接口调用代码,介绍了Tablestore在数据管理方面的基本功能与使用方式。代码已开源在Tablestore-Examples项目中,用户可以直接运行使用。基于样例代码与文章,新用户能更简单、更快速地上手Tablestore,欢迎新、老用户使用与建议。

通过对基础使用功能的持续输出,我们将整理出一套完整的使用手册(含可执行样例),敬请期待。

专家服务

如有疑问或者需要更好的在线支持,欢迎加入钉钉群:“表格存储公开交流群”。群内提供免费的在线专家服务,欢迎扫码加入,群号:23307953

image.png

相关实践学习
消息队列+Serverless+Tablestore:实现高弹性的电商订单系统
基于消息队列以及函数计算,快速部署一个高弹性的商品订单系统,能够应对抢购场景下的高并发情况。
阿里云表格存储使用教程
表格存储(Table Store)是构建在阿里云飞天分布式系统之上的分布式NoSQL数据存储服务,根据99.99%的高可用以及11个9的数据可靠性的标准设计。表格存储通过数据分片和负载均衡技术,实现数据规模与访问并发上的无缝扩展,提供海量结构化数据的存储和实时访问。 产品详情:https://www.aliyun.com/product/ots
目录
相关文章
|
存储 索引
表格存储根据多元索引查询条件直接更新数据
表格存储是否可以根据多元索引查询条件直接更新数据?
117 3
|
NoSQL 开发工具
TableStore表格存储(阿里云OTS)多行数据操作查询,支持倒序,过滤条件和分页
1. 批量读取操作 批量读取操作可以通过多种方式进行,包括: GetRow:根据主键读取一行数据。 BatchGetRow:批量读取多行数据。 GetRange:根据范围读取多行数据。
906 0
|
SQL 存储 自然语言处理
表格存储最佳实践:使用多元索引加速 SQL 查询
表格存储(Tablestore)在 2022 年 5 月正式发布了 SQL 商业化版本,业务上只需要在数据表上建立映射关系,就可以基于 SQL 引擎方便地对表格存储中的数据进行访问和计算,大大地降低了用户的学习成本。
733 0
|
存储 SQL 运维
Tablestore 与 Elasticsearch 在数据库查询加速场景使用对比
过去三十年,我们从企业应用开始,经历了 PC 互联网、移动互联网的爆发式发展,到如今的产业互联网。在这些不同时代,一直变化的是应用形态,不变的是核心数据的价值。对于核心数据的存储,首选的方案是使用数据库存储,从互联网初期开始,开源关系型数据库 MySQL 成长成为了数据库存储的第一选择,关系型数据库解决了数据的快速建模,高可靠存储和快速查询,但是关系数据库中的高效查询主要依赖二级索引,如果出现索引
1754 2
Tablestore 与 Elasticsearch 在数据库查询加速场景使用对比
|
SQL 存储 Java
表格存储 SQL 查询多元索引
多元索引是表格存储产品中一个重要的功能,多元索引使用倒排索引技术为表格存储提供了非主键列上的快速检索功能,另外也提供了统计聚合功能。表格存储近期开放了SQL查询功能,SQL引擎默认从原始表格中读取数据,非主键列上的查询需要扫描全表。
表格存储 SQL 查询多元索引
|
存储 自然语言处理 NoSQL
表格存储 Node.js SDK 开发入门
本文将结合电商订单场景为例,介绍表格存储 Tablestore Node.js SDK 的基本使用方法。
418 1
|
存储 SQL 运维
Tablestore 控制台入门指南
通过阅读本文您将了解和学习到如何通过表格存储Tablestore控制台快速搭建和操作一款零运维、无限容量的数据库。表格存储Tablestore提供了一定使用量的免费额度(10GB数据存储量、1000万按量读写吞吐),供大家体验测试使用。下面将开始介绍如何通过Tablestore控制台创建实例、创建数据表、读写数据、创建索引、搜索数据、删除索引和数据表。
552 0
Tablestore 控制台入门指南
|
SQL 存储 NoSQL
基于 MySQL + Tablestore 分层存储架构的大规模订单系统实践-SQL 查询和分析
前言前面我们介绍了基于 MySQL + Tablestore 分层架构的订单系统。订单数据储存进入 Tablestore 后,用户可以使用 SDK 中的 API 访问数据,也可以继续使用 SQL 访问 Tablestore 中的数据。Tablestore 提供了多种 SQL 的接入方式,客户可以通过 DLA 访问 Tablestore,也可以利用 Tablestore 自身对 SQL 的支持能力,
996 0
基于 MySQL + Tablestore 分层存储架构的大规模订单系统实践-SQL 查询和分析
|
存储 SQL 运维
基于 MySQL + Tablestore 分层存储架构的大规模订单系统实践-基于 DLA 的联邦查询
前言在订单系统中,基于订单数据对客户和商家商品进行画像分析是一种常见的需求。常见的分析需求有:基于主键、分区键数据的条件组合检索,例如获取某用户最近 30 的订单列表。根据非主键列、分区键的条件组合检索工作,例如查询过去一天异常订单列表、查询过去一天成交额最大的10 笔订单。聚合统计类需求,比如统计某店铺过去一个月各商品销售额排名;统计双十一期间销售额前 10 的店铺;统计双十一期间某店铺每天订单
604 0
基于 MySQL + Tablestore 分层存储架构的大规模订单系统实践-基于 DLA 的联邦查询
|
存储 自然语言处理 NoSQL
表格存储 Python SDK 开发入门
本文将结合电商订单场景为例,介绍表格存储 Tablestore Python SDK 的基本使用方法。
587 0
下一篇
DataWorks