1.数据集加速介绍
通过直接创建极速数据集或将普通数据集加速,加速数据集功能采用事先将数据集中的表的内容预先提取到QuickBI内置的高速缓存中的方法实现极大提高在该数据集上执行的多维分析查询的执行速度。 限制条件:
目前仅支持对MaxCompute(ODPS)数据源下用表创建出的数据集加速,ODPS下视图和ODPS下自定义SQL暂不支持,其他数据源类型也暂不支持。
目前仅支持单表模式的数据集,不支持关联模式下的数据集。- 目前限制,对于每个用户,最多加速8张表,单表记录数不超过1千万条。
2.加速数据集的方法
加速数据集有两种方法:
直接创建极速数据集
在数据源 MaxCompute页面下,选择未连接的某张表,点击‘创建极速数据集’ 按钮,可以直接由该表创建出一个极速数据集。
将普通数据集加速,升级为极速数据集
在数据集列表页面上,选择某未被加速的数据集,点击其上名为‘设为极速’操作链接, 可将普通数据集 加速为极速数据集。
极速数据集用到的表需要设置其主键字段后才能实现极速效果,一个表的主键下的字段可以是1个,也可以是多个,这些主键字段组合在一起唯一标示出表中的每一行。极速数据集的主键的设置界面如下:
上面以一张非分区的销售记录表为例,该表的订单id,订单日期,客户名称,订单号,订单金额5个字段唯一标示出该表的每一行。点击‘确认’按钮后,就发出了加速该数据集的指令。大约等待10分钟不到,就可看到该数据集已经变成极速数据集,前面有闪电标示,状态为已加速。再使用该数据集进行查询,可以体会到查询速度有了极大提高。
3. 极速数据集的维护
极速数据集有三种状态:
对已加速的极速数据集,点击‘取消极速’红色动作链接,可以将该数据集降级为普通数据集,普通数据集的加速状态为‘未加速’。 对于加速失败的数据集,点击操作菜单上的‘查询加速’菜单项,
会进入后台管理面板下的‘加速管理’界面,
在这里可以查看该数据集的加速执行日志,可以对该数据集执行重跑操作。
4.极速数据集的配置
极速数据集最多可支持两种加速模式:
- 全量加速模式
增量加速模式
每种加速模式都有其适用的情境。
对于非分区表,只支持全量加速模式,对于分区表,如果分区字段为非string时,也只支持全量加速模式。全量加速模式的数据集不能进行数据生命周期管理。
首次加速的时候,不管是非分区表还是任何类型的分区表都是全量加速,用户根据需要可以随后在控制面板中再去调整加速模式。
分区表支持全量加速和增量加速两种模式,且分区字段必须为日期内容的文本类型,日期格式必须符合指定的日期格式中的某一种。
增量模式的极速数据集可以进行数据生命周期的维护,实现自动清理n天前的数据以最大利用系统分配的有限空间配额。
数据集数据生命周期的具体例子:
比方今日为2016-10-29,数据集中现有的分区值有:2016-10-24,2016-10-25,2016-10-26,2016-10-27,2016-10-28,当时2016-10-29的数据还未同步过来,
当n=3时,会自动清理不在(2016-10-27,2016-10-28,2016-10-29)这3个分区中的其他分区中的数据,留下最近3天的分区以最大有效利用有限的高速缓存存储空间。