DLA-Presto二月更新

简介: 大家过年好啊,阿里云数据湖分析DLA-Presto二月迭代轻磅发布,请查收。分区投影: 帮您解决分区爆炸后查询慢的问题。Cassandra Connector: 针对小表的性能优化比目前开源版本提高60多倍。控制ETL结果文件数: 解决您的小文件多的问题。CU支持指定默认Hint: 如果一个hint每个SQL都要写,那么我们配置到CU级别吧。

大家过年好啊,阿里云数据湖分析DLA-Presto二月迭代轻磅发布,请查收。

  • 分区投影: 帮您解决分区爆炸后查询慢的问题。
  • Cassandra Connector: 针对小表的性能优化比目前开源版本提高60多倍。
  • 控制ETL结果文件数: 解决您的小文件多的问题。
  • CU支持指定默认Hint: 如果一个hint每个SQL都要写,那么我们配置到CU级别吧。

分区投影

在大数据中,提升性能的一个最常见的方式是对数据划分合理的分区,分区粒度越细,我们进行细粒度查询的时候性能就越好,但是如果分区数太多,分区元数据查询本身性能也会下降。因此我们支持了一种叫做“分区映射”的功能,分区映射让用户指定分区的规则,然后具体每个SQL查询的分区会直接通过SQL语句中的查询条件结合用户创建表时候指定的规则直接计算出来,从而不用去查询元数据,避免元数据爆炸带来的性能问题。比如我们创建如下的表:

create external table projection_test (
  field1 int
) 
partitioned by (
  a string, 
  b string
) 
LOCATION 'oss://oss-cn-hangzhou-xxx/xxx/projection_test' 
tblproperties(
  'projection.enabled' = 'true',
  'projection.a.type' = 'injected',
  'projection.a.miss' = 'LIST',
  'projection.b.type' = 'date',
  'projection.b.range' = '2021-02-01, NOW',
  'projection.b.format' = 'yyyy-MM-dd',
  'projection.b.interval.unit' = 'days',
  'projection.b.interval' = '1',
  'storage.location.template' = 'oss://oss-cn-hangzhou-xxx/xxx/projection_test/${a}/${b}/'
)

然后我们去查询如下的语句:

select * from projection_test where a = 'hello' and b = '2021-02-03'

那么引擎会去扫描的文件路径就是:

oss://oss-cn-hangzhou-xxx/xxx/projection_test/hello/2021-02-03/

关于分区映射更详细的信息欢迎参见我们的官方文档。

Cassandra Connector性能优化

Cassandra Connector默认的实现对于小表的查询不优化,比如你表里面只有10条数,你去select需要花1分钟时间,这背后的原因在于虽然数据量少,但是Cassandra还是会提前切分很多TokenRange,默认的TokenRange就有几百个,而Presto就会发起几百个Split去查询数据,使得性能很差,因此我们支持了一个参数让用户可以指定split数,使得我们对于小表的查询可以优化到1秒内,大大提升性能:

/*+ cluster=vc-test, cassandra.full-table-scan-split-count=1 */
select first_name, last_name from cassandra_it_db.test_user

这里我们只用一个split去查询数据。

同时我们对于Cassandra支持了 MSCK REPAIR DATABASE 的命令,使得您可以一个命令把Cassandra中所有的元数据加载到DLA里面来:

MSCK REPAIR DATABASE cassandra_it_db

写入数据的时候控制写入的文件个数

在DLA-Presto中,我们要往一个OSS表中写入数据的时候会使用下面的语句:

INSERT into target_table SELECT * FROM source_table

结果文件的个数取决于两个因素: 参与写数据的Worker的个数(table_write_worker_count)以及每个Worker上参与写数据的线程个数(task_writer_count), 之前这两个参数是没有办法通过客户端来设置的,现在我们把这两个参数都暴露出来了。

比如我们如果想写入 target_table 时只生成一个文件,那么可以用下面的语句:

/*+cluster=vc-test,table-write-worker-count=1,task-writer-count=1*/
INSERT into target_table SELECT * FROM source_table
注意这里我们指定了cluster的hint,因为这个特性只在CU版本中才可以使用。

注意实际产生的文件数还取决于其他一些因素,比如你的数据量,因此上面的参数可以大体控制文件数的规模,但是有时候文件数不完全是 table-write-worker-count * task-writer-count。

支持为CU指定默认的hint

CU中有一些场景我们想指定默认的hint,比如上面提到的针对Cassandra小表的性能优化,需要添加一个 cassandra.full-table-scan-split-count=1 的hint,但是我们又不想每个SQL语句都写这个,那么我们可以把他配置在CU级别,目前这个功能还没有完全界面化开放给用户,如果有需要可以联系我们,我们后台配置。如果这个功能大家使用的多,我们后续会考虑开放配置界面给用户。

其他

我们还有其他一些更新包括:

  • 增加对AdbPG存储弹性版本的支持。
  • 优化Alluxio对于多块盘的支持,在重启的时候可以从多块盘恢复缓存数据。
  • 修复表名为数字时查询报错的问题。

最后对于产品如果有更多的意见建议欢迎加入我们的钉钉用户群。

dingding_dla.jpeg

如果对咱们底层的Presto这个开源软件感兴趣也欢迎关注我们的Presto News公众号:

WechatIMG26.jpeg

相关实践学习
对象存储OSS快速上手——如何使用ossbrowser
本实验是对象存储OSS入门级实验。通过本实验,用户可学会如何用对象OSS的插件,进行简单的数据存、查、删等操作。
相关文章
|
Java 数据库 Android开发
Android异步之旅:探索AsyncTask
Android异步之旅:探索AsyncTask
321 0
|
数据安全/隐私保护
建木(Jianmu)----使用docker-compose安装部署Jianmu(建木)
建木(Jianmu)----使用docker-compose安装部署Jianmu(建木)
962 0
建木(Jianmu)----使用docker-compose安装部署Jianmu(建木)
|
10月前
|
存储 算法 前端开发
如何使用 Vuex 插件来实现状态的加密存储?
如何使用 Vuex 插件来实现状态的加密存储?
406 124
|
11月前
|
JSON 监控 API
京东商品详情API秘籍!轻松获取商品详情数据
京东商品详情API提供商品SPU/SKU的完整信息,涵盖基础属性、价格、库存及促销等120+字段,支持HTTPS协议与JSON格式,适用于电商多场景。
|
10月前
|
C# 图形学 开发者
【Unity3D实例-功能-切换武器】切换武器(二)功能实现
本文为Unity3D切换武器功能的最终实现教程,介绍如何配置动画并编写武器架代码,实现角色多武器切换功能。内容包含动画设置、Unity准备、代码编写与测试等步骤,适合游戏开发者学习参考。
437 5
|
10月前
|
存储 缓存 安全
阿里云企业级云服务器收费标准、选型指南与活动价格参考
2025年租用阿里云企业级云服务器,用户可以选择多种实例类型和配置,以满足不同规模和需求的企业应用。目前在阿里云的活动中提供了包括通用算力型u1、通用型g9i与g8y、计算型c9i与c8y、内存型r9i等在内的多种企业级云服务器实例,例如,通用算力型u1实例2核4G5M带宽80G ESSD Entry云盘特惠价199元1年,计算型c9i实例2核4G活动价为1686.70元/1年起,通用型g9i实例2核8G活动价为2097.69元/1年起。本文将详细解析阿里云企业级云服务器的价格体系,涵盖实例规格、收费标准与活动及选型指南等,以供了解和参考。
|
安全 Shell Linux
Shellshock漏洞与永恒之蓝(WannaCry)勒索病毒深度分析
本文深度剖析了Shellshock漏洞与永恒之蓝(WannaCry)勒索病毒。Shellshock是2014年发现的Bash漏洞,允许攻击者通过环境变量执行任意命令,影响几乎所有Linux/Unix系统。永恒之蓝是利用Windows SMBv1协议漏洞的工具,导致2017年WannaCry全球爆发,感染超20万台设备。文章详细分析了两者的漏洞原理、影响范围、检测方法及修复方案,并提出通用安全防护建议,包括补丁管理、防御纵深、备份策略和安全意识培养,强调主动防御的重要性以应对复杂网络威胁。
1039 4
|
存储 测试技术 API
pytest接口自动化测试框架搭建
通过上述步骤,我们成功搭建了一个基于 `pytest`的接口自动化测试框架。这个框架具备良好的扩展性和可维护性,能够高效地管理和执行API测试。通过封装HTTP请求逻辑、使用 `conftest.py`定义共享资源和前置条件,并利用 `pytest.ini`进行配置管理,可以大幅提高测试的自动化程度和执行效率。希望本文能为您的测试工作提供实用的指导和帮助。
2311 15
|
测试技术 程序员
W模型和瀑布模型与“V”模式开发模型有何异同?
W模型和瀑布模型与“V”模式开发模型有何异同?
1625 1
|
API
如何在公众号里制作微信报名表
微信万能表单不仅可以制作各种报名单,也可以用作问卷调查,商品发布,登记汇总等,可以根据自己需求,来添加组件,比如姓名、手机号、性别、报名的时间、报名的图片等,因为微信报名表涉及的用途比较广泛,所以很多商家在做微信公众号报名表的时候,针对性不会太强,没有什么局限性,应用还是起来比较方便的
937 12