关于Presto对lzo压缩的表查询使用记录

简介: 关于Presto对lzo压缩的表查询使用记录

关于Presto对lzo压缩的表查询使用记录


d93b307106c147e29b4eb4e0f8eae2a0.jpeg



0.写在前面

  • 实验背景:离线数仓项目
  • Presto版本:0.196
  • Hive版本:3.1.2
  • Hadoop版本:3.1.3


1.正文

0.提前说明


  • 纯lzo压缩:ods层
  • parquet列式存储加lzo压缩:dwd,dws,dwt层
  • 普通文本文件:ads层


1.查询ads层表

select*from ads_visit_stats;

ads层的查询没有任何问题。


2.查询dwd|dws|dwt层表


「Presto不支持parquet列式存储加lzo压缩的表的查询」


Presto-Client查询语句: 


select*from dwd_start_log;

Presto-Client查询出错: 

Query 20220914_021316_00014_sthct, FAILED, 2 nodes
Splits: 22 total, 0 done (0.00%)
0:01 [0 rows, 0B] [0 rows/s, 0B/s]


查看Presto-Client查询出错的日志文件: 

[root@node01 presto]$ tail-500 data/var/log/server.log


信息如下:

Query 20220914_021316_00014_sthct failed: Can not read value at 0 in block -1 in file hdfs://node01:8020/warehouse/gmall/dwd/dwd_start_log/dt=2020-06-15/000001_0
vim /opt/module/presto-0.196/data/var/log/server.log
Caused by: parquet.hadoop.BadConfigurationException: Class com.hadoop.compression.lzo.LzoCodec was not found
  at parquet.hadoop.CodecFactory.getCodec(CodecFactory.java:161)
  at parquet.hadoop.CodecFactory.getDecompressor(CodecFactory.java:178)
  at parquet.hadoop.ParquetFileReader$Chunk.readAllPages(ParquetFileReader.java:610)
  at parquet.hadoop.ParquetFileReader.readNextRowGroup(ParquetFileReader.java:496)
  at parquet.hadoop.InternalParquetRecordReader.checkRead(InternalParquetRecordReader.java:127)
  at parquet.hadoop.InternalParquetRecordReader.nextKeyValue(InternalParquetRecordReader.java:208)
  ... 16 more

很明显,error显示为`com.hadoop.compression.lzo.LzoCodec`没有找到


对接lzo压缩包的要放置在presto安装目录下的 `plugin/hive-hadoop2`目录下


[root@node01 hive-hadoop2]$ cp /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar ./


  • 分发lzo的jar包
[root@node01 hive-hadoop2]$ my_rsync ./hadoop-lzo-0.4.20.jar


  • 重启Presto-server
[root@node01 presto]$ xcall.sh /opt/module/presto-0.196/bin/launcher stop[root@node01 presto]$ xcall.sh /opt/module/presto-0.196/bin/launcher start
  • 超时|集群仍在初始化,没有足够的活跃的worker节点去执行查询语句

需要等待一会。


1.png


  • 执行查询语句,不再报错
presto:gmall>select*from dwd_start_log

2.png

3.查询ods层表

  • ods_log表是纯lzo压缩
presto:gmall>select*from ods_log;

3.png


[美团技术团队]提到: Presto不支持查询lzo压缩的数据 ,需要修改hadoop-lzo的代码


https://tech.meituan.com/2014/06/16/presto.html


  • 解释说明 


Presto是 即席查询 工具, ods层 的数据含有 敏感数据脏数据通常情况下,数据查询不需要对ods层查询 ,对于本项目而言,即便Presto读取不了ods层数据,也影响不大。


  • 解决方案 


对于这个问题,需要修改hadoop-lzo的代码,美团的解决方案开源在[Github]上:

https://github.com/MTDATA/presto/commits/mt-0.60



顺利结束

目录
相关文章
|
8月前
|
存储 SQL 分布式计算
数据计算MaxCompute读取外部表(数据在oss gz压缩)速度非常慢,有什么方法可以提升效率么?
数据计算MaxCompute读取外部表(数据在oss gz压缩)速度非常慢,有什么方法可以提升效率么?
113 1
|
8月前
|
SQL 消息中间件 数据处理
DataX读取Hive Orc格式表丢失数据处理记录
DataX读取Hive Orc格式表丢失数据处理记录
285 0
|
存储 SQL 分布式计算
一文彻底搞懂Hive的数据存储与压缩
怎样弄清Hive的数据存储与压缩呢,以下回答告诉你。
761 0
一文彻底搞懂Hive的数据存储与压缩
|
8月前
|
SQL 存储 测试技术
提升50%+!Presto如何提升Hudi表查询性能?
提升50%+!Presto如何提升Hudi表查询性能?
173 0
|
存储 运维 算法
GaussDB 技术解读系列:高级压缩之 OLTP 表压缩
这里我们也做了一个标准的 TPCC 的测试评估,基于 GaussDB 单机版本进行选择性压缩。根据 TPCC 的语义,所有已经配送完成的订单就不会再变更,但仍有一定的概率被访问到,这是非常贴近于真实业务场景的访问模型。所以,我们的压缩算法选择了压缩流水类数据,比如订单数据,而一些状态类的数据,比如库存、账户等没有去压缩,在流水数据里,我们也只压缩已经配送完成的订单,不压缩没有配送完成的订单。从最后的结果看,整个压缩之后对于业务的影响在 1.5% 左右。我们相信我们是业内第一个在 150 万 tpmC 性能峰值仍然能够开启压缩并且性能基本不下降的产品。
150 0
|
存储 索引
67.【clickhouse】ClickHouse从入门到放弃-对于分区、索引、标记和压缩数据的协同总结
【clickhouse】ClickHouse从入门到放弃-对于分区、索引、标记和压缩数据的协同总结
67.【clickhouse】ClickHouse从入门到放弃-对于分区、索引、标记和压缩数据的协同总结
|
存储 SQL JSON
hive文件与压缩
hive文件与压缩
hive文件与压缩