开发者社区> 问答> 正文

读取ORC文件的VectorizedRowBatch的最佳batchSize设置有什么建议?

在向量化读取orc文件时, 需要配置VectorizedRowBatch的batchSize, 用于设置每次读取的行数, 

我知道根据orc索引, 读取orc文件最小的单位应该是row group(默认1w行), 底层会根据filter条件来精确到哪些row group, 

那之前提到的batchSize设置为1000时 , 那一个row group需要读取10次, 每个row group又是按列存储, 

势必会存在非连续读取的可能, 这样岂不是做不到最大优化? 是够将batchSize设置和row group配置一样才能读取效率最大化呢? 

不知道我的理解是否正确.*来自志愿者整理的flink邮件归档

展开
收起
玛丽莲梦嘉 2021-12-02 16:28:09 928 0
1 条回答
写回答
取消 提交回答
  • 1万行太大了,会占用太大内存。而且batchSize太大也不利于cache。 

    batchSize不一定要和row group一样,这种row group特别大的情况下,batchSize 够用就行了。*来自志愿者整理的FLINK邮件归档

    2021-12-02 17:22:51
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
File Format Benchmark - Avro, JSON, ORC, & Parquet 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载