开发者社区 问答 正文

在写入流程的时候,这里会带来小文件的问题。为了解决小文件问题,阿里做了什么优化?

在写入流程的时候,是按照bucket对segment上的数据做了进一步划分,这里会带来小文件的问题。为了解决小文件问题,阿里做了什么优化?

展开
收起
罗鹏大佬 2022-04-21 10:36:53 1862 分享 版权
来自: 阿里技术
1 条回答
写回答
取消 提交回答
  • 1、Group flush:一批写入的数据,可以通过group flush写到同一个OSS文件,我们的OSS文件采用了ORC格式,不同bucket写入到对应strip; 2、流水线异步并行:编码攒批,排序是典型的cpu密集型任务,上传到oss是典型的网络IO密集型任务,我们会把这2种任务类型并行起来,在上传oss的任务作为异步任务执行,同时对下一批数据编码排序,加快写入性能。

    2022-04-21 15:52:21
    赞同 展开评论
问答地址: