开发者社区> 问答> 正文

在写入流程的时候,这里会带来小文件的问题。为了解决小文件问题,阿里做了什么优化?

在写入流程的时候,是按照bucket对segment上的数据做了进一步划分,这里会带来小文件的问题。为了解决小文件问题,阿里做了什么优化?

展开
收起
罗鹏大佬 2022-04-21 10:36:53 1830 0
来自:阿里技术
1 条回答
写回答
取消 提交回答
  • 1、Group flush:一批写入的数据,可以通过group flush写到同一个OSS文件,我们的OSS文件采用了ORC格式,不同bucket写入到对应strip; 2、流水线异步并行:编码攒批,排序是典型的cpu密集型任务,上传到oss是典型的网络IO密集型任务,我们会把这2种任务类型并行起来,在上传oss的任务作为异步任务执行,同时对下一批数据编码排序,加快写入性能。

    2022-04-21 15:52:21
    赞同 展开评论 打赏
问答地址:
来源圈子
更多
收录在圈子:
+ 订阅
问答排行榜
最热
最新

相关电子书

更多
静态代码扫描体系在阿里移动研发的应用 立即下载
优化4K制作流程,创建“4K视觉云”服务 立即下载
Terraform从入门到实践:快速构建你的第一张业务网络 立即下载