开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

阿里云E-MapReduce我同时要写很多文件(上千),这样的话同步flush 性能会不会很差呀?

请问下阿里云E-MapReduce通过flume 的hdfs sink 写数据到oss桶。我同时要写很多文件(上千),这样的话同步flush 性能会不会很差呀?

展开
收起
cuicuicuic 2023-11-12 09:22:22 52 0
2 条回答
写回答
取消 提交回答
    1. jindosdk 4.x/6.x版本,写oss不支持flush语义,写oss-hdfs才支持flush。如果要使用flush请使用oss-hdfs。
    2. 上千文件数不是问题,我们支持过更大的规模。但这个也取决于oss的带宽,文件大小及flush频率。
    3. 同步flush肯定会对性能有有一定影响,建议适当降低flush的频率,推荐一次flush至少32MB以上。
      我们支持在hadoop core-sites.xml里配置对单个文件的hflush频率,具体可以参见下面的文档。

    https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/user/6.x/jindosdk/flume/jindosdk_on_flume.md
    那推荐你尝试下上面文档中的,fs.oss.hflush.buffer.size,动态调整下看看。在性能和可靠性上做个trade off。,此回答整理自钉群“JindoData 用户交流群”

    2023-11-12 17:45:53
    赞同 展开评论 打赏
  • 如果同时写入大量文件的话,性能可能会受到一定程度的影响,尤其是当文件数量达到数千个时。这是因为每写入一个文件都需要进行一次同步flush操作,而每次flush操作都会消耗一定的系统资源。

    2023-11-12 13:53:09
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关产品

  • 开源大数据平台 E-MapReduce
  • 相关电子书

    更多
    阿里云云原生 Serverless 技术实践营 PPT 演讲 立即下载
    阿里云产品十月刊 立即下载
    基于阿里云构建博学谷平台实时湖仓 立即下载