开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

阿里云E-MapReduce会 继续把之前write到本地磁盘的数据 异步上传到oss 是吗?

阿里云E-MapReduce如果flume客户端意外宕机了(没来的及close/flush),之后重新启动后,会 继续把之前write到本地磁盘的数据 异步上传到oss 是吗?

展开
收起
cuicuicuic 2023-11-12 09:36:14 57 0
2 条回答
写回答
取消 提交回答
  • 这个并不会,要保证不丢还是得flush。正常flume退出都会调用close的,只要不kill -9。

    这里写磁盘只是为了加速上传,类似hdfs社区的fast upload。可参见:https://developer.aliyun.com/article/1175339
    推荐你尝试下上面文档中的,fs.oss.hflush.buffer.size,动态调整下看看。在性能和可靠性上做个trade off。用file channel,然后每次都执行hflush,那确实不会丢。但是,如果要用上面的参数控制hflush频率来提升性能,还是有丢的风险的。,此回答整理自钉群“JindoData 用户交流群”

    2023-11-12 17:45:53
    赞同 展开评论 打赏
  • 阿里云E-MapReduce具有异步上传数据到OSS的功能。这意味着,如果您将数据写入本地磁盘,E-MapReduce将按照您的设定将这些数据异步上传到OSS中。
    具体来说,您可以设置E-MapReduce将数据写入HDFS文件系统,然后使用OSS外部表将这些数据同步到OSS中。这种情况下,E-MapReduce会先将数据写入HDFS,然后再将它们异步上传到OSS中。
    另外,如果您希望立即上传数据,则可以考虑使用同步读取方式。在这种方式下,E-MapReduce会在读取数据时立即上传它们到OSS,从而提高上传速度。

    2023-11-12 13:51:13
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关产品

  • 开源大数据平台 E-MapReduce
  • 相关电子书

    更多
    阿里云产品十月刊 立即下载
    基于阿里云构建博学谷平台实时湖仓 立即下载
    阿里云ElasticsearchSeverless版产品发布 立即下载