阿里云E-MapReduce如果flume客户端意外宕机了(没来的及close/flush),之后重新启动后,会 继续把之前write到本地磁盘的数据 异步上传到oss 是吗?
这个并不会,要保证不丢还是得flush。正常flume退出都会调用close的,只要不kill -9。
这里写磁盘只是为了加速上传,类似hdfs社区的fast upload。可参见:https://developer.aliyun.com/article/1175339
推荐你尝试下上面文档中的,fs.oss.hflush.buffer.size,动态调整下看看。在性能和可靠性上做个trade off。用file channel,然后每次都执行hflush,那确实不会丢。但是,如果要用上面的参数控制hflush频率来提升性能,还是有丢的风险的。,此回答整理自钉群“JindoData 用户交流群”
阿里云E-MapReduce具有异步上传数据到OSS的功能。这意味着,如果您将数据写入本地磁盘,E-MapReduce将按照您的设定将这些数据异步上传到OSS中。
具体来说,您可以设置E-MapReduce将数据写入HDFS文件系统,然后使用OSS外部表将这些数据同步到OSS中。这种情况下,E-MapReduce会先将数据写入HDFS,然后再将它们异步上传到OSS中。
另外,如果您希望立即上传数据,则可以考虑使用同步读取方式。在这种方式下,E-MapReduce会在读取数据时立即上传它们到OSS,从而提高上传速度。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。