阿里云E-MapReduce我如果把roll的参数调小点,就可以切分均匀,调大了就开始乱了
日志有大量的这个,正常吗?
从你提供的日志来看,这是在Flume中常见的日志,表示Flume正在将数据写入HDFS。这些日志是正常的,不需要担心。
至于RollingPolicy,它的主要作用是在HDFS文件大小达到一定阈值时,将数据写入新的文件中,而不是继续在同一个文件中追加数据。这样可以防止单个文件过大,影响HDFS的性能。
如果你发现RollingPolicy的效果不佳,可能是因为以下几个原因:
文件的分割策略不合理:你可以尝试调整RollingPolicy的参数,比如滚动间隔和文件最大大小,看看是否能改善问题。
HDFS的Block Size设置过大:HDFS的Block Size会影响文件的分割效果。如果Block Size过大,可能会导致单个文件过大。你可以尝试调整HDFS的Block Size,看看是否能改善问题。
Flume的Channel容量不足:如果Flume的Channel容量不足,可能会导致数据无法及时写入HDFS,从而导致RollingPolicy无法正常工作。你可以尝试调整Flume的Channel容量,看看是否能改善问题。
正常的,写oss时不会做真正的flush, 但不影响close。roll这些参数是和close相关的。我建议你检查下flume配置里roll相关参数的配置是否符合预期,因为只要这些参数中满足一个就会滚动日志了。rollcount是和event大小相关的,估计是发送的event大小不一致,你换成size看看,此回答整理自钉群“JindoData 用户交流群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。