开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

阿里云E-MapReduce我如果把roll的参数调小点,就可以切分均匀,日志有大量的这个,正常吗?

阿里云E-MapReduce我如果把roll的参数调小点,就可以切分均匀,调大了就开始乱了ac90c0a0f2ed7156f4b3765dd00faaf2.jpg
日志有大量的这个,正常吗?

展开
收起
cuicuicuic 2023-10-30 18:06:22 51 0
2 条回答
写回答
取消 提交回答
  • 从你提供的日志来看,这是在Flume中常见的日志,表示Flume正在将数据写入HDFS。这些日志是正常的,不需要担心。

    至于RollingPolicy,它的主要作用是在HDFS文件大小达到一定阈值时,将数据写入新的文件中,而不是继续在同一个文件中追加数据。这样可以防止单个文件过大,影响HDFS的性能。

    如果你发现RollingPolicy的效果不佳,可能是因为以下几个原因:

    1. 文件的分割策略不合理:你可以尝试调整RollingPolicy的参数,比如滚动间隔和文件最大大小,看看是否能改善问题。

    2. HDFS的Block Size设置过大:HDFS的Block Size会影响文件的分割效果。如果Block Size过大,可能会导致单个文件过大。你可以尝试调整HDFS的Block Size,看看是否能改善问题。

    3. Flume的Channel容量不足:如果Flume的Channel容量不足,可能会导致数据无法及时写入HDFS,从而导致RollingPolicy无法正常工作。你可以尝试调整Flume的Channel容量,看看是否能改善问题。

    2023-10-31 15:00:08
    赞同 展开评论 打赏
  • 正常的,写oss时不会做真正的flush, 但不影响close。roll这些参数是和close相关的。我建议你检查下flume配置里roll相关参数的配置是否符合预期,因为只要这些参数中满足一个就会滚动日志了。rollcount是和event大小相关的,估计是发送的event大小不一致,你换成size看看,此回答整理自钉群“JindoData 用户交流群”

    2023-10-30 22:51:51
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关产品

  • 开源大数据平台 E-MapReduce
  • 相关电子书

    更多
    PostgresChina2018_赖思超_PostgreSQL10_hash索引的WAL日志修改版final 立即下载
    Kubernetes下日志实时采集、存储与计算实践 立即下载
    日志数据采集与分析对接 立即下载