DataWorks小文件产生的原因是什么？

展开

收起

真的很搞笑 2023-12-03 18:48:30 74 0

4 条回答

写回答

取消提交回答

柒号华仔

小文件产生主要有3种原因:
(1)当Reduce计算过程中会产生大量小文件;
(2)Tunnel数据采集过程中会生成小文件;
(3)Job执行过程中生成的各种临时文件、回收站保留的过期文件等。

2023-12-11 09:10:11

赞同 1 展开评论打赏
vohelon

MaxCompute什么情况下会产生小文件？如何解决小文件问题？https://help.aliyun.com/zh/maxcompute/faq-about-small-file-optimization-and-job-diagnostics?spm=a2c4g.11186623.0.i221#concept-2385675

产生场景：
MaxCompute使用盘古分布式文件系统是按块（Block）存放的，通常文件大小比块大小小的文件（默认块大小为64MB），被称为小文件。

以下场景会产生小文件：
Reduce计算过程会产生大量小文件。
Tunnel数据采集过程中会生成小文件。
Job执行过程中生成的各种临时文件、回收站保留的过期的文件等，主要分类有以下几种：
TABLE_BACKUP：回收站中超过保留天数的表。
FUXI_JOB_TMP：作业运行临时目录。
TMP_TABLE：作业运行中产生的临时表。
INSTANCE：作业运行时保留在META表中的日志。
LIFECYCLE：超过生命周期的数据表或分区。
INSTANCEPROFILE：作业提交及执行完成后的Profile信息。
VOLUME_TMP：没有META信息，但在盘古上有路径的数据。
TEMPRESOURCE：用户自定义函数使用的一次性临时资源文件。
FAILOVER：系统发生失效转移（Failover）时保留的临时文件。
可以通过如下命令查看表中的小文件数量。
desc extended + 表名

2023-12-05 14:08:06

赞同展开评论打赏
sunrr
DataWorks小文件产生的原因主要有以下几种：
1. 数据量过大：当需要处理的数据量过大时，可能会生成大量的小文件。例如，在大数据计算过程中，如果数据被分发到多个任务或多个节点上处理，每个任务或节点可能会生成自己的小文件。
2. 数据源不稳定：如果数据源不稳定，或者数据源的变化频率过高，那么每次数据变化都可能会导致生成新的文件，从而产生大量的小文件。
3. 数据处理逻辑复杂：如果数据处理逻辑过于复杂，或者需要经过多个处理步骤，每个步骤都可能会生成一个新的文件，从而导致小文件数量增加。
4. 并发写入：如果在同一时间内，多个进程或节点同时对同一份数据进行写入操作，也可能会导致生成大量的小文件。
5. 文件管理策略：有些系统可能会根据特定的文件管理策略（如定期清理旧文件、限制文件大小等）来自动生成小文件。
6. 其他原因：除了上述原因，还有一些其他因素可能会导致生成小文件，例如存储空间不足、磁盘故障等。
为了解决DataWorks小文件过多的问题，可以尝试以下几种方法：
1. 优化数据处理逻辑：简化数据处理流程，减少中间文件的生成。
2. 合并小文件：通过使用一些工具或系统特性来合并小文件，以减少文件的数量。
3. 调整文件管理策略：根据实际情况调整文件管理策略，例如调整文件的保留时间、最大文件大小等。
4. 增加存储空间：确保系统有足够的存储空间来存储文件，以避免由于存储空间不足而导致生成小文件。
5. 定期清理旧文件：定期清理不再需要的旧文件，以释放存储空间并减少文件的数量。
2023-12-04 17:15:48

赞同展开评论打赏
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
在DataWorks中，小文件的产生可能有多种原因：
1. 实时处理：例如使用Spark Streaming从外部数据源接收数据，然后经过ETL处理后存储到HDFS中。在这种情况下，每个作业中可能会产生大量的小文件。
2. Hive操作：对Hive表执行insert操作时，每次插入都会在表目录下形成一个小文件。
3. Reduce计算过程：在Reduce计算过程中，可能会生成大量的小文件。
4. Tunnel数据采集：Tunnel数据采集过程中也可能会产生小文件。
5. 临时文件和过期文件：Job执行过程中生成的各种临时文件、回收站保留的过期文件等，如TABLE_BACKUP（回收站中超过保留天数的表）和FUXI_JOB_TMP（作业）等，也可能导致小文件的产生。
为了避免或减少小文件的产生，可以考虑优化数据处理流程、调整Hive操作方式、合理配置Reduce计算等。同时，定期清理不再需要的小文件和临时文件也是一个好的实践。
2023-12-03 20:29:37

赞同展开评论打赏