开发者社区问答正文

DATAX hdfsreader读取hive orc 写入mongodb读取端丢数

有张分区每个分区后 5000kw 的表，并行导了几天的数进mongodb，部分日期出现数据丢失。
整个过程 datax无报错，有的日期丢失超过1000w数据。
导入过程后两天出现过 hdfs空间满的情况，
也就是导入时空间使用率很高，预计超过95%

是否现有机制下，在空间不足时读失败，无对应日志记录？

展开

收起

bulbcat 2018-12-14 16:35:56 4730 版权

阿里云 AI 助理回答

在您描述的情况下，数据丢失可能与多个因素相关，包括但不限于HDFS空间不足、DataX作业的配置与执行情况、MongoDB的写入限制等。下面是一些可能的原因分析和建议：

HDFS空间满：当HDFS空间使用率接近或达到1000%时，确实可能导致写操作失败。HDFS在空间不足时，通常不会自动覆盖旧文件或删除数据以腾出空间，而是拒绝新的写入请求，这可能导致DataX在尝试写入数据到HDFS临时存储（如果您的配置中涉及到了这一环节）或者直接写MongoDB时遇到问题。这种情况下，DataX可能因为无法成功写入而选择重试或放弃，具体行为取决于DataX的配置和错误处理策略。
无对应日志记录：虽然您提到DataX无报错，但强烈建议检查DataX的日志文件，尤其是详细日志或错误日志，可能会有更详细的错误信息或警告。有时候，尽管作业整体没有标记为失败，但在高负载或资源紧张时，个别任务或步骤可能遇到了问题并被记录下来。确保日志级别设置得足够低，以便捕获所有相关信息。
MongoDB写入限制：MongoDB也有其自身的写入限制，比如Oplog大小、连接数限制、写入速度等，特别是在大量并发写入时。如果MongoDB成为瓶颈，也可能导致数据导入不完全。
DataX配置与优化：
- 确认DataX的并发度设置是否合理，过高的并发可能会加剧HDFS或MongoDB的压力。
- 检查是否有数据过滤或转换逻辑错误，导致部分数据未按预期写入。
- 使用断点续传功能，确保即使作业中断也能从上次成功点继续，减少数据丢失风险。
监控与预警：对于未来的大数据迁移或导入任务，建立完善的监控体系至关重要，包括HDFS空间使用率、作业运行状态、数据库健康状况等，及时设置预警机制，在资源即将耗尽前采取措施。
解决方案：
- 清理HDFS中不必要的旧数据或增加存储容量，确保有足够的空间应对大数据导入。
- 调整DataX作业参数，如降低并发度，增加重试次数和重试间隔，优化错误处理逻辑。
- 定期检查和分析日志，及时发现潜在问题。
- 如果可能，考虑使用阿里云的数据传输服务DTS进行数据迁移，它提供了更稳定、易用且内置容错机制的数据同步方案，能更好地处理大规模数据迁移中的各种异常情况。

综上所述，解决数据丢失问题需要综合考虑数据源、中间过程以及目标系统的状态，并通过细致的排查和适当的调整来避免类似问题再次发生。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

SQL NoSQL MongoDB DataX HIVE 云数据库 MongoDB 版日志服务数据集成 Data Integration

问答标签：

数据集成 Data Integration hive datax Hive datax云数据库 MongoDB 版 datax Hive orc 数据集成 Data Integration orc

问答地址：

开发者社区 > 数据库 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

DATAX hdfsreader读取hive orc 写入mongodb读取端丢数

相关文章