oss数据同步maxcompute报错-阿里云开发者社区

oss数据同步maxcompute报错

2024-09-20 647

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

对象存储 OSS，OSS 加速器 50 GB 1个月

简介： 在使用阿里云DataWorks同步OSS数据至MaxCompute时，遇到“Input is not in the .gz format”的报错。问题源于目标目录中存在一个空文件，导致同步时识别错误。

报错信息

在阿里云中使用dataworks，同步oss数据到maxcompute过程中产生的报错

ErrorMessage:
Code:[UnstructuredStorageReader-09], Description:[您配置的文件在读取时出现IO异常.]. - 流读取错误 : [bucket/###/###/###/###/2024-09-17/] - java.io.IOException: Input is not in the .gz format
    at org.apache.commons.compress.compressors.gzip.GzipCompressorInputStream.init(GzipCompressorInputStream.java:162)
    at org.apache.commons.compress.compressors.gzip.GzipCompressorInputStream.<init>(GzipCompressorInputStream.java:135)
    at com.alibaba.datax.plugin.unstructuredstorage.reader.UnstructuredStorageReaderUtil.getDecompressedInputStream(UnstructuredStorageReaderUtil.java:259)
    at com.alibaba.datax.plugin.unstructuredstorage.reader.UnstructuredStorageReaderUtil.getFileBufferedReader(UnstructuredStorageReaderUtil.java:244)
    at com.alibaba.datax.plugin.unstructuredstorage.reader.UnstructuredStorageReaderUtil.readFromInputStream(UnstructuredStorageReaderUtil.java:224)
    at com.alibaba.datax.plugin.unstructuredstorage.reader.UnstructuredStorageReaderUtil.readFromStream(UnstructuredStorageReaderUtil.java:210)
    at com.alibaba.datax.plugin.reader.ossreader.OssReader$Task.startRead(OssReader.java:397)
    at com.alibaba.datax.core.taskgroup.runner.ReaderRunner.run(ReaderRunner.java:107)
    at java.lang.Thread.run(Thread.java:853)

背景

我需要在 oss 中上传一些文件到 2024-09-17 这个目录下，但是我并没有这个目录，所以我手动创建目录，并上传了文件。文件为压缩格式，压缩方式为gz

然后同步任务参数配置为

随后开始调度任务便有了最开始的报错信息

排查

此时我的 2024-09-17 这个目录下仅有一个文件

并且这个文件格式正确，但是报错信息匪夷所思 Input is not in the .gz format 。

这个目录下仅有一个文件，并且我确定文件格式正确（2024-09-16，也就是前一天可以正常调度，没有报错，为了对比，我将那天的文件直接拷贝过来）。

很奇怪！？明明只有一个文件，而且文件格式肯定正确，却告诉我文件格式不正确，到底哪里错了？莫非？

我去点击了统计文件

等等！两个！？可是我上看下看左看右看，都只看到了一个文件，并且我也确定我只上传了一个文件！

为此我去下载了 ossutil（可以查看到所有文件，我倒要看看那个隐藏文件是何物）配置完成后

在黑窗口输入ossutil ls oss://examplebucket --all-versions

可以看到，确实有两个文件，下面那个为我上传的正常文件，可是上面那个空空如也。

由此，我确定了，导致报错的罪魁祸首就是这个空文件，或者叫，文件前缀。

dataworks在同步数据时，我使用了通配符 * ,所以会扫描此目录下的所有文件，因此这个文件前缀也被同步进去了，可是他不是gz格式，当然会报错 Input is not in the .gz format

解决

如何避免这个文件前缀呢？

我只列出两种工具，手动操作的方式，不谈API（此方法也可解决问题），想了解的小伙伴可自行查阅

使用 ossutil 工具上传你想放进 oss 的文件

ossutil cp /localpath/text.gz oss://my-bucket/2024-09-17/text.gz

使用 oss-browser 工具

首先在目录那输入你想创建文件夹（此时文件夹还没有真正的创建），按下回车

然后点击左边的上传文件即可，在选择完文件后点击确定，阿里云会自动帮你创建文件夹（由他创建是不会有问题的，也就是不会有那个多余的文件前缀）

这两种方法都可，执行完后去查看是否还有多余的文件前缀

成功！

转载自本人博客：https://lllblog.cn/2024/09/18/oss_sync_error/

oss数据同步maxcompute报错

报错信息

背景

排查

解决

对象存储OSS

热门文章

最新文章

相关产品

相关课程

相关电子书