oss数据同步maxcompute报错

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 在使用阿里云DataWorks同步OSS数据至MaxCompute时,遇到“Input is not in the .gz format”的报错。问题源于目标目录中存在一个空文件,导致同步时识别错误。

报错信息

在阿里云中使用dataworks,同步oss数据到maxcompute过程中产生的报错

ErrorMessage:
Code:[UnstructuredStorageReader-09], Description:[您配置的文件在读取时出现IO异常.]. - 流读取错误 : [bucket/###/###/###/###/2024-09-17/] - java.io.IOException: Input is not in the .gz format
    at org.apache.commons.compress.compressors.gzip.GzipCompressorInputStream.init(GzipCompressorInputStream.java:162)
    at org.apache.commons.compress.compressors.gzip.GzipCompressorInputStream.<init>(GzipCompressorInputStream.java:135)
    at com.alibaba.datax.plugin.unstructuredstorage.reader.UnstructuredStorageReaderUtil.getDecompressedInputStream(UnstructuredStorageReaderUtil.java:259)
    at com.alibaba.datax.plugin.unstructuredstorage.reader.UnstructuredStorageReaderUtil.getFileBufferedReader(UnstructuredStorageReaderUtil.java:244)
    at com.alibaba.datax.plugin.unstructuredstorage.reader.UnstructuredStorageReaderUtil.readFromInputStream(UnstructuredStorageReaderUtil.java:224)
    at com.alibaba.datax.plugin.unstructuredstorage.reader.UnstructuredStorageReaderUtil.readFromStream(UnstructuredStorageReaderUtil.java:210)
    at com.alibaba.datax.plugin.reader.ossreader.OssReader$Task.startRead(OssReader.java:397)
    at com.alibaba.datax.core.taskgroup.runner.ReaderRunner.run(ReaderRunner.java:107)
    at java.lang.Thread.run(Thread.java:853)

背景

我需要在 oss 中上传一些文件到 2024-09-17 这个目录下,但是我并没有这个目录,所以我手动创建目录,并上传了文件。文件为压缩格式,压缩方式为gz

image-20240918162205410.png

然后同步任务参数配置为

image-20240918163258565.png

随后开始调度任务便有了最开始的报错信息

排查

此时我的 2024-09-17 这个目录下 仅有一个文件

image-20240918164415458.png

并且这个文件格式正确,但是报错信息匪夷所思 Input is not in the .gz format 。

这个目录下仅有一个文件,并且我确定文件格式正确(2024-09-16,也就是前一天可以正常调度,没有报错,为了对比,我将那天的文件直接拷贝过来)。

很奇怪!?明明只有一个文件,而且文件格式肯定正确,却告诉我文件格式不正确,到底哪里错了?莫非?

我去点击了统计文件

image-20240918164004274.png

image-20240918164037333.png

等等!两个!?可是我上看下看左看右看,都只看到了一个文件,并且我也确定我只上传了一个文件!

为此我去下载了 ossutil(可以查看到所有文件,我倒要看看那个隐藏文件是何物) 配置完成后

在黑窗口输入ossutil ls oss://examplebucket --all-versions

image-20240918165540168.png

可以看到,确实有两个文件,下面那个为我上传的正常文件,可是上面那个空空如也。

由此,我确定了,导致报错的罪魁祸首就是这个空文件,或者叫,文件前缀。

dataworks在同步数据时,我使用了通配符 * ,所以会扫描此目录下的所有文件,因此这个 文件前缀 也被同步进去了,可是他不是gz格式,当然会报错 Input is not in the .gz format

解决

如何避免这个文件前缀呢?

我只列出两种工具,手动操作的方式,不谈API(此方法也可解决问题),想了解的小伙伴可自行查阅

  1. 使用 ossutil 工具上传你想放进 oss 的文件

    ossutil cp /localpath/text.gz oss://my-bucket/2024-09-17/text.gz
    
  2. 使用 oss-browser 工具

    首先在目录那输入你想创建文件夹(此时文件夹还没有真正的创建),按下回车

    image-20240918171648265.png

然后点击左边的上传文件即可,在选择完文件后点击确定,阿里云会自动帮你创建文件夹(由他创建是不会有问题的,也就是不会有那个多余的文件前缀)

这两种方法都可,执行完后去查看是否还有多余的文件前缀

image-20240918171801793.png

成功!

转载自本人博客:https://lllblog.cn/2024/09/18/oss_sync_error/

相关文章
|
2天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
29天前
|
运维 Cloud Native Devops
一线实战:运维人少,我们从 0 到 1 实践 DevOps 和云原生
上海经证科技有限公司为有效推进软件项目管理和开发工作,选择了阿里云云效作为 DevOps 解决方案。通过云效,实现了从 0 开始,到现在近百个微服务、数百条流水线与应用交付的全面覆盖,有效支撑了敏捷开发流程。
19262 29
|
30天前
|
人工智能 自然语言处理 搜索推荐
阿里云Elasticsearch AI搜索实践
本文介绍了阿里云 Elasticsearch 在AI 搜索方面的技术实践与探索。
18799 20
|
29天前
|
Rust Apache 对象存储
Apache Paimon V0.9最新进展
Apache Paimon V0.9 版本即将发布,此版本带来了多项新特性并解决了关键挑战。Paimon自2022年从Flink社区诞生以来迅速成长,已成为Apache顶级项目,并广泛应用于阿里集团内外的多家企业。
17507 13
Apache Paimon V0.9最新进展
|
1月前
|
存储 人工智能 前端开发
AI 网关零代码解决 AI 幻觉问题
本文主要介绍了 AI Agent 的背景,概念,探讨了 AI Agent 网关插件的使用方法,效果以及实现原理。
18694 15
|
28天前
|
人工智能 自然语言处理 搜索推荐
评测:AI客服接入钉钉与微信的对比分析
【8月更文第22天】随着人工智能技术的发展,越来越多的企业开始尝试将AI客服集成到自己的业务流程中。本文将基于《10分钟构建AI客服并应用到网站、钉钉或微信中》的解决方案,详细评测AI客服在钉钉和微信中的接入流程及实际应用效果,并结合个人体验分享一些心得。
9910 9
|
1月前
|
消息中间件 弹性计算 关系型数据库
函数计算驱动多媒体文件处理解决方案体验评测
从整体解读到部署体验,多方位带你了解如何利用函数计算驱动多媒体文件处理,告别资源瓶颈。
10441 13
|
23天前
|
存储 JSON Serverless
西游再现,函数计算一键部署 Flux 超写实文生图模型部署
参与体验活动生成西游人物图像,既有机会赢取好礼!本次实验在函数计算中内置了flux.1-dev-fp8大模型,通过函数计算+Serverless应用中心一键部署Flux模型,快速生成超写实图像。首次开通用户可领取免费试用额度,部署过程简单高效。完成部署后,您可以通过修改提示词生成各种风格的图像,体验Flux模型的强大绘图能力。
西游再现,函数计算一键部署 Flux 超写实文生图模型部署
|
1月前
|
SQL 容灾 关系型数据库
让X不断延伸, 从跨AZ到跨Region再到跨Cloud
本文从“空间”这一维度,聊一聊PolarDB-X在跨空间部署能力上的不断发展和延伸,以及在不同空间范围下的高可用和容灾能力,并着重介绍一下最新的产品能力——GDN(Global Database Network)。
7881 8
|
1月前
|
缓存 测试技术 调度
PolarDB-X的TPC-H列存执行计划
本文从官方的角度逐条解析PolarDB-X在TPC-H列存执行计划的设计要点。这些要点不仅包含了各项优化的原理,还提供了相关的证明与代码实现,希望帮助读者更深入地理解PolarDB-X的列存优化器。
7874 12