开发者社区> 问答> 正文

Amazon AWS Athena HIVE_CANNOT_OPEN_SPLIT:打开Hive拆分时

我正在尝试在Amazon Athena上建立技能。我已经成功使用Athena查询JSON和Apache Parquet格式的数据。我现在想做的是向其中添加压缩(gzip)。

我的JSON数据:

{
    "id": 1,
    "prenom": "Firstname",
    "nom": "Lastname",
    "age": 23
}

然后,我使用npm模块将JSON转换为Apache Parquet格式:https ://www.npmjs.com/package/parquetjs

最后,我将GZIP格式的实木复合地板文件压缩并放入s3存储桶:test-athena-personnes。

我的雅典娜表:

CREATE EXTERNAL TABLE IF NOT EXISTS personnes (
    id INT,
    nom STRING,
    prenom STRING,
    age INT
) 
STORED AS PARQUET
LOCATION 's3://test-athena-personnes/'
tblproperties ("parquet.compress"="GZIP");

然后,为了测试它,我启动了一个非常简单的请求: Select * from personnes;

我收到错误消息:

HIVE_CANNOT_OPEN_SPLIT: Error opening Hive split s3://test-athena-personnes/personne1.parquet.gz (offset=0, length=257): Not valid Parquet file: s3://test-athena-personnes/personne1.parquet.gz expected magic number: [80, 65, 82, 49] got: [-75, 1, 0, 0]

有什么我不理解的或者我做得不好吗?我可以在不使用gzip压缩的情况下请求apache实木复合地板文件,但不能使用它。

先感谢您

展开
收起
几许相思几点泪 2019-12-17 18:17:15 1692 0
0 条回答
写回答
取消 提交回答
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Comparison of Spark SQL with Hive 立即下载
Hive Bucketing in Apache Spark 立即下载
2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践 立即下载