我正在尝试在Amazon Athena上建立技能。我已经成功使用Athena查询JSON和Apache Parquet格式的数据。我现在想做的是向其中添加压缩(gzip)。
我的JSON数据:
{
"id": 1,
"prenom": "Firstname",
"nom": "Lastname",
"age": 23
}
然后,我使用npm模块将JSON转换为Apache Parquet格式:https ://www.npmjs.com/package/parquetjs
最后,我将GZIP格式的实木复合地板文件压缩并放入s3存储桶:test-athena-personnes。
我的雅典娜表:
CREATE EXTERNAL TABLE IF NOT EXISTS personnes (
id INT,
nom STRING,
prenom STRING,
age INT
)
STORED AS PARQUET
LOCATION 's3://test-athena-personnes/'
tblproperties ("parquet.compress"="GZIP");
然后,为了测试它,我启动了一个非常简单的请求: Select * from personnes;
我收到错误消息:
HIVE_CANNOT_OPEN_SPLIT: Error opening Hive split s3://test-athena-personnes/personne1.parquet.gz (offset=0, length=257): Not valid Parquet file: s3://test-athena-personnes/personne1.parquet.gz expected magic number: [80, 65, 82, 49] got: [-75, 1, 0, 0]
有什么我不理解的或者我做得不好吗?我可以在不使用gzip压缩的情况下请求apache实木复合地板文件,但不能使用它。
先感谢您
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。