备案控制台

开发者社区云计算文章正文

创建Parquet结果表

2018-11-14 1590

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

创建Parquet结果表

Parquet是一种高性能的里存储格式，详情请参考Apache Parquet官网。

Flink可以读取Parquet格式数据作为输出，如下:

create table parquet_source(
x varchar,
y varchar,
z varchar
) with (
type='parquet',
filePath='oss://osspath/test.csv'
);

WITH参数

参数	注释说明	备注
filePath	文件路径	支持oss、hdfs的文件系统。
enumerateNestedFiles	递归读取目录下的所有文件	默认为true
writeMode	写入方式	默认None
compressionCodecName	压缩方式	默认为snappy。Parquet支持uncompressed、snappy、gzip、lzo，4种格式。

本文转自实时计算——创建Parquet结果表

文章标签：

Apache

存储

流计算

对象存储

李博 bluemind

目录

相关文章

xleesf

|

10月前

|

存储测试技术 Apache

Apache Hudi 元数据字段揭秘

Apache Hudi 元数据字段揭秘

xleesf

194 1 1

sunrr

Hologres的`dynamicPartition`参数是用来实现动态分区的

Hologres的`dynamicPartition`参数是用来实现动态分区的

sunrr

182 0 0

about云

|

SQL 分布式计算 HIVE

spark sql编程之实现合并Parquet格式的DataFrame的schema

spark sql编程之实现合并Parquet格式的DataFrame的schema

about云

380 0 0

spark sql编程之实现合并Parquet格式的DataFrame的schema

857技术社区

|

存储 SQL 分布式计算

【Parquet】Spark读取Parquet问题详解……

【Parquet】Spark读取Parquet问题详解……

857技术社区

946 0 0

【Parquet】Spark读取Parquet问题详解……

阿里云社区

|

存储分布式计算关系型数据库

KuduSpark_DF 读写 Kudu 表 | 学习笔记

快速学习 KuduSpark_DF 读写 Kudu 表

阿里云社区

225 0 0

KuduSpark_DF 读写 Kudu 表 | 学习笔记

阿里云社区

|

SQL 存储分布式计算

SparkSQL 读写_Hive_创建 Hive 表 | 学习笔记

快速学习 SparkSQL 读写_Hive_创建 Hive 表

阿里云社区

801 0 0

SparkSQL 读写_Hive_创建 Hive 表 | 学习笔记

6hkip34i2a7n6

|

存储分布式计算大数据

SPARK Parquet嵌套类型的向量化支持以及列索引(column index)

SPARK Parquet嵌套类型的向量化支持以及列索引(column index)

6hkip34i2a7n6

613 0 0

SPARK Parquet嵌套类型的向量化支持以及列索引(column index)

游客yno6xv7miabmw

|

SQL HIVE

hive清空表删除分区

hive清空表删除分区

游客yno6xv7miabmw

306 0 0

阿里云社区

|

SQL 大数据 API

SparkSQL 读写_Hive_SparkSQL 创建 Hive 表 | 学习笔记

快速学习 SparkSQL 读写_Hive_SparkSQL 创建 Hive 表

阿里云社区

242 0 0

游客wkxim4agoo6le

|

SQL 分布式计算 Spark

Spark SQL中基于parquet数据的加载方式、数据源的自动分区推断以及数据源的元数据合并

笔记

游客wkxim4agoo6le

202 0 1

热门文章

最新文章

如何在chrome上开启WebGL功能和判断目前浏览器是否支持

YARN中的CPU资源隔离-CGroups

阿里云全面支持IPv6！一文揽尽4位大咖精彩演讲

OAuth 及移动端鉴权调研

SQL0286N. DB2表空间的pagesize问题

“相约丝博会共享新机遇”网媒记者走进大唐西市

72.11. this is incompatible with sql_mode=only_full_group_by

MYSQL: mysqlbinlog读取二进制文件报错read_log_event()

jquery省市选择案例

ArcEngine的License多选问题

Calibre-Web-Automated：打造你的私人图书馆

微信基于 StarRocks 的实时因果推断实践

翻译类插件实现英文文献自由

Dev-C++保姆级安装教程：Win10/Win11环境配置+避坑指南（附下载验证）

Axure设计之下拉多选框制作教程A（中继器）

【原理】【Java并发】【synchronized】适合中学者体质的synchronized原理

2025年Postman的五大替代工具

微信小程序开发全流程：从注册到上线的完整指南

避免15个常见的API测试错误

别再用盗版镜像了！官方渠道获取Win10 ISO+VMware正版激活全流程

相关电子书

更多

Adopting Dataframes and Parquet in an Already Existing Warehouse

Comparison of Spark SQL with Hive

Experiences Migrating Hive Workload to SparkSQL

下一篇

获取百炼API-KEY