什么是Flink Batch功能
实时计算 Flink是阿里巴巴在开源Flink基础上做了大量优化的Flink版本,其中增加了大量的批处理相关功能,使Flink成为统一了批流计算模型的大数据处理引擎。
如何试用Flink Batch功能
与流处理功能相同,Flink Batch功能对SQL有完善的支持,并且做到了批流SQL统一。与流相比,批的SQL暂不支持window相关函数,其他语法都支持。所以SQL文档请参考公共云流计算SQL文档。
如何创建批处理作业
准备工作
创建批处理作业
进入流计算控制台。
编写作业,示例:读取HDFS数据进行计算,并写回HDFS。
-
-- 源表DDL,类型orc,存放路径,用户HDFS的 hdfs://roothdfs/table/ds=20180816/ 目录
create table hdfs_orc_source(
name varchar,
age BIGINT,
birthday BIGINT
) with (
type='orc',
path='hdfs://hdfshome/user/hive/warehouse/xxx/table1/dt=20180814',
enumerateNestedFiles='true'
);
-- 结果表ddl
create table test_sink(
name varchar,
age bigint,
birthday bigint
) with (
type='orc',
filePath='hdfs://hdfshome/orcpath/test'
)
-- DML语句
insert into test_sink
select
name,
age,
birthday
from hdfs_source
说明:
- connector相关配置,请参考阿里云官网Batch(试用)。
- SQL相关文档,请参考FlinkSQL手册。
本文转自实时计算——
Batch功能介绍