数据总线(DATAHUB)
DataHub作为一个流式数据总线,为阿里云数加平台提供了大数据的入口服务。结合阿里云众多云产品,可以构建一站式的数据处理平台。实时计算 Flink通常使用DataHub作为流式数据存储头和输出目的端。同时,上游众多流式数据,包括DTS、IOT等均选择DataHub作为大数据平台的数据入口。
DataHub本身是流数据存储,实时计算只能将其作为流式数据输入或者流式数据输出。
DDL定义
实时计算支持使用Datahub作为结果输出。
create table datahub_output(id int,len int,content VARCHAR) with (type='datahub',endPoint='',project='',accessKey='',accessId='',topic='');
Datahub DDL
create table datahub_output(name varchar,age BIGINT,birthday BIGINT)with(type='datahub',endPoint='http://10XXXXXXX9100',project='blink_connector_datahub_test',topic='topic_1',accessId='LTXXXXXXh',accessKey='CLYqVPjRCIXXXXXXXXATUGoS',batchSize='1',batchWriteTimeoutMs='500');
注意:推荐使用数据存储功能。如何使用情您参见数据总线(DATAHUB)。
WITH参数
| 参数 | 注释说明 | 备注 |
|---|---|---|
| endPoint | Endpoint地址 | 参见DataHub的Endpoint地址 |
| project | 项目名 | 无 |
| topic | topic表名 | 无 |
| accessId | accessId | 无 |
| accessKey | accessKey | 无 |
| maxRetryTimes | 最大尝试插入次数 | 可选,默认为3 |
| batchSize | 每次写的批次大小 | 可选,默认为300 |
| batchWriteTimeoutMs | 缓存数据的最大超时时间 | 可选,默认为5000 |
| maxBlockMessages | 每次写入的最大Block数 | 可选,默认为100 |
本文转自实时计算——
创建数据总线(DataHub)结果表