备案控制台

开发者社区微服务文章正文

Blink流式计算-Kafka接入demo

2020-01-10 1229

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，1000CU*H 3个月

简介： //定义解析Kakfa message的UDTF CREATE FUNCTION myParse AS 'com.xxxxxx.MyKafkaUDTF'; CREATE FUNCTION myUdf AS 'com.xxxxxxx.MyWaterMarkUDTF'; //注意：kafka源表DDL字段必须与以下例子一致 create table my_input (

//定义解析Kakfa message的UDTF

CREATE FUNCTION myParse AS 'com.xxxxxx.MyKafkaUDTF';

CREATE FUNCTION myUdf AS 'com.xxxxxxx.MyWaterMarkUDTF';

//注意：kafka源表DDL字段必须与以下例子一致

create table my_input (

messageKey VARBINARY,

message VARBINARY,

topic varchar,

partition int,

offset bigint,

ctTime AS TO_TIMESTAMP (myUdf (message)),

//注意计算里的类型必须为timestamp才能在做watermark。

WATERMARK wk FOR ctTime AS WITHOFFSET (ctTime, 2000) --为rowtime定义watermark

) WITH (

type = 'KAFKA08',

topic = 'myTopic',

group.id = 'mGroup',

extraConfig = 'bootstrap.servers=127.0.0.1:9092',

zookeeper.connect = '127.0.0.1:2181',

startupMode = 'EARLISET'

);

-- 滚动窗口 group by prodId

CREATE VIEW input_view01 (

windowStart,

windowEnd,

prodId,

prodName,

prodNumber

) AS

SELECT

HOP_START (S.ctTime, INTERVAL '30' SECOND, INTERVAL '2' MINUTE),

HOP_END (S.ctTime, INTERVAL '30' SECOND, INTERVAL '2' MINUTE),

T.prodId as prodId,

T.prodName as prodName,

count (*) as prodNumber

from

my_input as S,

LATERAL TABLE (myParse (message)) as T (

id,

prodId,

prodName,

createdAt,

updatedAt

)

Group BY HOP (S.ctTime, INTERVAL '30' SECOND, INTERVAL '2' MINUTE), T.prodId, T.prodName;

CREATE VIEW input_view60 (

id,

prodId,

prodName,

createdAt,

updatedAt

) AS

SELECT

T.id,

T.prodId,

T.prodName,

T.createdAt,

T.updatedAt

from

my_input as S,

LATERAL TABLE (myParse (message)) as T (

id,

goCs,

prodId,

prodName,

createdAt,

updatedAt

);

-- 结果print

create table outprint01(

prodId bigint,

prodName varchar,

prodNumber bigint

)with(

type = 'print'

);

insert into outprint01

select prodId , prodName , prodNumber

from input_view01;

-- 结算结果写入Kafka

create table result_kafka (

messageKey VARBINARY,

message VARBINARY,

PRIMARY KEY (messageKey)

) with (

type = 'KAFKA08',

topic = 'myResultTopic',

extraConfig='bootstrap.servers=127.0.0.1:9092',

zookeeper.connect = '127.0.0.1:2181',

startupMode='EARLISET'

);

//此处的结果输出，可以考虑将结果组装成字符串，中间用|隔开，接收方再解析

INSERT INTO

result_kafka

SELECT

cast(prodId as VARBINARY) as messageKey,

cast(prodName as VARBINARY) as message

FROM

input_view01;

MyKafkaUDTF写法：

package com.xxxxxxxx;

import com.alibaba.fastjson.JSONObject;

import org.apache.flink.table.functions.TableFunction;

import org.apache.flink.table.types.DataType;

import org.apache.flink.table.types.DataTypes;

import org.apache.flink.types.Row;

import java.io.UnsupportedEncodingException;

import java.sql.Timestamp;

public class MyKafkaUDTF extends TableFunction {

public void eval(byte[] message) {

try {

String msg = new String(message, "UTF-8");

System.out.println("收到的消息:"+msg);

try {

JSONObject jsonObject = JSONObject.parseObject(msg);

if (jsonObject != null) {

//id

Long id = jsonObject.getLong("id");

//prodId

Long prodId = jsonObject.getLong("prodId");

//prodName

String prodName = jsonObject.getString("prodName ");

Long createAt = jsonObject.getLong("createdAt");

Long updatedAt = jsonObject.getLong("updatedAt");

//创建时间时间戳

Timestamp createAtTimeStamp = new Timestamp(createAt);

Timestamp updatedAtTimeStamp = new Timestamp(updatedAt);

Row row = new Row(8);

row.setField(0, id);

row.setField(1, prodId);

row.setField(2, prodName);

row.setField(3, createAtTimeStamp );

row.setField(4, updatedAtTimeStamp );

System.out.println("message str ==>" + row.toString());

collect(row);

}

} catch (Exception e) {

e.printStackTrace();

System.out.println(" error. Input data " + msg + "is not json string");

}

} catch (UnsupportedEncodingException e) {

e.printStackTrace();

}

}

@Override

// 如果返回值是Row，就必须重载实现这个方法，显式地告诉系统返回的字段类型

public DataType getResultType(Object[] arguments, Class[] argTypes) {

return DataTypes.createRowType(

DataTypes.LONG,

DataTypes.LONG,

DataTypes.STRING,

DataTypes.TIMESTAMP,

DataTypes.TIMESTAMP);

}

}

package xxxxxxx;

import com.alibaba.fastjson.JSONObject;

import org.apache.flink.table.functions.ScalarFunction;

import java.text.SimpleDateFormat;

import java.util.Date;

public class MyWaterMarkUDTF extends ScalarFunction {

public String eval(byte[] message) {

try {

String msg = new String(message, "UTF-8");

JSONObject data = JSONObject.parseObject(msg);

System.out.println("time:"+data.getString("createdAt"));

Long createAtLong = data.getLong("createdAt");

SimpleDateFormat parser = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");

String createTimeStr = parser.format(new Date(createAtLong));

return createTimeStr;

} catch (Exception e) {

e.printStackTrace();

}

return null;

}

//可选，close方法可以不写

@Override

public void close() {

}

}

文章标签：

云消息队列 Kafka 版

实时计算 Flink版

消息中间件

流计算

SQL

Kafka

数据格式

JSON

sk_zard

目录

相关文章

ly~

|

11月前

|

消息中间件存储监控

如何查看 RocketMQ 消息的重试次数和时间间隔？

RocketMQ消息重试次数和时间间隔可通过查看消费者和Broker日志、使用管理控制台的监控页面和消息查询功能，或通过分析消费者代码和RocketMQ客户端库代码等方式获取。日志中常有消费失败重试的明确记录，控制台可监控消费情况推断重试状态，代码分析则适合技术用户深入了解。

ly~

948 3 3

德国都芳最好

|

10月前

|

存储缓存 JavaScript

如何优化Node.js应用的内存使用以提高性能？

通过以上多种方法的综合运用，可以有效地优化 Node.js 应用的内存使用，提高性能，提升用户体验。同时，不断关注内存管理的最新技术和最佳实践，持续改进应用的性能表现。

德国都芳最好

509 62 62

yuanzhengme

|

10月前

|

消息中间件 canal 分布式计算

类似apache nifi的产品还有哪些？

【10月更文挑战第23天】类似apache nifi的产品还有哪些？

yuanzhengme

470 3 3

yuanzhengme

|

10月前

|

Java API 持续交付

apache nifi 如何进行二次开发？

【10月更文挑战第23天】apache nifi 如何进行二次开发？

yuanzhengme

530 2 2

尹正杰

|

虚拟化 Docker Windows

window 10专业版部署docker环境

本文介绍了如何在Windows 10专业版上部署Docker环境，包括安装步骤、配置镜像加速以及可能遇到的错误处理。

尹正杰

605 3 3

window 10专业版部署docker环境

实时数仓Hologres团队

|

存储 SQL 人工智能

【云栖实录】Hologres3.0全新升级：一体化实时湖仓平台

2024年云栖大会，Hologres 3.0全新升级为一体化实时湖仓平台，通过统一数据平台实现湖仓存储一体、多模式计算一体、分析服务一体、Data+AI 一体，发布 Dynamic Table、External Database、分时弹性、Query Queue、NL2SQL 等众多新的产品能力，实现一份数据、一份计算、一份服务，极大提高数据开发及应用效率。同时，Hologres 的预付费实例年付折扣再降15%，仅需7折，不断帮助企业降低数据管理成本，赋能业务增长。

实时数仓Hologres团队

4510 0 0

江帅帅

最新版 MyBatisPlus 分页插件（直接拿来就可以用）

最新版 MyBatisPlus 分页插件（直接拿来就可以用）

江帅帅

724 0 1

爱吃糖的范同学

|

消息中间件存储 Kafka

【Kafka】Kafka 的日志保留期与数据清理策略

【4月更文挑战第13天】【Kafka】Kafka 的日志保留期与数据清理策略

爱吃糖的范同学

3381 5 5

vohelon

|

负载均衡网络架构 CDN

阿里云服务器网络不稳定，可能有以下一些原因

阿里云服务器网络不稳定，可能有以下一些原因

vohelon

2295 1 1

程序员徐师兄

|

关系型数据库 MySQL 数据库

2023 年Windows MySql 5.7，MySql 8.0 下载安装教程, 附详细图解，亲测可用

2023 年Windows MySql 5.7，MySql 8.0 下载安装教程, 附详细图解，亲测可用

程序员徐师兄

1539 0 0

热门文章

最新文章

轻量应用服务器支持带宽套餐升级至流量包套餐流程说明

阿里企业邮箱登录入口地址

Flink on YARN（上）：一张图轻松掌握基础架构与启动流程

【实测】windows安装部署go实录（超详细）

业内首款云原生技术中台产品云原生 Stack 来了！

网络编程--基础TCP

GNU make manual 翻译( 一百四十七)

Linux学习（一）：查看文件目录的几种常用方式

Dalvik 虚拟机的垃圾收集简介

StarRocks：Connect Data Analytics with the World

当AI遇上癌症：聊聊个性化治疗的新可能

别再满世界找日志了：聊聊如何用AI帮运维团队快速排查故障

数据才是真救命的：聊聊如何用大数据提升灾难预警的精准度

《AI协同供应链调度困局：从需求拆解到落地增效的全流程实践》

基于springboot的大学生创新能力比赛系统

AI智能体框架怎么选？7个主流工具详细对比解析

当MySQL遇见AI：使用Vector扩展实现智能语义搜索

基于python的网络课程在线学习交流系统

Github 12.3kstar, 3分钟起步做中后台？Go+Vue 脚手架，把权限、代码生成、RBAC 都封装好了

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

2025云栖大会，阿里云百炼邀请您的参与和见证