Zeppelin结合Flink查询hudi数据-阿里云开发者社区

Zeppelin结合Flink查询hudi数据

2022-01-09 629

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文结合如何通过zeppelin结合flink查询hudi中的数据。

关于Zeppelin

Zeppelin是基于 Web 的notebook，是支持使用 SQL、Scala、Python、R 等进行数据驱动的交互式数据分析和协作的Notebook。

Zeppelin支持多种语言后端，Apache Zeppelin 解释器允许将任何语言/数据处理后端插入 Zeppelin。目前 Apache Zeppelin 支持 Apache Spark、Apache Flink、Python、R、JDBC、Markdown 和 Shell 等多种解释器。

简单来说就是，让你通过Web UI去实现很多本来需要登录服务器，通过终端才能实现的功能。

（关于Flink和Hudi介绍，可参考本博主其他文章，或 search by yourself）

下面今日正题。

本文涉及组件及其版本

组件名称	版本号
hadoop	3.2.0
hudi	0.10.0-SNAPSHOT
zeppelin	0.10.0
flink	1.13.1

在执行以下操作之前，请先将数据导入hudi，如果还未导入，可参考：

使用FLINK SQL从savepoint恢复hudi作业（flink 1.13）

zeppelin安装包下载

mkdir /data && cd /data
wget https://dlcdn.apache.org/zeppelin/zeppelin-0.10.0/zeppelin-0.10.0-bin-all.tgz

tar zxvf zeppelin-0.10.0-bin-all.tgz
ln -s /data/zeppelin-0.10.0-bin-all /data/zeppelin

zeppelin配置文件修改

cd /data/zeppelin/conf
cp zeppelin-site.xml.template zeppelin-site.xml

将zeppelin.server.addr配置项修改为0.0.0.0

zeppelin默认端口使用8080，如果和你本地端口冲突可将其改为别的端口，本文档将端口修改为8008，也就是将zeppelin.server.port配置项修改为8008

cp zeppelin-env.sh.template zeppelin-env.sh

填入以下变量：

export JAVA_HOME=/data/jdk
export HADOOP_CONF_DIR=/data/hadoop/etc/hadoop
export FLINK_HOME=/data/flink

各变量请根据自己环境进行设置。

本文后续使用默认的local模式启动Flink。

启动zeppelin

bin/zeppelin-daemon.sh start

此时如果你们没有创建logs文件夹以及run文件夹，那么会在zeppelin目录下自动创建，如下所示：

[root@hadoop zeppelin]# bin/zeppelin-daemon.sh start
Log dir doesn't exist, create /data/zeppelin/logs
Pid dir doesn't exist, create /data/zeppelin/run
Zeppelin start                                             [  OK  ]

此时浏览器输入zeppelin服务器ip:8008或者hostname:8008即可进入如下页面：

基本使用

点击Notebook，点击Create new note，填写文本名称以及选定flink interpreter，如下所示：

新建完之后进入如下页面：

根据前面说到的，我们已经通过文章

使用FLINK SQL从savepoint恢复hudi作业（flink 1.13）

所述将数据导入hudi，那么此时我们就可以进行查询：

我们选择

%flink.ssql

首先定义hudi表：

 create table stu8_binlog_sink_hudi(
  id bigint not null,
  name string,
  `school` string,
  nickname string,
  age int not null,
  score decimal(4,2) not null,
  class_num int not null,
  phone bigint not null,
  email string,
  ip string,
  primary key (id) not enforced
)
 partitioned by (`school`)
 with (
  'connector' = 'hudi',
  'path' = 'hdfs://hadoop:9000/tmp/test_stu8_binlog_sink_hudi',
  'table.type' = 'MERGE_ON_READ',
  'write.precombine.field' = 'school'
  );

对hudi表进行统计：

select * from stu8_binlog_sink_hudi;

得到如下结果：

接着进行order by查询

select * from stu8_binlog_sink_hudi order by age desc limit 100;

总结

本文基于给定hudi数据，使用zeppelin结合flink引擎对其进行查询统计。但是呢，我们之前在Flink SQL Client里面能做的其实，在zeppelin里面都能做，我们完全可以用其替换之前文章所述的Flink SQL Client。

了解更多

本文关于hudi的实践是hudi专题中的一个例子，更多内容请参考如下：

https://lrting.top/special/hudi/

hudi-1

hudi-2

相关实践学习

基于Hologres+Flink搭建GitHub实时数据大屏

通过使用Flink、Hologres构建实时数仓，并通过Hologres对接BI分析工具（以DataV为例），实现海量数据实时分析.

实时计算 Flink 实战课程

如何使用实时计算 Flink 搞定数据处理难题？实时计算 Flink 极客训练营产品、技术专家齐上阵，从开源 Flink功能介绍到实时计算 Flink 优势详解，现场实操，5天即可上手！欢迎开通实时计算 Flink 版： https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍： Flink Forward 是由 Apache 官方授权，Apache Flink Community China 支持的会议，通过参会不仅可以了解到 Flink 社区的最新动态和发展计划，还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验，是 Flink 开发者和使用者不可错过的盛会。去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与，一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况，Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。

Zeppelin结合Flink查询hudi数据

关于Zeppelin

本文涉及组件及其版本

zeppelin安装包下载

zeppelin配置文件修改

启动zeppelin

基本使用

总结

了解更多

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Zeppelin结合Flink查询hudi数据

关于Zeppelin

本文涉及组件及其版本

zeppelin安装包下载

zeppelin配置文件修改

启动zeppelin

基本使用

总结

了解更多

热门文章

最新文章

相关课程

相关电子书

相关实验场景