PyFlink 快速上手 | 学习笔记(一)

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 快速学习 PyFlink 快速上手

开发者学堂课程【开源 Flink 极客训练营PyFlink 快速上手】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/760/detail/13342


PyFlink 快速上手

 

内容介绍

一.PyFlink 简介

二. PyFlink 功能介绍

三. PyFlink 功能演示

四. PyFlink 下一步规划

 

一. PyFlink 简介

PyFlink 是 Flink 的一个子模块,也是整个 Flink 项目的一部分,主要目的提供 Flink 的 Python 语言支持。Flink 是用Java 语言开发的,对外提供了 Java,scala, SQL 等编程语言的支持。支持 Python 语言的主要考虑是在机器学习、数据分析等领域,Python 非常重要,甚至是最主要的开发语言,许多机器学习专家、数据分析科学家甚至完全不懂Java,为了满足用户需求、拓宽各个生态,启动了 PyFlink 项目。

1、PyFlink 项目的目标

1将 Flink 的计算能力输出给 Python 用户。

在 Flink 中提供一系列的 Python API,方便对于 Python 语言比较熟悉的用户开发 Flink 作业。这是目前正在做的事情。

2将 Python 生态基于 Flink 进行分布式化。

在 Flink 中提供一系列 Python API 方便Python 用户使用,但对于用户来说存在学习成本,因为用户要学习如何使Flink 的 Python API,了解没一个 API 的用途,而有一些常用的 Python 库比如 Pandas 或者 NumPy,许多用户很熟悉,那么我们能否在 API层使用这些 Python 用户比较熟悉的 Python 库的 API,但是底层的计算使用 PyFlink,这样对于 Python 库比较熟悉的用户就可以使用自己熟悉的 API 进行开发,从而降低学习成本。这是未来需要做的事情,目前处于启动阶段。

2、PyFlink 项目的发展历程

PyFlink 项目起源于2019年4月份,目前发布了三个版本1.9,1.10和1.11,功能趋于成熟。在1.9版本中提供了 Python Table API 功能,在1.10版本中支持了Python UDF 以及 Python 依赖管理,用户可以在 Python Table API 中使用 Python UDF,而在最新发布的1.11版本中 PyFlink 也带来更多的功能,比如向量化 Python UDF, Python UDTF,UDF metrics 支持, Python ML pipeline API 等等,在性能优化上,利用 Cython 极大的优化了 Python UDF 的执行性能,同时也支持了在 Java Table 的 API 作业以及在纯 SQL 作业中使用 Python UDF,极大的扩展了 Python UDF 的使用范围。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
SQL 机器学习/深度学习 Java
用Python进行实时计算——PyFlink快速入门
Flink 1.9.0及更高版本支持Python,也就是PyFlink。 在最新版本的Flink 1.10中,PyFlink支持Python用户定义的函数,使您能够在Table API和SQL中注册和使用这些函数。但是,听完所有这些后,您可能仍然想知道PyFlink的架构到底是什么?作为PyFlink的快速指南,本文将回答这些问题。
2466 0
用Python进行实时计算——PyFlink快速入门
|
SQL 存储 Java
PyFlink 快速上手 | 学习笔记(二)
快速学习 PyFlink 快速上手
191 0
PyFlink 快速上手 | 学习笔记(二)
|
Java API 流计算
PyFlink 快速上手 | 学习笔记(三)
快速学习 PyFlink 快速上手
261 0
PyFlink 快速上手 | 学习笔记(三)
|
SQL Java API
PyFlink 快速上手(二)|学习笔记
快速学习 PyFlink 快速上手(二)
395 0
PyFlink 快速上手(二)|学习笔记
|
SQL 机器学习/深度学习 Java
PyFlink 快速上手(一)|学习笔记
快速学习 PyFlink 快速上手
688 0
PyFlink 快速上手(一)|学习笔记
|
SQL 分布式计算 监控
SparkSQL 初体验_命令式案例 | 学习笔记
快速学习 SparkSQL 初体验_命令式案例
74 0