赵慧@ApacheFlink中文社区_个人页

赵慧@ApacheFlink中文社区

文章

问答

350

视频

个人介绍

暂无个人介绍

擅长的技术

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

ACA
- 阿里云大数据助理工程师认证（ACA）
  获得于2021-04-29 19:16:22

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

提交了问题 2018-10-18

用flink自带的资源管理会不会太low了
提交了问题 2018-10-18

想请教下动态CEP是怎么实现的，完全抛弃了官方的库么？
提交了问题 2018-10-18

问下，如果我想把1.6的一些bug fixed和new feature增加过来，但是老的集群又不好去直接升级，直接打patch合适吗？还是直接升级？
提交了问题 2018-10-18

请教问题利用BoundedOutOfOrdernessTimestampExtractor 进行每五秒统计一次数据（数据来源socket），发现最近一条记录不会被触发统计，只有当下一条数据写入，之前的数据才会被触发统计，请问是什么原因？
提交了问题 2018-10-18

在flink 的 sliding window下如何知道每个元组属于哪个时间窗口呢？
提交了问题 2018-10-18

standalone模式下，使用fs作为backend，如何指定本地目录，格式是怎么样的
提交了问题 2018-10-18

请问各位大大，如果是独立的Flink集群，Standalone Cluster好还是On Yarn比较好? 个人觉得通过zk做主备job manager好像没什么大的缺陷.不知道有哪位运维过Flink集群的大大能出来指点一下
提交了问题 2018-10-18

请教下这个有遇到过吗? Caused by: org.apache.flink.runtime.io.network.netty.exception.RemoteTransportException: Connecting to remote task manager + 'localhost/127.0.0.1:46575' has failed. This might indicate that the remote task manager has been lost.
提交了问题 2018-10-18

flink和spark的最大区别是什么来着？就是双重groupby报错的那段
提交了问题 2018-10-18

Task Slots在web dashboard全是0啥情况呀有大佬说下么？start-cluster看到都启动了
提交了问题 2018-10-18

现在那种需要跟数据库黑白名单这种比对的，Flink怎么做合适
提交了问题 2018-10-18

请问下大家，DataStream[Row] 上面转table时怎么做能够将某一列指定为Event time？
提交了问题 2018-10-18

flink能否设置一个全局 bool变量呢这个变量会在job运行20分钟左右发生变化，每个task要能获取到最新值（可以有延迟）
提交了问题 2018-10-18

DataStream[Row] 转table怎么指定.proctime字段？
提交了问题 2018-10-18

checkpoint 保存成功可是每次启动不能从checkpoint保存那个地方开始啊？可以解答下吗？
提交了问题 2018-10-18

jstorm 跟flink有撒区别
提交了问题 2018-10-18

Blink 是不是主要是流式SQL 呢！昨天大概听了个课程
提交了问题 2018-10-18

flink的源码大多数是java 吗？还是以scala ？
提交了问题 2018-10-18

flink 现在支持python 吗？大佬们
提交了问题 2018-10-18

有个问题咨询下大家，集群中有一个taskmanager运行期间宕机或者网络连不上了，这种情况下flink是怎么把数据迁移到其他节点上的？会丢数据吗？
提交了问题 2018-10-18

flink可以从hbase里取数据进行分析吗？
提交了问题 2018-10-18

一个分区为1的kafka source，parallelism为2，但是两个watermark却不一样
提交了问题 2018-10-18

window id result 是指什么？
发表了文章 2018-10-16

阿里巴巴为什么选择Apache Flink？

本文作者：王峰（花名：莫问）导读：伴随着海量增长的数据，数字化时代的未来感扑面而至。不论是结绳记事的小数据时代，还是我们正在经历的大数据时代，计算的边界正在被无限拓宽，而数据的价值再也难以被计算。时下，谈及大数据，不得不提到热门的下一代大数据计算引擎Apache Flink（以下简称Flink）。本文将结合Flink的前世
发表了文章 2018-10-15

Flink在唯品会的实践

> 本文来自于王新春在2018年7月29日 Flink China社区线下 Meetup·上海站的分享。王新春目前在唯品会负责实时平台相关内容，主要包括实时计算框架和提供实时基础数据，以及机器学习平台的工作。之前在美团点评，也是负责大数据平台工作。他已经在大数据实时处理方向积累了丰富的工作经验。本文主要内容主要包括以下几个方面： 1. 唯品会实时平台现状 2. Flink在唯
发表了文章 2018-10-15

Flink在美团的实践与应用

作者: 刘迪珊导读:本文整理自8月11日在北京举行的Flink Meetup，分享嘉宾刘迪珊(2015年加入美团数据平台。致力于打造高效、易用的实时计算平台，探索不同场景下实时应用的企业级解决方案及统⼀化服务)。
发表了文章 2018-10-15

Flink 靠什么征服饿了么工程师？（Flink在饿了么实时计算平台的应用）

title:Flink 靠什么征服饿了么工程师？（Flink在饿了么实时计算平台的应用） author: 易伟平 time: 2018/07/26 order: 6 comment: 本文将为大家展示饿了么大数据平台在实时计算方面所做的工作，以及计算引擎的演变之路，你可以借此了解Storm、Spark、Flink的优缺点。如何选择一个合适的实时计算引擎？Flink凭借何种优势成为饿了么首选
发表了文章 2018-10-15

携程基于Flink的实时特征平台

> 本文来自7月26日在上海举行的 Flink Meetup 会议，分享来自于刘康，目前在大数据平台部从事模型生命周期相关平台开发，现在主要负责基于flink开发实时模型特征计算平台。熟悉分布式计算，在模型部署及运维方面有丰富实战经验和深入的理解，对模型的算法及训练有一定的了解。本文主要内容如下： - 在公司实时特征开发的现状基础上，说明实时特征平台的开发背景、目标以及现状
发表了文章 2018-10-15

下：比拼生态和未来，Spark和Flink哪家强？

![](0.jpg) > 前文对 Spark 和 Flink 的引擎做了对比。对用户来说引擎并不是考虑数据产品的唯一方面。开发和运维相关的工具和环境，技术支持，社区等等，对能不能在引擎上面做出东西来都很重要。这些构成了一个产品的生态。可以说引擎决定了功能和性能的极限，而生态能让这些能力真正发挥出作用。 ## 概况 ![](1.png) Spark 是最活跃的 A
发表了文章 2018-10-15

Flink状态管理和容错机制介绍

作者: 施晓罡（花名：星罡）导读:本文来自8月11日在北京举行的 Flink Meetup会议，分享来自于施晓罡，目前在阿里大数据团队部从事Blink方面的研发，现在主要负责Blink状态管理和容错相关技术的研发本文主要内容如下： - 有状态的流数据处理； - Flink中的状态接口； - 状态管理和容错机制实现； - 阿里相关工作介绍； ###
发表了文章 2018-10-15

Jstorm到Flink 在今日头条的迁移实践

作者r:张光辉导读t:本文将为大家展示字节跳动公司怎么把Storm从J storm迁移到Flink的整个过程以及后续的计划。你可以借此了解字节跳动公司引入Flink的背景以及Flink集群的构建过程。字节跳动公司是如何兼容以前的Jstorm作业以及基于Flink做一个任务管理平台的呢？本文将一一为你揭开这些神秘的面纱。本文内容如下： - 引入Flink的背景 - Flink集群
发表了文章 2018-10-15

Flink在美团的实践与应用

作者: 刘迪珊导读:本文整理自8月11日在北京举行的Flink Meetup，分享嘉宾刘迪珊(2015年加入美团数据平台。致力于打造高效、易用的实时计算平台，探索不同场景下实时应用的企业级解决方案及统⼀化服务)。 ## 美团实时计算平台现状和背景 ### 实时平台架构 01.jpg 上图呈现的是当前美团实时计算平台的简要架构。最底层是数据缓存层，可以看到美团测的所有日志
发表了文章 2018-10-15

上：Spark VS Flink – 下一代大数据计算引擎之争，谁主沉浮？

> **导读**：做大数据绝对躲不过的一个热门话题就是实时流计算，而提到实时流计算，就不得不提 Spark 和 Flink。Spark 从 2014 年左右开始迅速流行，刚推出时除了在某些场景比 Hadoop MapReduce 带来几十到上百倍的性能提升外，还提出了用一个统一的引擎支持批处理、流处理、交互式查询、机器学习等常见的数据处理场景。凭借高性能和全面的场景支持，Spark 早已成为
发表了文章 2018-10-15

携程基于Flink的实时特征平台

> 本文来自7月26日在上海举行的 Flink Meetup 会议，分享来自于刘康，目前在大数据平台部从事模型生命周期相关平台开发，现在主要负责基于flink开发实时模型特征计算平台。熟悉分布式计算，在模型部署及运维方面有丰富实战经验和深入的理解，对模型的算法及训练有一定的了解。本文主要内容如下： - 在公司实时特征开发的现状基础上，说明实时特征平台的开发背景、目标以及现状
发表了文章 2018-10-15

Flink在唯品会的实践

> 本文来自于王新春在2018年7月29日 Flink China社区线下 Meetup·上海站的分享。王新春目前在唯品会负责实时平台相关内容，主要包括实时计算框架和提供实时基础数据，以及机器学习平台的工作。之前在美团点评，也是负责大数据平台工作。他已经在大数据实时处理方向积累了丰富的工作经验。本文主要内容主要包括以下几个方面： 1. 唯品会实时平台现状 2. Flink在唯
发表了文章 2018-10-15

Flink 的新方向在哪里？这场顶级盛会给出了答案

导读：Flink Forward是由Apache官方授权，Apache Flink 商业公司dataArtisans（Flink核心作者创办）发起，阿里巴巴、 Uber、Airbnb、Netflix等公司参与的国际型会议。日前Flink Forward柏林会议刚刚闭幕，今天，我们一起分享会议内容。
提交了问题 2018-10-10

请问一下大家，有没有遇到过大窗口，小slide的情况，比如说1个月大的窗口，1分钟的slide（因为希望对一个月内的数据每分钟做输出），这样一条数据会分布在非常多的窗口里面，内存消耗很大。不知道这种问题怎么解？
提交了问题 2018-10-10

如果业务逻辑处理中涉及到调用第三方的dubbo接口，用udf函数封装合适吗？
提交了问题 2018-10-10

我们想把业务处理做成插件，然后每个job的main都是一个，通过动态load业务自定义jar，但flink这种结构做起来很麻烦，我不得不写了个重新打包的功能，你们blink是怎么实现这个功能的？
提交了问题 2018-10-10

请教个问题，flink run是不是只能submit一个jar? 如果是，那么多个jar一般是怎么提交？
提交了问题 2018-10-10

请教一下，Standalone的Flink程序运行的时候出OOM了，想DUMP出堆日志来看，请问在Flink里面怎么做类似于HeapDumpOnOutOfMemoryError 的事情？
提交了问题 2018-10-10

我在这个flatmap里面是根据传入值得一个字段提取当成key，然后keyby这个字段，由于这个字段会变化，所以用了confStream这个配置流。目前得问题是我把flatmap并行度设为我指定的parallelism时，并没有达到我想将不同的key分配到不同的task的要求，但是设为1的话就可以达到，目前没有明白时为什么，请各位大牛解惑。
提交了问题 2018-10-10

flink能实现一个类似storm一样的DRPC功能响应客户端请求吗?这个功能好实用，为何flink里木有
提交了问题 2018-10-10

在yarn上,起了flink session,再向session提交了任务,早上发现任务task没有了,failed有1的标记,请问下怎么查看这个出错的日志

暂无更多信息

发表了文章 2019-01-05

Apache Flink，流计算？不仅仅是流计算！
发表了文章 2018-11-30

Apache Flink 干货合集打包好了，速来下载
发表了文章 2018-11-06

取之开源，用之开源-深度剖析阿里巴巴对Flink的优化与改进
发表了文章 2018-10-16

阿里巴巴为什么选择Apache Flink？
发表了文章 2018-10-15

Flink在唯品会的实践
发表了文章 2018-10-15

Flink在美团的实践与应用
发表了文章 2018-10-15

Flink 靠什么征服饿了么工程师？（Flink在饿了么实时计算平台的应用）
发表了文章 2018-10-15

携程基于Flink的实时特征平台
发表了文章 2018-10-15

下：比拼生态和未来，Spark和Flink哪家强？
发表了文章 2018-10-15

Flink状态管理和容错机制介绍
发表了文章 2018-10-15

Jstorm到Flink 在今日头条的迁移实践
发表了文章 2018-10-15

Flink在美团的实践与应用
发表了文章 2018-10-15

上：Spark VS Flink – 下一代大数据计算引擎之争，谁主沉浮？
发表了文章 2018-10-15

携程基于Flink的实时特征平台
发表了文章 2018-10-15

Flink在唯品会的实践
发表了文章 2018-10-15

Flink 的新方向在哪里？这场顶级盛会给出了答案

正在加载, 请稍后...

滑动查看更多

提交了问题 2019-02-21

有没有flink实时计算的demo，集群方式的
提交了问题 2019-02-21

各位大牛下午好，请问在编译Blink时，发生如下异常：我的maven版本：3.2.5，请问该如何解决 Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:compile (scala-compile-first) on project flink-table_2.11: wrap: org.apache.commons.exec.ExecuteException: Process exited with an error
提交了问题 2019-02-21

大神们，你们一般hadoop设置几个副本啊？
提交了问题 2019-02-21

编译完Blink源码，启动集群时报这个警告。哪位大佬知道在哪里设置？
提交了问题 2019-02-21

Flink on Yarn 有两种模式分离模式和客户端模式，我现在在做调研，没有大规模的使用，我想知道的是，这两种模式具体适用的场景是什么，对于我现在来说，两种模式我感觉区别不是很大，有人说客户端模式的隔离性更好，但是我想知道这个这个在实际应用起来，所谓的隔离性影响大吗？或者说这两者有什么其他的较大的区别，有朋友了解吗？
提交了问题 2019-02-21

flink + rocketmq从指定Offsets启动有人做过吗
提交了问题 2019-02-21

Job倒了如何自动重新启动呢？
提交了问题 2019-02-21

请教大牛，我自己写了一个SinkFunction，继承了RichSinkFunction，初始化这个SinkFunction时，我传进去了一个数据库连接池对象，在SinkFunction的invoke里，调用数据库连接池对象来写数据库。我的问题是，当SinkFunction被partition到多个机器的vm执行时，这个数据库连接池对象是在程序入口的JobClient（程序提交所在的机器VM），还是这个对象也被复制了好多份，有多少个SinkFunction在运行就有多少个数据库连接池对象？
提交了问题 2019-02-21

flink可以通过代码自动重启job程序嘛？
提交了问题 2019-02-21

设置了flink source的 parallelism 为4，会直接造成flink启动4个taskmanager吗？
提交了问题 2019-02-21

blink有开发文档么
提交了问题 2019-02-21

State Backend中backend是什么意思，是存储的意思吗
提交了问题 2019-02-21

请问flink on yarn模式, 怎么使用REST API接口对作业进行监控? 我想集成到自己的后台里而不是在原本的web UI上查看
提交了问题 2019-02-21

flink on yarn任务失败了之后，错误日志从哪看有人知道吗？
提交了问题 2019-02-21

blink中是否已经实现了HBase表的维表JOIN功能？有的话，具体体现在哪个包里？
提交了问题 2019-02-21

请问Flink on Yarn的模式是否需要部署Flink 集群？个人理解下来，Flink on Yarn会从启动session的节点上传jar和配置文件，但是每次想到spark on yarn部署了集群心里总是不安。还请在生产中使用Flink的前辈确认一下，谢谢！
提交了问题 2019-02-21

谁有flink的学习资料
提交了问题 2019-02-21

现在blink能用在生产环境吗
提交了问题 2019-02-21

flink每分钟滚动和滑动窗口能不能join在一起啊？
提交了问题 2019-02-21

blink是不是支持hadoop3？

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

赵慧@ApacheFlink中文社区_个人页

个人介绍

擅长的技术

用flink自带的资源管理会不会太low了

想请教下动态CEP是怎么实现的，完全抛弃了官方的库么？

问下，如果我想把1.6的一些bug fixed和new feature增加过来，但是老的集群又不好去直接升级，直接打patch合适吗？还是直接升级？

请教问题 利用BoundedOutOfOrdernessTimestampExtractor 进行每五秒统计一次数据（数据来源socket），发现最近一条记录不会被触发统计，只有当下一条数据写入，之前的数据才会被触发统计，请问是什么原因？

在flink 的 sliding window下 如何知道每个元组属于哪个时间窗口呢 ？

standalone模式下，使用fs作为backend，如何指定本地目录，格式是怎么样的

请问各位大大，如果是独立的Flink集群，Standalone Cluster好还是On Yarn比较好? 个人觉得通过zk做主备job manager好像没什么大的缺陷.不知道有哪位运维过Flink集群的大大能出来指点一下

请教下这个有遇到过吗? Caused by: org.apache.flink.runtime.io.network.netty.exception.RemoteTransportException: Connecting to remote task manager + 'localhost/127.0.0.1:46575' has failed. This might indicate that the remote task manager has been lost.

flink和spark的最大区别是什么来着？就是双重groupby报错的那段

Task Slots在web dashboard全是0啥情况呀 有大佬说下么？start-cluster看到都启动了

现在那种需要跟数据库黑白名单这种比对的，Flink怎么做合适

请问下大家，DataStream[Row] 上面转table时怎么做能够将某一列指定为Event time？

flink能否设置一个全局 bool变量呢 这个变量会在job运行20分钟左右发生变化，每个task要能获取到最新值（可以有延迟）

DataStream[Row] 转table怎么指定.proctime字段？

checkpoint 保存成功 可是每次启动不能从checkpoint保存那个地方开始啊？ 可以解答下吗 ？

jstorm 跟flink有撒区别

Blink 是不是主要是流式SQL 呢！昨天大概听了个课程

flink的源码大多数是java 吗？还是以scala ？

flink 现在支持python 吗？大佬们

有个问题咨询下大家，集群中有一个taskmanager运行期间宕机或者网络连不上了，这种情况下flink是怎么把数据迁移到其他节点上的？会丢数据吗？

flink可以从hbase里取数据进行分析吗？

一个分区为1的kafka source，parallelism为2，但是两个watermark却不一样

window id result 是指什么？

阿里巴巴为什么选择Apache Flink？

Flink在唯品会的实践

Flink在美团的实践与应用

Flink 靠什么征服饿了么工程师？（Flink在饿了么实时计算平台的应用）

携程基于Flink的实时特征平台

下：比拼生态和未来，Spark和Flink哪家强？

Flink状态管理和容错机制介绍

Jstorm到Flink 在今日头条的迁移实践

Flink在美团的实践与应用

上：Spark VS Flink – 下一代大数据计算引擎之争，谁主沉浮？

携程基于Flink的实时特征平台

Flink在唯品会的实践

Flink 的新方向在哪里？这场顶级盛会给出了答案

请问一下大家，有没有遇到过大窗口，小slide的情况，比如说1个月大的窗口，1分钟的slide（因为希望对一个月内的数据每分钟做输出），这样一条数据会分布在非常多的窗口里面，内存消耗很大。不知道这种问题怎么解？

如果业务逻辑处理中涉及到调用第三方的dubbo接口，用udf函数封装合适吗？

我们想把业务处理做成插件，然后每个job的main都是一个，通过动态load业务自定义jar，但flink这种结构做起来很麻烦，我不得不写了个重新打包的功能，你们blink是怎么实现这个功能的？

请教个问题，flink run是不是只能submit一个jar? 如果是，那么多个jar一般是怎么提交？

请教一下，Standalone的Flink程序运行的时候出OOM了，想DUMP出堆日志来看，请问在Flink里面怎么做类似于HeapDumpOnOutOfMemoryError 的事情？

flink能实现一个类似storm一样的DRPC功能响应客户端请求吗?这个功能好实用，为何flink里木有

在yarn上,起了flink session,再向session提交了任务,早上发现任务task没有了,failed有1的标记,请问下怎么查看这个出错的日志

Apache Flink，流计算？不仅仅是流计算！

Apache Flink 干货合集打包好了，速来下载

取之开源，用之开源-深度剖析阿里巴巴对Flink的优化与改进

阿里巴巴为什么选择Apache Flink？

Flink在唯品会的实践

Flink在美团的实践与应用

Flink 靠什么征服饿了么工程师？（Flink在饿了么实时计算平台的应用）

携程基于Flink的实时特征平台

下：比拼生态和未来，Spark和Flink哪家强？

Flink状态管理和容错机制介绍

Jstorm到Flink 在今日头条的迁移实践

Flink在美团的实践与应用

上：Spark VS Flink – 下一代大数据计算引擎之争，谁主沉浮？

携程基于Flink的实时特征平台

Flink在唯品会的实践

Flink 的新方向在哪里？这场顶级盛会给出了答案

有没有flink实时计算的demo，集群方式的

大神们，你们一般hadoop设置几个副本啊？

请教问题利用BoundedOutOfOrdernessTimestampExtractor 进行每五秒统计一次数据（数据来源socket），发现最近一条记录不会被触发统计，只有当下一条数据写入，之前的数据才会被触发统计，请问是什么原因？

在flink 的 sliding window下如何知道每个元组属于哪个时间窗口呢？

Task Slots在web dashboard全是0啥情况呀有大佬说下么？start-cluster看到都启动了

flink能否设置一个全局 bool变量呢这个变量会在job运行20分钟左右发生变化，每个task要能获取到最新值（可以有延迟）

checkpoint 保存成功可是每次启动不能从checkpoint保存那个地方开始啊？可以解答下吗？

请问flink on yarn模式, 怎么使用REST API接口对作业进行监控? 我想集成到自己的后台里而不是在原本的web UI上查看