apache_flink_个人页

apache_flink

文章

问答

视频

个人介绍

Apache Flink China是经过Apache Flink官方授权的中文社区。是旨在向国内宣传和普及Flink相关技术，输出技术博文、译作、资讯等内容，推动国内大数据技术发展的开源社区。

擅长的技术

数据库

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

暂无更多信息

2019年06月

06.25 17:09:44

发表了文章 2019-06-25 17:09:44

社区活动 | Apache RocketMQ × Apache Flink Meetup · 上海站

7 月 6 日，Apache Flink Meetup 再度回归魔都，来自阿里巴巴、网易的 Flink 技术专家联合 Apache RocketMQ 社区大咖来一场 Flink 与 RocketMQ 的邂逅，看看 Apache RocketMQ × Apache Flink 会碰撞出怎样的火花。
06.20 13:56:28

发表了文章 2019-06-20 13:56:28

谈谈流计算中的『Exactly Once』特性

本文翻译自 streaml.io 网站上的一篇博文：“Exactly once is NOT exactly the same” ，分析了流计算系统中常说的『Exactly Once』特性，主要观点是：『精确一次』并不保证是完全一样。
06.20 12:02:41

发表了文章 2019-06-20 12:02:41

原理解析 | Apache Flink 结合 Kafka 构建端到端的 Exactly-Once 处理

1. Apache Flink 应用程序中的 Exactly-Once 语义 2. Flink 应用程序端到端的 Exactly-Once 语义 3. 示例 Flink 应用程序启动预提交阶段 4. 在 Flink 中实现两阶段提交 Operator 5. 总结
06.20 11:47:37

发表了文章 2019-06-20 11:47:37

从 Spark Streaming 到 Apache Flink : 实时数据流在爱奇艺的演进

本文将为大家介绍 Apache Flink 在爱奇艺的生产与实践过程。你可以借此了解到爱奇艺引入 Apache Flink 的背景与挑战，以及平台构建化流程。
06.14 15:28:55

发表了文章 2019-06-14 15:28:55

如何从小白进化成 Apache Flink 技术专家？9节基础课程免费公开！

为了让大家更全面地了解 Apache Flink 背后的技术以及应用实践，今天，我们首次免费公开 Apache Flink 系列视频课程。
06.06 14:40:45

发表了文章 2019-06-06 14:40:45

Apache Flink Meetup · 北京站

Apache Flink Community China Meetup，关于大数据、实时计算、流计算、批处理等。邀请到Apache Flink PMC和Airbnb、阿里巴巴多位 Apache Flink Committer 现场分享。

发表了文章 2019-06-25

社区活动 | Apache RocketMQ × Apache Flink Meetup · 上海站
发表了文章 2019-06-20

谈谈流计算中的『Exactly Once』特性
发表了文章 2019-06-20

原理解析 | Apache Flink 结合 Kafka 构建端到端的 Exactly-Once 处理
发表了文章 2019-06-20

从 Spark Streaming 到 Apache Flink : 实时数据流在爱奇艺的演进
发表了文章 2019-06-14

如何从小白进化成 Apache Flink 技术专家？9节基础课程免费公开！
发表了文章 2019-06-14

Blink 有何特别之处？菜鸟供应链场景最佳实践
发表了文章 2019-06-06

Apache Flink Meetup · 北京站
发表了文章 2019-04-17

为什么说流处理即未来？
发表了文章 2018-12-25

阿里重磅开源 Blink：为什么我们等了这么久？
发表了文章 2018-11-22

超燃！Apache Flink 全球顶级盛会强势来袭
发表了文章 2018-11-09

Apache Flink China Meetup 北京站 - 计算之美，何止于快
发表了文章 2018-10-30

Flink China 社区运营成果报告（7月-9月）

正在加载, 请稍后...

滑动查看更多

提交了问题 2019-02-14

flink啥时候出 hadoop3.0版本的呀
提交了问题 2019-02-14

用 RocksDBStateBackend 时出现了这个错误
提交了问题 2019-02-14

yarn运行yarn-session报错，有大神知道吗
提交了问题 2019-02-14

如图，ture ? false? 是什么意思？
提交了问题 2019-02-14

blink使用streaming的runtime实现batch，效率会降低吗？
提交了问题 2019-02-14

有一个作业跑一段时间后总是挂，查nodemanager日志发现是内存不够了，但是堆内存使用情况正常
回答了问题 2019-07-17

flink啥时候出 hadoop3.0版本的呀

成阳：blink内部版本使用hadoop 3.0版本的client，从而能使用到一些yarn 3.x才有功能（比如placement constraint）。但如果使用hadoop 3.0特有的api后，会导致flink在低版本的hadoop集群中不能正常运行。目前大部分yarn用户还是以hadoop 2.6为主，所以目前blink开源版对于hadoop的依赖是2.6及以上版本的。如果flink用户不需要hadoop 3.0特有的api的话，编译flink时用hadoop 2.6版本即可。我们已经测试过基于hadoop 2.6.5的flink能够正常运行在hadoop 3.x的集群中。

赞0 踩0 评论0
回答了问题 2019-07-17

用 RocksDBStateBackend 时出现了这个错误

邱从贤：用 RocksDBStateBackend 时出现了这个错误追问：incremental 模式这个没有，用的是 RocksDBStateBackend 他就是增量哈 ![4](https://yqfile.alicdn.com/e66112b6d4109a020a299af421eda60a431b7ce0.png) 邱从贤：那需要看下哪个 task 超时了，然后看下日志找找看为啥超时了追问：这个是错误日志，问了问度娘说：因为Mapred多个task操作同一个文件，一个task完成后删掉文件导致。查看了下 dfs.datanode.max.xcievers 为 4096，难道这个值还是小了嘛 ![5](https://yqfile.alicdn.com/e6d4f6acc722b153e19e9e45c30991404339ed66.png) 茶干：你这个错误实际上是expire 的checkpoint清理导致的task failover，root cause还是为啥你的checkpoint会超时，相关错误汇报可以参考 FLINK-10615和FLINK-10930

赞0 踩0 评论0
回答了问题 2019-07-17

yarn运行yarn-session报错，有大神知道吗

无题：你看看 hdfs 那边的日志，我遇到的时候，是虚拟内存太底，导致不成功。

赞0 踩0 评论0
回答了问题 2019-07-17

如图，ture ? false? 是什么意思？

澄水：false表示是撤回消息，true是插入或更新消息，这条query包含agg操作，从93->94需要先把93的结果撤回，然后发送更新结果94这控制台的已经是输出数据了，不用你控制

赞0 踩0 评论0
回答了问题 2019-07-17

blink使用streaming的runtime实现batch，效率会降低吗？

在享受到流式处理优势的同时不会以牺牲吞吐位代价，首先checkpoint是增量异步的，overhead比较小对正常数据处理的影响很小，网络层的shuffle是以buffer为单位进行的，相当于micro batch吞吐很好，相比batch模式，下游提前启动了参与拉数据和处理，所以整体性能上会更好，除了资源占用会更多一些绝顶：可以看一下FFC上蒋晓伟研究员讲的keynote，上面有tpc-ds和spark的对比数据https://files.alicdn.com/tpsservice/62fa5ebcd23ea0b8a956f2a06197b57a.pdf

赞0 踩0 评论0
回答了问题 2019-07-17

有一个作业跑一段时间后总是挂，查nodemanager日志发现是内存不够了，但是堆内存使用情况正常

智笙：可以把gc日志打出来分析下墨简：堆内ok的话堆外呢有没有jni直接走malloc，new一类的

赞0 踩0 评论0

正在加载, 请稍后...

滑动查看更多

Apache Flink meetup ·北京站

发布时间：2019-05-28 18:04:13 视频时长：359分40秒播放量：23056

活动流程9:00 - 10:00：签到10:00-11:00：戴资力+杨克特《Apache Flink 1.9 特性解读》11:00-11:15：茶歇11:15-12:00：秦江杰《打造基于Flink Table API的机器学习生态》13:00-14:00：签到14:00-14:45：张凯+任春德《基于Flink on Kubernetes的大数据平台》14:45-15:30：杨旭《基于Apache Flink的高性能机器学习算法库》15:30-16:15：董亭亭《Apache Flink在快手的应用与实践》16:15-16:35：茶歇16:35-17:20：待定待定17:20-18:05：李锐《Apache Flink-1.9与Hive的兼容性》18:05-18:30：抽奖+合影+会后交流嘉宾介绍演讲标题：《Apache Flink 1.9 特性解读》戴资力（Gordon Tai）Apache Flink PMC ，Ververica Software Engineer个人简介：戴资力（Gordon Tai）是 Apache Flink 开源社区的 PMC 成员，目前任职于 Ververica 担任 Software Engineer，主要负责 Flink 的系统开发。在 Flink 的主要贡献包含：Apache Kafka / AWS Kinesis 精确一次连接数据源，数据类序列化框架，有状态流处理的应用升级等。曾于 Flink Forward San Francisco / Berlin / Beijing 与 Strata Data 担任讲者分享 Flink 相关议题。杨克特（花名：鲁尼）阿里巴巴高级技术专家，Apache Flink Committer个人简介：2011年硕士毕业于浙江大学后加入阿里巴巴，先后从事过搜索引擎，调度系统，大数据处理等核心系统的设计与研发，目前负责实时计算 Flink的SQL引擎。演讲标题：《打造基于Flink Table API的机器学习生态》秦江杰Apache Kafka PMC，阿里巴巴高级技术专家个人简介：阿里巴巴实时计算平台高级技术专家。硕士毕业于卡耐基梅陇大学，曾任职于LinkedIn负责Apache Kafka的开发，是Apache Kafka PMC member。目前在阿里巴巴参与Apache Flink的开发工作。内容简介：Flink 社区在最近的一段时间里对 Table API 进行了一系列功能强化来使其更好的为各种数据计算需求服务。机器学习作为一种重要的计算场景也是Table API发展规划中的关键的组成部分。本次分享将介绍Flink 社区基于 Flink Table API来打造机器学习生态方面的各项工作规划和进展。演讲标题：《基于Flink on Kubernetes的大数据平台》张凯阿里云高级技术专家个人简介：负责容器服务Kubernetes产品架构和研发，重点探索利用容器技术加速异构计算、深度学习、边缘计算等广泛场景方案的交付与落地。任春德（花名：瓦力）阿里巴巴高级技术专家个人简介：2006年毕业加入阿里集团，长期从事Hadoop相关的大数据计算平台研发，目前在计算平台事业部担任高级技术专家，负责YARN和Flink资源调度的研发。通过Flink与YARN的深度对接，为实时计算提供大规模、高效、稳定的运行平台。演讲标题：《基于Apache Flink的高性能机器学习算法库》杨旭阿里巴巴资深算法专家个人简介：杨旭是阿里巴巴集团计算平台事业部的资深算法专家，主要负责阿里云机器学习算法平台PAI中的基础机器学习算法的研发和维护，并基于Flink研发了批流一体的通用算法平台Alink。Alink已在阿里集团内部广泛使用，杨旭与其团队近期正在推进开源基于Flink的机器学习算法库，进一步回馈社区。演讲简介：阿里巴巴计算平台事业部正在与Flink社区合作，开源自研的机器学习算法库，基于该算法库，用户可以更方便地构建高性能的Flink机器学习作业。我们希望通过开源来促进Flink社区在机器学习领域的发展。同时也欢迎更多开发者与我们携手共进，建立更强大、更完整的Flink算法库。本次分享主要围绕团队基于Flink研发高性能机器学习算法库过程中的技术积累与收获。演讲标题：《Apache Flink在快手的应用与实践》董亭亭快手实时计算引擎团队负责人个人简介：董亭亭，快手大数据架构实时计算引擎团队负责人。目前负责Flink引擎在快手内的研发、应用以及周边子系统建设。2013年毕业于大连理工大学，曾就职于奇虎360、58集团。主要研究领域包括：分布式计算、调度系统、分布式存储等系统。演讲简介： Flink系统在快手有着广泛的应用，包括实时监控、实时统计分析、多源数据join等，涉及到公司几乎所有数据相关业务部门。目前Flink集群的整体规模超过千台、日处理条目超过264亿条，处理峰值超过3.6千万条/s。本次分享将会介绍Flink系统在快手的应用实践，以及我们遇到的稳定性、性能等相关问题以及解决思路。例如，如何解决interval join场景下rockdb backend的性能瓶颈、大量读取历史数据时多数据源取数速度差异导致的稳定性问题等等。具体提纲：1、 Flink在快手应用场景与规模2、快手Flink引擎的优化与改进3、未来计划演讲标题：《Apache Flink-1.9与Hive的兼容性》李锐Apache Hive PMC，阿里巴巴技术专家个人简介：阿里巴巴技术专家，Apache Hive PMC成员，加入阿里巴巴之前曾就职于Intel、IBM等公司，主要参与Hive、HDFS、Spark等开源项目。演讲简介：为了完善Flink SQL的功能，更好地挖掘Flink在批处理方面的潜力，我们提出了Flink与Hive集成的项目，为用户提供通过Flink SQL与Hive进行互操作的功能。本演讲将介绍该项目的设计与架构，在Flink-1.9中与Hive集成的进展，以及我们后续工作的计划等。Apache Flink China 社区钉钉群

正在加载, 请稍后...

滑动查看更多

探索云世界

热门

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

apache_flink_个人页

个人介绍

擅长的技术

社区活动 | Apache RocketMQ × Apache Flink Meetup · 上海站

谈谈流计算中的『Exactly Once』特性

原理解析 | Apache Flink 结合 Kafka 构建端到端的 Exactly-Once 处理

从 Spark Streaming 到 Apache Flink : 实时数据流在爱奇艺的演进

如何从小白进化成 Apache Flink 技术专家？9节基础课程免费公开！

Blink 有何特别之处？菜鸟供应链场景最佳实践

Apache Flink Meetup · 北京站

为什么说流处理即未来？

阿里重磅开源 Blink：为什么我们等了这么久？

超燃！Apache Flink 全球顶级盛会强势来袭

Apache Flink China Meetup 北京站 - 计算之美，何止于快

Flink China 社区运营成果报告（7月-9月）

flink啥时候出 hadoop3.0版本的呀

用 RocksDBStateBackend 时出现了这个错误

yarn运行yarn-session报错，有大神知道吗

如图，ture ? false? 是什么意思？

blink使用streaming的runtime实现batch，效率会降低吗？

有一个作业跑一段时间后总是挂，查nodemanager日志发现是内存不够了，但是堆内存使用情况正常

flink啥时候出 hadoop3.0版本的呀

用 RocksDBStateBackend 时出现了这个错误

yarn运行yarn-session报错，有大神知道吗

如图，ture ? false? 是什么意思？

blink使用streaming的runtime实现batch，效率会降低吗？

有一个作业跑一段时间后总是挂，查nodemanager日志发现是内存不够了，但是堆内存使用情况正常