暂无个人介绍
本文作者:王峰(花名:莫问) 导读:伴随着海量增长的数据,数字化时代的未来感扑面而至。不论是结绳记事的小数据时代,还是我们正在经历的大数据时代,计算的边界正在被无限拓宽,而数据的价值再也难以被计算。时下,谈及大数据,不得不提到热门的下一代大数据计算引擎Apache Flink(以下简称Flink)。本文将结合Flink的前世
> 本文来自于王新春在2018年7月29日 Flink China社区线下 Meetup·上海站的分享。王新春目前在唯品会负责实时平台相关内容,主要包括实时计算框架和提供实时基础数据,以及机器学习平台的工作。之前在美团点评,也是负责大数据平台工作。他已经在大数据实时处理方向积累了丰富的工作经验。 本文主要内容主要包括以下几个方面: 1. 唯品会实时平台现状 2. Flink在唯
作者: 刘迪珊 导读:本文整理自8月11日在北京举行的Flink Meetup,分享嘉宾刘迪珊(2015年加入美团数据平台。致力于打造高效、易用的实时计算平台,探索不同场景下实时应用的企业级解决方案及统⼀化服务)。
title:Flink 靠什么征服饿了么工程师?(Flink在饿了么实时计算平台的应用) author: 易伟平 time: 2018/07/26 order: 6 comment: 本文将为大家展示饿了么大数据平台在实时计算方面所做的工作,以及计算引擎的演变之路,你可以借此了解Storm、Spark、Flink的优缺点。如何选择一个合适的实时计算引擎?Flink凭借何种优势成为饿了么首选
> 本文来自7月26日在上海举行的 Flink Meetup 会议,分享来自于刘康,目前在大数据平台部从事模型生命周期相关平台开发,现在主要负责基于flink开发实时模型特征计算平台。熟悉分布式计算,在模型部署及运维方面有丰富实战经验和深入的理解,对模型的算法及训练有一定的了解。 本文主要内容如下: - 在公司实时特征开发的现状基础上,说明实时特征平台的开发背景、目标以及现状
![](0.jpg) > 前文对 Spark 和 Flink 的引擎做了对比。对用户来说引擎并不是考虑数据产品的唯一方面。开发和运维相关的工具和环境,技术支持,社区等等,对能不能在引擎上面做出东西来都很重要。这些构成了一个产品的生态。可以说引擎决定了功能和性能的极限,而生态能让这些能力真正发挥出作用。 ## 概 况 ![](1.png) Spark 是最活跃的 A
作者: 施晓罡 (花名:星罡) 导读:本文来自8月11日在北京举行的 Flink Meetup会议,分享来自于施晓罡,目前在阿里大数据团队部从事Blink方面的研发,现在主要负责Blink状态管理和容错相关技术的研发 本文主要内容如下: - 有状态的流数据处理; - Flink中的状态接口; - 状态管理和容错机制实现; - 阿里相关工作介绍; ###
作者r:张光辉 导读t:本文将为大家展示字节跳动公司怎么把Storm从J storm迁移到Flink的整个过程以及后续的计划。你可以借此了解字节跳动公司引入Flink的背景以及Flink集群的构建过程。字节跳动公司是如何兼容以前的Jstorm作业以及基于Flink做一个任务管理平台的呢?本文将一一为你揭开这些神秘的面纱。 本文内容如下: - 引入Flink的背景 - Flink集群
作者: 刘迪珊 导读:本文整理自8月11日在北京举行的Flink Meetup,分享嘉宾刘迪珊(2015年加入美团数据平台。致力于打造高效、易用的实时计算平台,探索不同场景下实时应用的企业级解决方案及统⼀化服务)。 ## 美团实时计算平台现状和背景 ### 实时平台架构 01.jpg 上图呈现的是当前美团实时计算平台的简要架构。最底层是数据缓存层,可以看到美团测的所有日志
> **导读**: 做大数据绝对躲不过的一个热门话题就是实时流计算,而提到实时流计算,就不得不提 Spark 和 Flink。Spark 从 2014 年左右开始迅速流行,刚推出时除了在某些场景比 Hadoop MapReduce 带来几十到上百倍的性能提升外,还提出了用一个统一的引擎支持批处理、流处理、交互式查询、机器学习等常见的数据处理场景。凭借高性能和全面的场景支持,Spark 早已成为
> 本文来自7月26日在上海举行的 Flink Meetup 会议,分享来自于刘康,目前在大数据平台部从事模型生命周期相关平台开发,现在主要负责基于flink开发实时模型特征计算平台。熟悉分布式计算,在模型部署及运维方面有丰富实战经验和深入的理解,对模型的算法及训练有一定的了解。 本文主要内容如下: - 在公司实时特征开发的现状基础上,说明实时特征平台的开发背景、目标以及现状
> 本文来自于王新春在2018年7月29日 Flink China社区线下 Meetup·上海站的分享。王新春目前在唯品会负责实时平台相关内容,主要包括实时计算框架和提供实时基础数据,以及机器学习平台的工作。之前在美团点评,也是负责大数据平台工作。他已经在大数据实时处理方向积累了丰富的工作经验。 本文主要内容主要包括以下几个方面: 1. 唯品会实时平台现状 2. Flink在唯
作者: 张皓 ### G7业务快览 G7主要通过在货车上的传感器感知车辆的轨迹、油耗、点熄火、载重、温度等数据,将车辆、司机、车队、货主连接到一起,优化货物运输的时效、安全、成本等痛点问题。 整个数据是通过车载的传感器设备采集,比如公司的Smart盒子,CTBox盒子,油感设备,温度探头等,将车辆数据上报到后端平台,在后端平台计算和处理,最后展示到用户面前。 ![01.jp
导读:Flink Forward是由Apache官方授权,Apache Flink 商业公司dataArtisans(Flink核心作者创办)发起,阿里巴巴、 Uber、Airbnb、Netflix等公司参与的国际型会议。日前Flink Forward柏林会议刚刚闭幕,今天,我们一起分享会议内容。
Jary:参看一下这个 mvn clean install -DskipTests -Drat.skip=true -Dcheckstyle.skip=true
有时候网络问题 多试几次
眭少剑:3个。同机架一个,不同机架一个。这是我的做法,不知道大神们什么思路
高颜:
本地,同一个交换机,同数据中心,不同数据中心
3-4, 一级一个副本,如果只考虑可用性
伪分布式下会出现这个问题,完全分布式模式没有这个问题了。
分离式吧!客户端启动后,它就不在属于yarn cluster 的一部分了。生产single job 会用的多,即用Flink run 直接提交
问:简单来说就是 如果用 分离式模式 ,那么在启动的时候会在yarn中常驻一个进程,并且已经确定了之后提交的job的内存等资源的大小,比如8G内存,如果某一个job把8G内存全部占完了,只能是第一个job执行完成把资源释放了,第二个job才能继续执行。
如果是 客户端模式,那么提交后,资源的大小是由yarn的队列所决定的,多个job提交,资源的占用和竞争都是由yarn所控制。
火锅:Offsets 从外部参数传入? 还是你checkpoint 里面有
问:外部
火锅:你在 initializeState 里面去实现下呢,启动的时候,这里初始化你的offset ,根据你的值处理。你只初始化参数,从open 方法也行
张迪(雷诺):StreamExecutionEnvironment
鲁尼:取决于你的连接池对象是在哪里初始化的,如果是构造函数里就初始化好了,那在客户端就做了,连接池对象会被尝试序列化并分发到多个分布式worker。如果是在类似open的时候才初始化,那就一个task一个(除非这个连接池对象做了一些进程级别的共享,刚好你有多个task调度到了同一个进程)
问:那你说的这2种情况,A:初始化了在序列化分发,B:分别在worker/tasker里自己初始化。对于连接数最大限制来说,其实连接数最大限制都是只在worker/tasker里有限制,而不是在整个范围内限制了对吗?也就是我定最大连接数限制1000,不是所有的worker/tasker加起来不超过1000,而是每个worker/tasker不超过1000?
鲁尼:看你的连接数限制是连接池这的限制还是数据库server那边的限制了,连接池这边的话,确实就是单task内限制了
于博:如果任务失败了,就没法子自动启动了,可以配置自动拉起服务
Tom:不会。并行度和taskmanager没有关系