开发者社区> 问答> 正文

【藏经阁一起读(27)】本周推荐《Apache Flink案例集(2022版)》,你有哪些心得?

藏经阁2.0全新上线!下载本地、线上阅读让你轻松获取技术知识。为了让更多人学习到藏经阁中的优秀技术作品,培养好的阅读习惯,“藏经阁一起读”活动来啦,你阅读,我奖励!

本期书籍《Apache Flink 案例集(2022版)》

阅读地址https://developer.aliyun.com/ebook/7718

书籍简介:希望通过本手册,可以让大家了解到大量来自不同领域的公司在数据集成、数据分析、人工智能、云原生以及企业数字化转型等应用场景中使用 Apache Flink 解决实际生产问题的成功案例,其中既包含传统和新兴的互联网公司,也包含通信、证券、银行等传统企业。希望这些生产实践案例和经验能够帮助大家更好的理解和使用 Apache Flink,加速更多企业的实时化平台搭建和业务转型。

活动规则:阅读书籍,将你对于本书的想法、收获等在评论区留言,评论不少于200字,将选取评论质量最高的前2名和点赞数第一名送出LED护眼小台灯一台。

image.png

image.png

活动时间:2022年8月29日~9月5日14:00

参与用户务必扫码加入钉群,第一时间了解活动进展、获取得奖信息。

lQLPJxZ5waT1HXTNAVDNAVCwoRgUcehMiKACyI1RkwB1AA_336_336.png

快来阅读吧!链接:https://developer.aliyun.com/ebook/7718

展开
收起
开发者小助手 2022-08-29 14:49:54 522127 0
21 条回答
写回答
取消 提交回答
  • 值得去的地方都没有捷径

    apache flink是一个分布式流处理框架,旨在实现高效、可扩展的数据流处理。相较于批处理技术,流处理能够更加及时地处理数据,并在数据流到达时立即对其进行计算。这对于需要实时响应数据变化的应用程序非常有用。

    有许多使用flink的实际应用案例,如广告投放系统、金融交易风控系统、基于实时定位的车辆调度系统等等

    2023-04-14 15:46:52
    赞同 1 展开评论 打赏
  • 就是很棒

    2022-09-08 15:31:29
    赞同 展开评论 打赏
  • 明人不说暗话————护眼LED小台灯300.png 其实这本书,讲真的阿里的东西都有点下限很高的意思,对小白来说不是很友好,但受限于本人水平,上限在哪我也不确定。 这么个apache flink一句半句也说不清,简单讲就是用Java和Scala编写的分布式流数据流控制框,你不用的话,新人就超过你,用的话,还得从新学,几年的经验就白积累了,这个行业太卷,发展太快了,想提升自己的看看肯定没错,初学者看来意义不大。一旦用到了,你肯定也得学,跑不了。 以下可以忽略。。。。。。。。。 处理每天处理数万亿的事件, 应用维护几TB大小的状态, 和 应用在数千个内核上运行。 利用内存性能 有状态的 Flink 程序针对本地状态访问进行了优化。任务的状态始终保留在内存中,如果状态大小超过可用内存,则会保存在能高效访问的磁盘数据结构中。任务通过访问本地(通常在内存中)状态来进行所有的计算,从而产生非常低的处理延迟。Flink 通过定期和异步地对本地状态进行持久化存储来保证故障场景下精确一次的状态一致性。 说归说闹归闹,给我拿个灯泡好不好。

    2022-09-08 15:07:58
    赞同 1 展开评论 打赏
  • 不好好

    Apache Flink是一个开放源代码平台,它是一个流数据流引擎,为数据流上的分布式计算提供通信,容错和数据分发。Flink是 Apache的顶级项目。它是一个可扩展的数据分析框架,与Hadoop完全兼容。Flink可以轻松执行流处理和批处理。

    Apache Flink是在名为Stratosphere的项目下启动的。2008年,沃尔克马克(VolkerMarkl)提出了“平流层”的构想,并吸引了来自HU Berlin, TU Berlin和波茨坦Hasso Plattner Institute的其他主要研究人员。他们共同致力于实现愿景,并已经在开源部署和系.统构建方面做出了巨大努力。

    后来,采取了几个决定性的步骤,使该项目可以在商业,研究和开源社区中广受欢迎。一个商业实体将该项目命名为“平流层”。在2014年4月申请Apache孵化后,Flink名 称已定稿。Flink是德语单词,表示敏捷或敏捷。

    2022-09-08 08:05:56
    赞同 展开评论 打赏
  • Apache Flink 擅长处理无界和有界数据集 精确的时间控制和状态化使得 Flink 的运行时(runtime)能够运行任何处理无界流的应用。有界流则由一些专为固定大小数据集特殊设计的算法和数据结构进行内部处理,产生了出色的性能。 通过探索 Flink 之上构建的 用例 来加深理解。

    部署应用到任意地方 Apache Flink 是一个分布式系统,它需要计算资源来执行应用程序。Flink 集成了所有常见的集群资源管理器,例如 Hadoop YARN、 Apache Mesos 和 Kubernetes,但同时也可以作为独立集群运行。

    Flink 被设计为能够很好地工作在上述每个资源管理器中,这是通过资源管理器特定(resource-manager-specific)的部署模式实现的。Flink 可以采用与当前资源管理器相适应的方式进行交互。

    部署 Flink 应用程序时,Flink 会根据应用程序配置的并行性自动标识所需的资源,并从资源管理器请求这些资源。在发生故障的情况下,Flink 通过请求新资源来替换发生故障的容器。提交或控制应用程序的所有通信都是通过 REST 调用进行的,这可以简化 Flink 与各种环境中的集成。

    运行任意规模应用 Flink 旨在任意规模上运行有状态流式应用。因此,应用程序被并行化为可能数千个任务,这些任务分布在集群中并发执行。所以应用程序能够充分利用无尽的 CPU、内存、磁盘和网络 IO。而且 Flink 很容易维护非常大的应用程序状态。其异步和增量的检查点算法对处理延迟产生最小的影响,同时保证精确一次状态的一致性。

    Flink 用户报告了其生产环境中一些令人印象深刻的扩展性数字

    处理每天处理数万亿的事件, 应用维护几TB大小的状态, 和 应用在数千个内核上运行。 利用内存性能 有状态的 Flink 程序针对本地状态访问进行了优化。任务的状态始终保留在内存中,如果状态大小超过可用内存,则会保存在能高效访问的磁盘数据结构中。任务通过访问本地(通常在内存中)状态来进行所有的计算,从而产生非常低的处理延迟。Flink 通过定期和异步地对本地状态进行持久化存储来保证故障场景下精确一次的状态一致性

    2022-09-05 20:45:40
    赞同 展开评论 打赏
  • 参加一下

    2022-09-05 16:00:32
    赞同 展开评论 打赏
  • 哇塞女孩

    参加一下

    2022-09-04 21:29:37
    赞同 展开评论 打赏
  • 来看一下

    2022-09-04 20:50:02
    赞同 展开评论 打赏
  • Apache Flink 擅长处理无界和有界数据集 精确的时间控制和状态化使得 Flink 的运行时(runtime)能够运行任何处理无界流的应用。有界流则由一些专为固定大小数据集特殊设计的算法和数据结构进行内部处理,产生了出色的性能。 通过探索 Flink 之上构建的 用例 来加深理解。

    部署应用到任意地方 Apache Flink 是一个分布式系统,它需要计算资源来执行应用程序。Flink 集成了所有常见的集群资源管理器,例如 Hadoop YARN、 Apache Mesos 和 Kubernetes,但同时也可以作为独立集群运行。

    Flink 被设计为能够很好地工作在上述每个资源管理器中,这是通过资源管理器特定(resource-manager-specific)的部署模式实现的。Flink 可以采用与当前资源管理器相适应的方式进行交互。

    部署 Flink 应用程序时,Flink 会根据应用程序配置的并行性自动标识所需的资源,并从资源管理器请求这些资源。在发生故障的情况下,Flink 通过请求新资源来替换发生故障的容器。提交或控制应用程序的所有通信都是通过 REST 调用进行的,这可以简化 Flink 与各种环境中的集成。

    运行任意规模应用 Flink 旨在任意规模上运行有状态流式应用。因此,应用程序被并行化为可能数千个任务,这些任务分布在集群中并发执行。所以应用程序能够充分利用无尽的 CPU、内存、磁盘和网络 IO。而且 Flink 很容易维护非常大的应用程序状态。其异步和增量的检查点算法对处理延迟产生最小的影响,同时保证精确一次状态的一致性。

    Flink 用户报告了其生产环境中一些令人印象深刻的扩展性数字

    处理每天处理数万亿的事件, 应用维护几TB大小的状态, 和 应用在数千个内核上运行。 利用内存性能 有状态的 Flink 程序针对本地状态访问进行了优化。任务的状态始终保留在内存中,如果状态大小超过可用内存,则会保存在能高效访问的磁盘数据结构中。任务通过访问本地(通常在内存中)状态来进行所有的计算,从而产生非常低的处理延迟。Flink 通过定期和异步地对本地状态进行持久化存储来保证故障场景下精确一次的状态一致性。

    2022-09-02 13:08:25
    赞同 展开评论 打赏
  • 今天大概读了下 Apache Flink 学习到很多新知识(学起来..) 简单总结是 Apache Flink是一款流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎, Apache Flink的数据流编程模型在有限和无限数据集上提供单次事件处理。在基础层面,Flink程序由流和转换组成。“流是一种(可能永无止境的)数据流记录,转换是一种将一个或多个流作为输入并因此产生一个或多个输出流的操作”。 重点: Apache Flink包括两个核心API: 1. 用于有界或无界数据流的数据流API和用于有界数据集的数据集API。 2. Flink还提供了一个表API,它是一种类似SQL的表达式语言,用于关系流和批处理,可以很容易地嵌入到Flink的数据流和数据集API中。 3. Flink支持的最高级语言是SQL,它在语义上类似于表API,并将程序表示为SQL查询表达式。

    2022-09-02 10:36:56
    赞同 展开评论 打赏
  • web开发工作者,后端开发研究者

    Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。

    Apache Flink 功能强大,支持开发和运行多种不同种类的应用程序。它的主要特性包括:批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。Flink 不仅可以运行在包括 YARN、 Mesos、Kubernetes 在内的多种资源管理框架上,还支持在裸机集群上独立部署。在启用高可用选项的情况下,它不存在单点失效问题。事实证明,Flink 已经可以扩展到数千核心,其状态可以达到 TB 级别,且仍能保持高吞吐、低延迟的特性。世界各地有很多要求严苛的流处理应用都运行在 Flink 之上。

    • 批处理的特点是有界、持久、大量,非常适合需要访问全套记录才能完成的计算工作,一般用于离线统计。
    • 流处理的特点是无界、实时, 无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作,一般用于实时统计。

    在Flink中,一切都是由流组成的,离线数据是有界限的流,实时数据是一个没有界限的流。

    • 无界流:有定义流的开始,但没有定义流的结束。它们会无休止地产生数据。无界流的数据必须持续处理,即数据被摄取后需要立刻处理。我们不能等到所有数据都到达再处理,因为输入是无限的,在任何时候输入都不会完成。处理无界数据通常要求以特定顺序摄取事件,例如事件发生的顺序,以便能够推断结果的完整性。
    • 有界流:有定义流的开始,也有定义流的结束。有界流可以在摄取所有数据后再进行计算。有界流所有数据可以被排序,所以并不需要有序摄取。有界流处理通常被称为批处理。
    2022-09-01 22:57:12
    赞同 展开评论 打赏
  • 发表文章、提出问题、分享经验、结交志同道合的朋友

    抽空拜读下Apache Flink 案例集(2022版),收益颇多,深入客户实践,从客户收益角度出发,展示了Flink的实际业务价值。

    案例集从数据集成、数据分析、机器学习、云原生、数字化转型,层层递进,从一个小的功能到企业数智转型,全方面展示了Flink的价值链,是技术、售前、销售都必备的说明书。

    在数据集成方面可以看到Flink具备离线、实时、批流一体特性,满足大部分企业在数据集成方面的应用场景。

    在数据分析维度又可以看到基于Flink OLAP分析平台,可以实现数据的实时推荐、监控、即席查询等能力,构建企业的实时数仓。

    机器学习Flink也不落下风,Flink可以快速对接实时计算模型,将大部分模型训练流程切换到实时架构上,数据传输、特征计算和训练都可以做到几乎实时,从全量变成了短时的小批量增量进行,训练的压力也大大减轻。

    在以k8s为核心的云原生体系中,Native Flink on K8s 可以完美适配,同时可以基于Flin集群去创建k8s相关资源,实现统一管理。

    数字化转型进程中,Flink永远不会迟到,不管是在信息化建设前沿的金融机构,还是数据庞大的电信行业,Flink都充当数字化转型的排头兵,为企业构建了数智时代的“护城河”。

    写在最后,案例集很棒,但电子版PDF可以生成下目录呢。

    2022-08-31 10:31:15
    赞同 4 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    这两天读了阿里云出的《Apache Flink 案例集(2022版)》这本小册,各种企业公司在数据集成、数据分析、人工智能、云原生以及企业数字化转型等应用场景中使用,这点我们首先需要了解到什么是Apache Flink?Apache Flink是一个分布式大数据计算引擎,可以对有界的数据和无界的数据进行有状态的计算,可部署在各种集群环境中,对各种大小数据规模进行快速计算。 在Flink的设计理念中,将数据分为有界数据和无界数据 - 有界数据:定义了数据的开始和结束,也就是批处理的本质; - 无界数据: 数据定义了开始,但是没有结束,因此需要连续不断的处理计算,如基于事件的有序驱动。 Apache Flink的优势: - 可以处理高吞吐量的事件流 - 处理随时产生的事件,始终保持低延迟 - 高效、易于使用的k/v结构的state - 真正的流处理框架。一次处理一个事件,每个事件都有自己的时间窗口。 - 丰富的编程模型可以很容易地实现复杂的语义。对比微批处理,在事件流上进行推理更容易。 Apache Flink在企业中经常被使用,得到大厂一致好评。大数据开源生态组件众多、架构复杂度高的问题已经被诟病了很多年,如今业界似乎已经在一定程度上达成共识,即通过融合、一体化来推动数据架构往简化的方向演进,每个企业都有自己的说法,真正解决业务的问题,还得看具体实现技术方案。

    2022-08-31 09:24:54
    赞同 69 展开评论 打赏
  • 一个热爱写代码的Java软件设计工程师

    说白了,Flink 是一个框架,是一个数据处理的引擎;而且是分布式,是为了应付大规模数据的应用场景而诞生;另外, Flink 处理的是数据流。所以, Flink 是一个流式大数据处理引擎。而内存执行速度和任意规模,突出了 Flink 的两个特点:速度快、可扩展性强,而阿里云的Apache Flink也是业界比较认可的产品,具有数据集成、数据分析、机器学习、云原生、数字化转型等特点,覆盖行业之广,规模之大,足以证明其在计算引擎中起到的强大作用,同时衍生的一系列产品,也被很多大厂一致好评,本次案例介绍,主要是对部分知名企业运用的Apache Flink具体是在哪方面发挥了作用,同时也对Apache Flink的未来做了一些规划,规划如下:第一,数据库增量采集的方案统一。目前 MySQL 的采集是使用 Canal 实现的,未来计划使用 Flink CDC来针对 Oracle 和 MySQL 进行统一的增量采集;第二,离线实时的批流融合。目前离线数仓通过 Spark SQL 计算,实时数仓使用 Flink SQL 计算,维护两套元数据以及不同的指标口径使得日常工作负荷很大,未来希望使用 Flink 来完成批流一体计算;第三,Flink 作业自动扩容缩容。目前 Flink 无法进行自动扩容缩容,早晚流量变化较大,会导致较多的资源浪费,计算能力不足的时候只能通过人工进行作业扩容。未来希望基于 Flink 来实现自动扩容,降低运维成本。这些都是将来能进一步推动Apache Flink在国产化道路上继续走下去的方向。

    2022-08-31 08:49:27
    赞同 1 展开评论 打赏
  • GitHub https://github.com/co63oc/cloud

    读书如阅人, 阿堵不足珍。 帕子一万卷, 奇字无半尘。 发短未及长, 案上有古文。 例得十数本, 集中藏几春。

    2022-08-30 19:40:18
    赞同 展开评论 打赏
  • 抽时间略读了一下《Apache Flink 案例集(2022版)》这本书,本书主要介绍了Apache Flink在小米、京东、快手、联通、移动云、小红书等国内互联网行业比较牛逼的企业的应用案例。Apache Flink是一个分布式大数据计算引擎,可以对有界的数据和无界的数据进行有状态的计算,可部署在各种集群环境中,对各种大小数据规模进行快速计算。Flink 是一个框架,是一个数据处理的引擎;而且是分布式,是为了应付大规模数据的应用场景而诞生;另外, Flink 处理的是数据流。所以, Flink 是一个流式大数据处理引擎。而内存执行速度和任意规模,突出了 Flink 的两个特点:速度快、可扩展性强。Flink 具备统一的框架处理有界和无界两种数据流的能力,部署灵活具有极高的可伸缩性和极致的流式处理性能。通过读这本书我解到了大量来自不同领域的公司在数据集成、数据分析、人工智能、云原生以及企业数字化转型等应用场景中使用Apache Flink解决实际生产问题的成功案例,其中既包含传统和新兴的互联网公司,也包含通信、证券、银行等传统企业。这些生产实践案例和经验能够帮助我在以后的工作中更好的理解和使用 Apache Flink。这本案例集可以搞一本实体书,放在办公桌上经常翻阅学习思考借鉴书中的案例实践。

    2022-08-30 18:13:45
    赞同 58 展开评论 打赏
  • 我读《Apache Flink 案例集(2022版)》这本书,算是对流式计算的相对比较系统的学习了。本书理论与实践并重,读后有若干思考感悟。世界是永恒变化发展的,这些“变化”可以被看成是一个个不断到达的、无限的事件流。流式计算的任务,就是对这些事件流进行处理。从这个意义上说,广义的“流式计算”是几乎可以适用于所有场景的。但狭义地说,IT系统对这些事件流的处理,有两种不同的范式(paradigm) 1、基于数据库的IT系统,这是目前主流范式。此类系统以数据库为核心,在数据库中记录了应用领域的当前全局状态以及历史轨迹,系统设计的重点在于对数据库信息的及时更新和查询处理。新事件到达时,该数据库需要进行相应更新。该数据库在IT系统内是全局唯一的,当然在具体实现上可以是分布式或集群结构。 2、流式计算系统,这是新兴范式。此类系统以数据流为核心,重点在于对事件流的快速响应处理。为了处理数据流,IT系统内也需要维护应用领域的状态信息,但所维护的状态较为有限,且通常分布在各个节点中,并不存在全局唯一的数据库。综上,在可预见的未来,基于数据库系统仍将是主流,而流式计算将会特定领域发挥作用,具体应用场景包括:事件处理实时性要求高,事件处理逻辑相对简单,事件处理所依赖的应用状态较为有限。多数应用场景强调对事件的有序处理,即按事件的原始发生时间,而非事件的接收时间进行处理,以免网络传输乱序对事件处理结果产生不确定的影响。为了支持事件有序处理,需要在收到事件时进行判断,如果发现乱序,需要缓存并等待正确的事件到达,而这又会影响事件处理的及时性。为了平衡这两个要求,Flink提出了“水位线”的方案,即适时在事件流中插入特殊的“水位线”,其中记录了事件编号。任务处理器收到该“水位线”时,意味着在此编号之前的事件都不必再等待了。

    2022-08-30 17:54:37
    赞同 1 展开评论 打赏
  • 天下风云出我辈,一入江湖岁月催,皇图霸业谈笑中,不胜人生一场醉。

     Apache Flink是一个分布式大数据计算引擎,可以对有界的数据和无界的数据进行有状态的计算,可部署在各种集群环境中,对各种大小数据规模进行快速计算。说白了,Flink 是一个框架,是一个数据处理的引擎;而且是分布式,是为了应付大规模数据的应用场景而诞生;另外, Flink 处理的是数据流。所以, Flink 是一个流式大数据处理引擎。而内存执行速度和任意规模,突出了 Flink 的两个特点:速度快、可扩展性强,而阿里云的Apache Flink也是业界比较认可的产品,具有数据集成、数据分析、机器学习、云原生、数字化转型等特点,覆盖行业之广,规模之大,足以证明其在计算引擎中起到的强大作用,同时衍生的一系列产品,也被很多大厂一致好评,本次案例介绍,主要是对部分知名企业运用的Apache Flink具体是在哪方面发挥了作用,同时也对Apache Flink的未来做了一些规划,规划如下:第一,数据库增量采集的方案统一。目前 MySQL 的采集是使用 Canal 实现的,未来计划使用 Flink CDC来针对 Oracle 和 MySQL 进行统一的增量采集;第二,离线实时的批流融合。目前离线数仓通过 Spark SQL 计算,实时数仓使用 Flink SQL 计算,维护两套元数据以及不同的指标口径使得日常工作负荷很大,未来希望使用 Flink 来完成批流一体计算;第三,Flink 作业自动扩容缩容。目前 Flink 无法进行自动扩容缩容,早晚流量变化较大,会导致较多的资源浪费,计算能力不足的时候只能通过人工进行作业扩容。未来希望基于 Flink 来实现自动扩容,降低运维成本。这些都是将来能进一步推动Apache Flink在国产化道路上继续走下去的方向。

    2022-08-30 15:58:59
    赞同 展开评论 打赏
  • 《Apache Flink 案例集(2022版)》是用了很多的案例为我们讲述了Apache Flink的使用场景,为我们展现了Apache Flink多种使用方式。 在数据集成方面,Apache Flink 提供了 Flink CDC 组件,使用 CDC 技术从各种数据库中获取变更流并接入到 Flink 中。Flink CDC 可以替代传统的 DataX 和 Canal 工具做实时数据同步,将数据库的全量和增量数据同步到消息队列和数据仓库中。也可以做实时数据集成,将数据库数据实时导入。还可以做实时物化视图,通过SQL对数据库数据做实时关联、打宽、聚合,并将物化结果写入到湖仓中。 在数据分析和数据仓库领域,Flink的批流一体技术被广大公司所采用,社区也持续推出Flink Table Store等新技术进一步精简流式数仓(实时离线一体化)的架构,推动数据仓库从 Lambda 架构到 Kappa架构的演进和落地,大大降低企业建立实时化数据分析平台的人力和硬件资源成本。 总之,该书可以让我们更好的了解与使用Apache Flink。

    2022-08-30 08:34:23
    赞同 展开评论 打赏
  • 整体感觉是,读起来很实用,很过瘾!这个案例集汇聚了24个比较典型的FLink落地案例,并将案例按照集成、分析、机器学习、原生和数字化转型分成了5个逻辑板块,我印象比较深的是案例的叙述模式,比如小米实践,从大数据发展演变史开始介绍,很具有打入感,其中对于实时数仓技术框架演进,让架构人员很有同感,也更容易理解流计算出现的必要性和需求来源,比单纯的讲架构演进更加具有实战性和针对性,在产品匹配上,也具有开放属性,较为客观的评价了SQL的数据表选型依据,尤其在离线数据-实时数据=批流结合方面,非常具有针对性,架构划分较为清晰。在结尾部分的规划延伸,其实提出了未来Flink的发展趋势和业务的结合点,具备前瞻性。整体而言,这本案例集可以时常拿出来翻阅,涉及到的行业比较广,可以作为后续的行业技术对标参考。

    2022-08-29 19:26:34
    赞同 1 展开评论 打赏
滑动查看更多
问答排行榜
最热
最新

相关电子书

更多
Apache Flink技术进阶 立即下载
Apache Spark: Cloud and On-Prem 立即下载
Hybrid Cloud and Apache Spark 立即下载

相关镜像