暂无个人介绍
截止目前,仅付费学生规模超 70 万人 ,单日一对一课量超 10 万节,高峰时段课程并发最高达到 3.5 万节。拥有覆盖了全球 35 个国家的 5 条跨海专线,在 16 个国家、55 个城市完成数据中心传输节点布局,能够根据实时动态在一分钟内完成智能切换。
从业界来看,实时化的趋势正在加速,本文将介绍 BIGO 基于 Flink 的实时计算平台的建设经验和成果。
即日起,阿里云大数据训练营九营齐开!理论与实践,概念与案例,大数据从0到1上手学习,行业大神真人带练!
Flink 1.11 正式发布已经三周了,其中最吸引我的特性就是 Hive Streaming。正巧 Zeppelin-0.9-preview2 也在前不久发布了,所以就写了一篇 Zeppelin 上的 Flink Hive Streaming 的实战解析。
实时计算正当时!阿里云实时计算 Flink 版独享集群全线降价,还有限时年付85折叠加。
本文由 Apache Flink PMC,阿里巴巴技术专家程鹤群分享,主要介绍 PyFlink 的核心功能及应用。
实时计算 Flink版是阿里云提供的基于 Apache Flink 构建的企业级、高性能实时大数据处理系统,由Apache Flink创始团队官方出品。
实时计算 Flink 版 最佳实践目录
随着互联网和移动互联网的相互促进与融合,以及PC终端和各类移动终端在智能化和便携性上的趋同,游戏产品跨平台运行于各类终端的需求逐步显现。
在线教育是运用互联网、人工智能等现代信息技术进行教与学互动的新型教育方式,是教育服务的重要组成部分。
通过每个广告位上不同广告的投放地区、广告ID、设备唯一编码等信息,可以统计点击次数、投放次数等指标,可用于制定更高效的广告投放策略,降低投放成本,提高广告收益。
据 IDC 估计,到 2020 年物联网将在全球范围内产生 1.46 万亿美元的价值。据预测,届时中国的物联网市场规模将超过 1.8 万亿人民币。
金融是现代经济的核心。我国金融业在市场化改革和对外开放中不断发展,金融总量大幅增长。金融稳定直接关系到国家经济发展的前途和命运,金融业是国民经济发展的晴雨表。对我国金融业发展现状进行客观分析,对金融业发展趋势进行探索,有助于消除金融隐患,使金融业朝着健康、有序方向发展。
本文由阿里巴巴高级产品专家高旸(吾与)分享,主要介绍新一代Serverless实时计算引擎的产品特性及核心功能。
SQL 作为 Flink 中公认的核心模块之一,对推动 Flink 流批一体功能的完善至关重要。在 1.11 中,Flink SQL 也进行了大量的增强与完善,开发大功能 10 余项,不仅扩大了应用场景,还简化了流程,上手操作更简单。
英特尔、小红书、唯品会、蚂蚁金服以及阿里巴巴的五位技术专家齐聚上海,线下跟大家分享近期 Flink 的最新应用实践与最新社区动态。
Flink 1.11 的 Hive Streaming 功能大大提高了 Hive 数仓的实时性,对 ETL 作业非常有利,同时还能够满足流式持续查询的需求,具有一定的灵活性。
如何基于 Flink 的新 API 升级实时数仓架构?
由于 Checkpoint 与反压的耦合,反压反过来也会作用于 Checkpoint,导致 Checkpoint 的种种问题。针对于此,Flink 在 1.11 引入 Unaligned Checkpint 来解耦 Checkpoint 机制与反压机制,优化高反压情况下的 Checkpoint 表现。
7月7日,Flink 1.11.0 正式发布了,作为这个版本的 release manager 之一,我想跟大家分享一下其中的经历感受以及一些代表性 feature 的解读。在进入深度解读前,我们先简单了解下社区发布的一般流程,帮助大家更好的理解和参与 Flink 社区的工作。
在数据中台建设过程中,一个典型的数据集成场景是将 MQ (Message Queue,例如 Kafka、RocketMQ 等)的数据导入到 Hive 中,以供下游数仓建设以及指标统计。由于 MQ-Hive 是数仓建设第一层,因此对数据的准确性以及实时性要求比较高。
我们的数据流程整个环节完成需要1小时左右时间,远达不到实时的要求。如何更快速的根据用户浏览习惯实时推荐相关视频会对用户观看视频时长、停留时长、留存等有重大的影响,比如在现有基础上提升10-20%。
在保证优秀性能的同时,易用性是 1.11 版本 Flink SQL 的重头戏。易用性的提升主要体现在以下几个方面:更方便的追加或修改表定义、灵活的声明动态的查询参数、加强和统一了原有 TableEnv 上的 SQL 接口、简化了 connector 的属性定义、对 Hive 的 DDL 做了原生支持、加强了对 python UDF 的支持。
本文由美团点评研发工程师孙梦瑶分享,主要介绍 Flink 的指标监控和报警的内容,分为以下四部分:监控告警链路:基于美团点评实时计算平台的实践、常用的监控项:哪些指标可以高效地衡量作业、指标的聚合方式:横看成岭侧成峰、指标监控的应用:有哪些常见的表达方式供参考。
Apache Flink 社区很荣幸的宣布 Flink 1.11.0 版本正式发布!超过 200 名贡献者参与了 Flink 1.11.0 的开发,提交了超过 1300 个修复或优化。这些修改极大的提高了 Flink 的可用性,并且增强了各个 API 栈的功能。
2020 年突如其来的疫情对整个国家的公共卫生事件应对能力提出了很高的要求,如何利用科技手段对疫情传播进行精准有效的防控成为了关键。为了让科技更好地结合民生,让 IT 技术进一步造福社会,阿里云联手英特尔以及 Apache Flink 社区共同发起本次比赛。希望选手能够通过本次大赛获取更多技术启发,实质性的应用到我们的生活当中,成就生活,创造价值!
基于我在饿了么 4 年和阿里巴巴 2 年研发经历,从技术、业务、管理和架构层面分享一些我的思考。
RocksDB 是基于 LSM 树原理实现的 KV 数据库,LSM 树读放大问题比较严重,因此对磁盘性能要求比较高,强烈建议生产环境使用 SSD 作为 RocksDB 的存储介质。但是有些集群可能并没有配置 SSD,仅仅是普通的机械硬盘,当 Flink 任务比较大,且对状态访问比较频繁时,机械硬盘的磁盘 IO 可能成为性能瓶颈。在这种情况下,该如何解决此瓶颈呢?
本文中介绍的作业运行环境主要是在阿里巴巴集团内,构建在 Hadoop 生态之上的 Flink 集群,包含 Yarn、HDFS、ZK 等组件;作业提交模式采用 yarn per-job Detached 模式。
Kubernetes 相信大家都比较熟悉,近两年大家都在讨论云原生的话题,讨论 Kubernetes。本文由阿里巴巴技术专家王阳(亦祺)分享,社区志愿者翟玥整理主要介绍如何原生的在 Kubernetes 上运行 Flink。
实时处理技术,是强调当前处理状态的一门技术,所以我们认为这两个相对对立的方案重叠在一起的时候,它注定不是用来解决一个比较广泛问题的一种方案。于是,我们把实时数仓建设的目的定位为解决由于传统数据仓库数据时效性低解决不了的问题。
Flink 1.10 使用 flink-jdbc 连接器的方式与 MySQL 交互,读数据和写数据都能完成,但是在写数据时,发现 Flink 程序执行完毕之后,才能在 MySQL 中查询到插入的数据。即,虽然是流计算,但却不能实时的输出计算结果?
我参与社区主要是从19年下半年开始的,最开始主要是汇报一些使用过程中遇到的 bug,并且会力所能及的去修复它。与此同时也一直在关注 user 和 dev 邮件列表,一方面了解社区的最新进展和未来发展方向;一方面也在从其他人的提问和回答中学习经验。后来随着了解的深入,也就参与到了帮助解答用户问题,参与设计的讨论、以及感兴趣的 issue 的讨论等。
Flink 的学习者或者爱好者想必十分了解,除了需要熟悉 Flink 本身之外,如果能有一款简单上手的 Flink 开发部署工具,不用写前端代码就能实现实时大屏、支持全部语言接口、支持多条 SQL,还能管理 Flink Job,这样的开发部署平台是不是完全无法拒绝?
分片架构将消息流数据的存储粒度从分区拉低到了分片,以及相应的层级化存储,使 Pulsar 成为 unbounded streaming data storage 的不二之选。这使得 Pulsar 可以更完美地匹配和适配 Flink 的批流一体的计算模式。
最近几年随着 Google The Dataflow Model 的提出,实时计算和离线计算的关系逐渐清晰,在实时计算中提供与离线计算一致的确定性成为可能。本文将基于流行实时计算引擎 Apache Flink,梳理构建一个确定性的实时应用要满足什么条件。
自 2014 年正式开源, Flink 发展非常迅速,在 GitHub 上其访问量在 Apache 项目中位居前三。去年年底 Flink Forward Asia 2019 大会公布,仅仅 2019 年一年的时间,Flink 在 GitHub 上的 star 数量就翻了一倍,Contributor 数量也呈现出持续增长的态势。
Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。
本文由快手开发工程师刘建刚分享,主要介绍春晚活动下快手实时链路保障实践。内容主要包含以下四部分:快手 Flink 简介、春晚实时保障方案、春晚实时大屏、未来规划。
本文讲述 Flink 在 Shopee 新加坡数据组(Shopee Singapore Data Team)的应用实践,主要内容包括:实时数仓建设背景、Flink 在实时数据数仓建设中结合 Druid、Hive 的应用场景、实时任务监控、Streaming SQL 平台化、Streaming Job 管理、未来规划优化方向。
作为短视频分享跟直播的平台,快手有诸多业务场景应用了 Flink,包括短视频、直播的质量监控、用户增长分析、实时数据处理、直播 CDN 调度等。此次主要介绍在快手使用 Flink 在实时多维分析场景的应用与优化。
本文首先会介绍推动这些优化背后的思考,展示统一的架构如何更好地处理流式和批式查询,其次将深入剖析 Flink SQL 的编译及优化过程。
本文由墨芷技术团队唐铎老师分享,主要讲述其技术团队内部引入流计算的整个过程,包括最初的决策、期间的取舍以及最终落地,一路走来他们的思考、感悟以及经验分享。
本文主要分享 Flink 的 CheckPoint 机制、反压机制及 Flink 的内存模型。对这3部分内容的熟悉是调优的前提,文章主要从以下几个部分分享:原理剖析、性能定位、经典场景调优、内存调优。
本文根据 Flink Forward 全球在线会议 · 中文精华版整理而成,围绕着项目的开始、需求分析、开发,以及测试、上线、运维整个生命周期展开,介绍了 Apache Flink 实践中的一些典型误用情况,并给出了相应的更优实践方案。
文章主要从基本概念、当前机制与策略、未来发展方向等三个方面帮助开发者深入理解 Flink 的资源管理机制。
为更好的助力各行各业实现企业数字化转型,为企业的创新、重构核心竞争力提供坚实支撑;阿里云实时计算重磅推出金融、物流、IoT、广告等行业整体解决方案白皮书。
6月14日,大数据+AI Meetup 在线直播!Apache Flink Committer,阿里巴巴技术专家李劲松(之信)将现场分享《Flink 1.11 Table&SQL 深度解读》,还有快手春晚项目的独家实践、网易云音乐 Flink + Kafka 的生产落地等。
本文首先介绍为何要参与开源社区以及在参与开源社区的过程中需要注意什么,然后重点介绍如何参与 Flink 社区以及在社区里面提交 PR 的整个流程。
本文首先介绍为何要参与开源社区以及在参与开源社区的过程中需要注意什么,然后重点介绍如何参与 Flink 社区以及在社区里面提交 PR 的整个流程。