FFA 2021 专场解读 - 生产实践 / 机器学习

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 生产实践以及机器学习专场,会带来哪些实用干货?

图片

GitHub 地址
https://github.com/apache/flink
欢迎大家关注 Flink~

12 月 4-5 日,北京国家会议中心,Flink Forward Asia 2021 重磅开启,全球 40+ 多行业一线厂商,80+ 干货议题,带来专属于开发者的技术盛宴。

其中,生产实践专场集结阿里巴巴、腾讯、快手、小米、美团的技术专家探讨超大规模 Flink 集群运维与大规模作业稳定性优化实践等议题;机器学习专场也是由来自阿里巴巴、京东、360 等技术专家呈现 Flink 机器学习的最新进展、具体应用实践与最新技术落地案例。

点击链接了解完整大会议程:

https://Flink-forward.org.cn/

生产实践

图片

阿里超大规模 Flink 集群运维体系介绍

王华|阿里云实时计算高级运维专家

在实时计算领域阿里是最早一批全面拥抱 Flink 的公司,而且随着内部计算实时化大浪潮以及计算引擎 ALL IN Flink 的技术布局,使得阿里拥有了近几万台超大规模 Flink 集群,且承载了全集团和阿里云上极其重要、复杂丰富的实时计算业务场景。而运维这样一个实时敏感、规模庞大的实时计算系统,其运维复杂度和技术深度已经和传统大数据运维完全不能相提并论。

本次议题会揭秘阿里 Flink 运维体系,包括已经较成熟的基础运维部分,比如集群稳定性 SLA、资源管理模型、作业全自动化运维管理等,也有正在不断探索的智能运维高级部分,比如 Flink 作业智能诊断 & Advisor、基于云原生集群 AutoPolit 自愈服务等。

Flink 引擎在快手的深度优化与生产实践

刘建刚|快手实时计算团队技术专家

自 2018 年至今,Flink 在快手进行了多轮迭代和升级,在功能、性能、稳定性、易用性等方面得到了极大提升,服务于快手的电商、实时大屏、视频推荐和直播等各类实时计算场景,得到了奥运、春晚等活动的洗礼。

本议题着眼于 Flink 引擎在快手生产实践中的经验,首先介绍 Flink 在各类复杂场景下容错能力的提升,然后分享下 Flink 引擎的控制能力增强和优化实践,最后再谈一谈我们在批处理方面的体验、评测和优化。

大规模作业的稳定性优化实践

邱从贤|腾讯数据平台高级开发工程师,Apache Flink Committer

Apache Flink 作为一个带状态的分布式计算框架,稳定性是很重要的一点,本次分享将从稳定性的定义,稳定性的分类,稳定性的挑战和相应的解决方案进行介绍。

小米基于 Flink 的稳定性优化与实践

张蛟|小米大数据部高级软件工程师,Apache Flink Contributor

演讲主要包括以下几方面的内容:

  1. 小米实时计算平台的发展现状;
  2. 小米在基于 Flink 的实时计算中遇到的各类稳定性问题及解决方法方案实践;
  3. 重点业务支持;
  4. 后续的发展规划,实时计算框架和提供实时基础数据。

美团 Flink 大作业部署与状态稳定性优化实践

冯斐|美团数据平台计算引擎组工程师

王非凡|美团数据平台计算引擎工程师,Apache Flink Contributor

在美团,业务团队使用实时数据的场景越来越多,实时计算的规模越来越大,这对实时计算引擎提出了更高的要求。为了能更好地支持 Flink 在生产环境中大规模应用,我们针对任务部署流程与运行时任务状态,进行了扩展性和稳定性优化。我们将从这几个方面介绍具体的优化实践:

  1. 美团 Flink 大规模应用落地面临的挑战;
  2. Flink 任务部署流程优化;
  3. Flink 任务状态稳定性优化;
  4. 未来规划。

机器学习

img

Alink 新功能与典型案例

杨旭|阿里巴巴资深算法专家

Alink 是基于 Flink 的流批一体的机器学习平台,提供的一系列算法,可以帮助处理各种机器学习任务,比如统计分析、机器学习、实时预测、个性化推荐和异常检测。除了提供 Java API 也提供了 PyAlink,可以轻松部署到单机及集群环境,通过 Jupyter、Zepplin 等 notebook 使用。机器学习算法平台降低了用户使用机器学习、深度学习的门槛,将各个算法作为组件,即使不了解其后面的理论知识,用户也可以根据示例尝试新方法。

Alink、Tensorflow on Flink 在京东的应用

张颖|京东搜索推荐算法工程师

刘露|京东搜索推荐算法工程师

  1. 结合 Alink 实现实时模型训练的 failover 策略、基于 PS 的模型冷启动策略和模型热切换策略、模型训练基于状态后端的 pretrain 策略、模型基于 Flink 的分布式策略等;
  2. Tensorflow on Flink 在京东的应用。

基于 Flink AI Flow 的机器学习工作流最佳实践

姜鑫|阿里巴巴高级工程师

蒋晓峰|阿里巴巴技术专家,Apache RocketMQ & Apache ShardingSphere & SOFAJRaft Committer,Apache Flink Contributor

典型的机器学习工作流通常包含多个步骤,如源数据 ETL(抽取、转化、加载),数据预处理,指标提取,模型训练与交叉验证,新数据预测等。在构建机器学习平台时,管理机器学习项目的整个生命周期成为痛点,需要引入机器学习工作流引擎帮助用户标准化管理机器学习项目的整个生命周期。

Flink AI Flow 是一个大数据和人工智能桥接的开源框架,将整个机器学习项目生命周期作为一个统一的工作流进行管理,包括特征工程、模型训练、模型评估、模型服务、模型推理、监控等。 在整个工作流中,Apache Flink 作为通用计算引擎,利用基于事件的调度程序即增强版本的 Apache Airflow,支持包含流作业的工作流,能够覆盖机器学习全流程(从数据准备到模型训练到模型部署)。

本次演讲将介绍 Flink AI Flow 的基础原理以及机器学习工作流基于 Flink AI Flow 的最佳实践。

Clink:A C/C++ online feature serving solution for Flink

陈震|360 智能工程部总监

得益于 Flink 的批流一体机制和 Alink 丰富的机器学习算子库,基于 Flink 生态的特征处理、特征生成和特征工程架构已在 360 多个业务线落地,但从基于 Java 栈的 Flink 生态上线到搜广推业务中常见的 C/C++ 技术栈开发的特征服务的过程中,存在着语言不一致,代码重复开发,算子实现细节差异,一致性难以保证、调试困难等问题。在这个背景下,我们与阿里 Flink/Alink 团队合作开发了 Clink。

Clink 主要包括三部分:

  1. 使用 C/C++ 开发了高性能的特征工程算子库 libclink ,可被 Flink/Alink 直接调用,解决编程语言和算子实现细节不一致的问题;
  2. 一套基于配置文件的特征工程 pipeline 引擎,该配置文件可在 Flink/Alink 直接导入导出;
  3. Clink 的 pipeline 可被 Clink-Serving,一个基于 bRPC 的高性能服务直接加载,启动为微服务架构的特征工程服务。

通过 Clink,可有效解决机器学习特征工程流程中存在的代码重复开发和一致性等问题。目前 Clink 已在 360 部分业务正式上线,基本上实现了 “Batch-Steaming-Online” 特征工程的一致性保证,较好地提升了算法迭代的效率。此外,Clink 也于近期完成了初步开源,希望能帮助到有类似需求的公司和团队。

伯努利:结构化的工业级流式机器学习系统@阿里妈妈

姜碧野|阿里妈妈算法平台与效能架构团队高级算法专家

本次演讲将基于团队在 DLP-KDD2021 Workshop 上发表的论文:《What Do We Need for Industrial Machine Learning Systems? Bernoulli, A Streaming System with Structured Designs》 主要讲述在搜索推荐广告这种互联网场景下,面对不断流入的曝光点击数据,如何基于 Blink/Flink 流式处理引擎,配合特征计算和后端的分布式训练引擎,实时完成样本生成和模型训练更新。并探讨如何利用结构化特性,建立高效的流式机器学习迭代体系。

演讲主要分为几个部分:结构化的流式样本处理、模块化训练和资源复用、流式机器学习迭代体系。本系统已经在阿里巴巴广告业务实际落地并全量部署,通过流式迭代(相比于批处理的天级迭代)极大地提高了算法工程师的实验迭代效率。


以上为 Flink Forward Asia 2021 生产实践以及机器学习专场内容节选,了解更多大会详情可点击下方链接:

https://Flink-forward.org.cn/

Flink Forward Asia 2021 赞助与合作

图片


首届 Flink Forward Asia Hackathon 正式启动,10W 奖金等你来!

欢迎进入赛事官网了解详情:

https://www.aliyun.com/page-source//tianchi/promotion/FlinkForwardAsiaHackathon

图片

更多 Flink 相关技术问题,可扫码加入社区钉钉交流群
第一时间获取最新技术文章和社区动态,请关注公众号~

image.png

活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算Flink版现开启活动:
99 元试用 实时计算Flink版(包年包月、10CU)即有机会获得 Flink 独家定制卫衣;另包 3 个月及以上还有 85 折优惠!
了解活动详情:https://www.aliyun.com/product/bigdata/sc

image.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
5月前
|
机器学习/深度学习 人工智能 分布式数据库
FFA 2023 专场解读:AI 特征工程、数据集成
今年 Flink Forward Asia(以下简称 FFA ) 重新回归线下,将于 12 月 8 - 9 日在北京望京凯悦酒店举办。
501 0
FFA 2023 专场解读:AI 特征工程、数据集成
|
5月前
|
SQL 存储 OLAP
FFA 2023 「核心技术」专场: Flink 核心技术动向深度解读
完整议程已公开,期待 12 月 8-9 日与你 Flink Forward Asia 2023 相会!
352 0
FFA 2023 「核心技术」专场: Flink 核心技术动向深度解读
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
AI meetup
AI meetup
33 0
|
机器学习/深度学习 人工智能 弹性计算
五年磨一剑:阿里达摩院重磅推出AI模型社区「魔搭」,300+模型全面开源
五年磨一剑:阿里达摩院重磅推出AI模型社区「魔搭」,300+模型全面开源
722 0
|
机器学习/深度学习 人工智能 算法
🎁重磅豪礼!机器学习平台PAI + AI开源项目等你来评测!
为PAI + AI开源项目撰写评测,赢取《AI技术分享会》栏目录制机会、LAMY钢笔套装、hero手冲咖啡壶套装、阿里云社区评测官奖杯、阿里云社区首页达人展示一周、开发者评测限量版T恤、30元猫超卡等豪礼!
🎁重磅豪礼!机器学习平台PAI + AI开源项目等你来评测!
|
存储 人工智能 运维
QCon大会精彩分享:数据湖、可观测、自动驾驶训练,阿里云存储独家技术详解与案例实践!
QCon 全球软件开发大会是由极客邦科技旗下 InfoQ 中国主办的综合性技术盛会,每年在伦敦、北京、纽约、圣保罗、上海、旧金山召开。自2007年3月份开始举办以来,已经有超万名有多年从业经验的技术人员参加过QCon大会。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向5年以上工作经验的技术团队负责人、架构师、工程总监、开发人员分享技术创新和实践。
996 2
QCon大会精彩分享:数据湖、可观测、自动驾驶训练,阿里云存储独家技术详解与案例实践!
|
SQL 机器学习/深度学习 存储
FFA 2022 专场解读 - 流批一体 & 平台建设 & AI 特征工程
Flink Forward Asia 2022 流批一体 & 平台建设 & AI 特征工程专场内容节选
FFA 2022 专场解读 - 流批一体 & 平台建设 & AI 特征工程
|
SQL Kubernetes 供应链
FFA 2022 专场解读 - 行业案例 & 生产实践
Flink Forward Asia 2022 行业案例专场 & 生产实践专场内容节选
FFA 2022 专场解读 - 行业案例 & 生产实践
|
机器学习/深度学习 存储 人工智能
「开源人说」|AI普惠,阿里灵杰开源历程与思考
施兴 阿里巴巴资深技术专家 阿里巴巴开源项目EasyRec负责人
118080 1
「开源人说」|AI普惠,阿里灵杰开源历程与思考
|
机器学习/深度学习 存储 人工智能
AI普惠,阿里灵杰开源历程与思考
施兴 阿里巴巴资深技术专家 阿里巴巴开源项目EasyRec负责人
AI普惠,阿里灵杰开源历程与思考