FFA 2021 专场解读 - 生产实践 / 机器学习

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 生产实践以及机器学习专场,会带来哪些实用干货?

图片

GitHub 地址
https://github.com/apache/flink
欢迎大家关注 Flink~

12 月 4-5 日,北京国家会议中心,Flink Forward Asia 2021 重磅开启,全球 40+ 多行业一线厂商,80+ 干货议题,带来专属于开发者的技术盛宴。

其中,生产实践专场集结阿里巴巴、腾讯、快手、小米、美团的技术专家探讨超大规模 Flink 集群运维与大规模作业稳定性优化实践等议题;机器学习专场也是由来自阿里巴巴、京东、360 等技术专家呈现 Flink 机器学习的最新进展、具体应用实践与最新技术落地案例。

点击链接了解完整大会议程:

https://Flink-forward.org.cn/

生产实践

图片

阿里超大规模 Flink 集群运维体系介绍

王华|阿里云实时计算高级运维专家

在实时计算领域阿里是最早一批全面拥抱 Flink 的公司,而且随着内部计算实时化大浪潮以及计算引擎 ALL IN Flink 的技术布局,使得阿里拥有了近几万台超大规模 Flink 集群,且承载了全集团和阿里云上极其重要、复杂丰富的实时计算业务场景。而运维这样一个实时敏感、规模庞大的实时计算系统,其运维复杂度和技术深度已经和传统大数据运维完全不能相提并论。

本次议题会揭秘阿里 Flink 运维体系,包括已经较成熟的基础运维部分,比如集群稳定性 SLA、资源管理模型、作业全自动化运维管理等,也有正在不断探索的智能运维高级部分,比如 Flink 作业智能诊断 & Advisor、基于云原生集群 AutoPolit 自愈服务等。

Flink 引擎在快手的深度优化与生产实践

刘建刚|快手实时计算团队技术专家

自 2018 年至今,Flink 在快手进行了多轮迭代和升级,在功能、性能、稳定性、易用性等方面得到了极大提升,服务于快手的电商、实时大屏、视频推荐和直播等各类实时计算场景,得到了奥运、春晚等活动的洗礼。

本议题着眼于 Flink 引擎在快手生产实践中的经验,首先介绍 Flink 在各类复杂场景下容错能力的提升,然后分享下 Flink 引擎的控制能力增强和优化实践,最后再谈一谈我们在批处理方面的体验、评测和优化。

大规模作业的稳定性优化实践

邱从贤|腾讯数据平台高级开发工程师,Apache Flink Committer

Apache Flink 作为一个带状态的分布式计算框架,稳定性是很重要的一点,本次分享将从稳定性的定义,稳定性的分类,稳定性的挑战和相应的解决方案进行介绍。

小米基于 Flink 的稳定性优化与实践

张蛟|小米大数据部高级软件工程师,Apache Flink Contributor

演讲主要包括以下几方面的内容:

  1. 小米实时计算平台的发展现状;
  2. 小米在基于 Flink 的实时计算中遇到的各类稳定性问题及解决方法方案实践;
  3. 重点业务支持;
  4. 后续的发展规划,实时计算框架和提供实时基础数据。

美团 Flink 大作业部署与状态稳定性优化实践

冯斐|美团数据平台计算引擎组工程师

王非凡|美团数据平台计算引擎工程师,Apache Flink Contributor

在美团,业务团队使用实时数据的场景越来越多,实时计算的规模越来越大,这对实时计算引擎提出了更高的要求。为了能更好地支持 Flink 在生产环境中大规模应用,我们针对任务部署流程与运行时任务状态,进行了扩展性和稳定性优化。我们将从这几个方面介绍具体的优化实践:

  1. 美团 Flink 大规模应用落地面临的挑战;
  2. Flink 任务部署流程优化;
  3. Flink 任务状态稳定性优化;
  4. 未来规划。

机器学习

img

Alink 新功能与典型案例

杨旭|阿里巴巴资深算法专家

Alink 是基于 Flink 的流批一体的机器学习平台,提供的一系列算法,可以帮助处理各种机器学习任务,比如统计分析、机器学习、实时预测、个性化推荐和异常检测。除了提供 Java API 也提供了 PyAlink,可以轻松部署到单机及集群环境,通过 Jupyter、Zepplin 等 notebook 使用。机器学习算法平台降低了用户使用机器学习、深度学习的门槛,将各个算法作为组件,即使不了解其后面的理论知识,用户也可以根据示例尝试新方法。

Alink、Tensorflow on Flink 在京东的应用

张颖|京东搜索推荐算法工程师

刘露|京东搜索推荐算法工程师

  1. 结合 Alink 实现实时模型训练的 failover 策略、基于 PS 的模型冷启动策略和模型热切换策略、模型训练基于状态后端的 pretrain 策略、模型基于 Flink 的分布式策略等;
  2. Tensorflow on Flink 在京东的应用。

基于 Flink AI Flow 的机器学习工作流最佳实践

姜鑫|阿里巴巴高级工程师

蒋晓峰|阿里巴巴技术专家,Apache RocketMQ & Apache ShardingSphere & SOFAJRaft Committer,Apache Flink Contributor

典型的机器学习工作流通常包含多个步骤,如源数据 ETL(抽取、转化、加载),数据预处理,指标提取,模型训练与交叉验证,新数据预测等。在构建机器学习平台时,管理机器学习项目的整个生命周期成为痛点,需要引入机器学习工作流引擎帮助用户标准化管理机器学习项目的整个生命周期。

Flink AI Flow 是一个大数据和人工智能桥接的开源框架,将整个机器学习项目生命周期作为一个统一的工作流进行管理,包括特征工程、模型训练、模型评估、模型服务、模型推理、监控等。 在整个工作流中,Apache Flink 作为通用计算引擎,利用基于事件的调度程序即增强版本的 Apache Airflow,支持包含流作业的工作流,能够覆盖机器学习全流程(从数据准备到模型训练到模型部署)。

本次演讲将介绍 Flink AI Flow 的基础原理以及机器学习工作流基于 Flink AI Flow 的最佳实践。

Clink:A C/C++ online feature serving solution for Flink

陈震|360 智能工程部总监

得益于 Flink 的批流一体机制和 Alink 丰富的机器学习算子库,基于 Flink 生态的特征处理、特征生成和特征工程架构已在 360 多个业务线落地,但从基于 Java 栈的 Flink 生态上线到搜广推业务中常见的 C/C++ 技术栈开发的特征服务的过程中,存在着语言不一致,代码重复开发,算子实现细节差异,一致性难以保证、调试困难等问题。在这个背景下,我们与阿里 Flink/Alink 团队合作开发了 Clink。

Clink 主要包括三部分:

  1. 使用 C/C++ 开发了高性能的特征工程算子库 libclink ,可被 Flink/Alink 直接调用,解决编程语言和算子实现细节不一致的问题;
  2. 一套基于配置文件的特征工程 pipeline 引擎,该配置文件可在 Flink/Alink 直接导入导出;
  3. Clink 的 pipeline 可被 Clink-Serving,一个基于 bRPC 的高性能服务直接加载,启动为微服务架构的特征工程服务。

通过 Clink,可有效解决机器学习特征工程流程中存在的代码重复开发和一致性等问题。目前 Clink 已在 360 部分业务正式上线,基本上实现了 “Batch-Steaming-Online” 特征工程的一致性保证,较好地提升了算法迭代的效率。此外,Clink 也于近期完成了初步开源,希望能帮助到有类似需求的公司和团队。

伯努利:结构化的工业级流式机器学习系统@阿里妈妈

姜碧野|阿里妈妈算法平台与效能架构团队高级算法专家

本次演讲将基于团队在 DLP-KDD2021 Workshop 上发表的论文:《What Do We Need for Industrial Machine Learning Systems? Bernoulli, A Streaming System with Structured Designs》 主要讲述在搜索推荐广告这种互联网场景下,面对不断流入的曝光点击数据,如何基于 Blink/Flink 流式处理引擎,配合特征计算和后端的分布式训练引擎,实时完成样本生成和模型训练更新。并探讨如何利用结构化特性,建立高效的流式机器学习迭代体系。

演讲主要分为几个部分:结构化的流式样本处理、模块化训练和资源复用、流式机器学习迭代体系。本系统已经在阿里巴巴广告业务实际落地并全量部署,通过流式迭代(相比于批处理的天级迭代)极大地提高了算法工程师的实验迭代效率。


以上为 Flink Forward Asia 2021 生产实践以及机器学习专场内容节选,了解更多大会详情可点击下方链接:

https://Flink-forward.org.cn/

Flink Forward Asia 2021 赞助与合作

图片


首届 Flink Forward Asia Hackathon 正式启动,10W 奖金等你来!

欢迎进入赛事官网了解详情:

https://www.aliyun.com/page-source//tianchi/promotion/FlinkForwardAsiaHackathon

图片

更多 Flink 相关技术问题,可扫码加入社区钉钉交流群
第一时间获取最新技术文章和社区动态,请关注公众号~

image.png

活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算Flink版现开启活动:
99 元试用 实时计算Flink版(包年包月、10CU)即有机会获得 Flink 独家定制卫衣;另包 3 个月及以上还有 85 折优惠!
了解活动详情:https://www.aliyun.com/product/bigdata/sc

image.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
2月前
|
机器学习/深度学习 数据采集 人工智能
AI与机器学习:从理论到实践
【10月更文挑战第2天】本文将深入探讨AI和机器学习的基本概念,以及它们如何从理论转化为实际的应用。我们将通过Python代码示例,展示如何使用机器学习库scikit-learn进行数据预处理、模型训练和预测。无论你是AI领域的初学者,还是有一定基础的开发者,这篇文章都将为你提供有价值的信息和知识。
|
27天前
|
人工智能 JSON 算法
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
阿里云的人工智能平台 PAI,作为一站式、 AI Native 的大模型与 AIGC 工程平台,为开发者和企业客户提供了 Qwen2.5-Coder 系列模型的全链路最佳实践。本文以Qwen2.5-Coder-32B为例,详细介绍在 PAI-QuickStart 完成 Qwen2.5-Coder 的训练、评测和快速部署。
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
|
11天前
|
编解码 机器人 测试技术
技术实践 | 使用 PAI+LLaMA Factory 微调 Qwen2-VL 模型快速搭建专业领域知识问答机器人
Qwen2-VL是一款具备高级图像和视频理解能力的多模态模型,支持多种语言,适用于多模态应用开发。通过PAI和LLaMA Factory框架,用户可以轻松微调Qwen2-VL模型,快速构建文旅领域的知识问答机器人。本教程详细介绍了从模型部署、微调到对话测试的全过程,帮助开发者高效实现定制化多模态应用。
|
20天前
|
机器学习/深度学习 人工智能 算法
人工智能浪潮下的编程实践:构建你的第一个机器学习模型
在人工智能的巨浪中,每个人都有机会成为弄潮儿。本文将带你一探究竟,从零基础开始,用最易懂的语言和步骤,教你如何构建属于自己的第一个机器学习模型。不需要复杂的数学公式,也不必担心编程难题,只需跟随我们的步伐,一起探索这个充满魔力的AI世界。
37 12
|
20天前
|
机器学习/深度学习 存储 运维
分布式机器学习系统:设计原理、优化策略与实践经验
本文详细探讨了分布式机器学习系统的发展现状与挑战,重点分析了数据并行、模型并行等核心训练范式,以及参数服务器、优化器等关键组件的设计与实现。文章还深入讨论了混合精度训练、梯度累积、ZeRO优化器等高级特性,旨在提供一套全面的技术解决方案,以应对超大规模模型训练中的计算、存储及通信挑战。
50 4
|
1月前
|
人工智能 边缘计算 JSON
DistilQwen2 蒸馏小模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
本文详细介绍在 PAI 平台使用 DistilQwen2 蒸馏小模型的全链路最佳实践。
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习:从理论到实践
在这篇文章中,我们将深入探讨机器学习的世界。我们将首先了解机器学习的基本概念和原理,然后通过一个简单的代码示例,展示如何实现一个基本的线性回归模型。无论你是初学者还是有经验的开发者,这篇文章都将帮助你更好地理解和应用机器学习。
|
1月前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习:从理论到Python代码实践
【10月更文挑战第36天】本文将深入浅出地介绍机器学习的基本概念、主要算法及其在Python中的实现。我们将通过实际案例,展示如何使用scikit-learn库进行数据预处理、模型选择和参数调优。无论你是初学者还是有一定基础的开发者,都能从中获得启发和实践指导。
47 2
|
1月前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习:从理论到实践
【10月更文挑战第35天】在这篇文章中,我们将深入探讨机器学习的世界。我们将从基础理论开始,然后逐步过渡到实际应用,最后通过代码示例来展示如何实现一个简单的机器学习模型。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的信息和见解。
|
2月前
|
机器学习/深度学习 数据可视化 数据挖掘
机器学习中空间和时间自相关的分析:从理论基础到实践应用
空间和时间自相关是数据分析中的重要概念,揭示了现象在空间和时间维度上的相互依赖关系。本文探讨了这些概念的理论基础,并通过野火风险预测的实际案例,展示了如何利用随机森林模型捕捉时空依赖性,提高预测准确性。
107 0
机器学习中空间和时间自相关的分析:从理论基础到实践应用