FFA 2021 专场解读 - 生产实践 / 机器学习

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
简介: 生产实践以及机器学习专场,会带来哪些实用干货?

图片

GitHub 地址
https://github.com/apache/flink
欢迎大家关注 Flink~

12 月 4-5 日,北京国家会议中心,Flink Forward Asia 2021 重磅开启,全球 40+ 多行业一线厂商,80+ 干货议题,带来专属于开发者的技术盛宴。

其中,生产实践专场集结阿里巴巴、腾讯、快手、小米、美团的技术专家探讨超大规模 Flink 集群运维与大规模作业稳定性优化实践等议题;机器学习专场也是由来自阿里巴巴、京东、360 等技术专家呈现 Flink 机器学习的最新进展、具体应用实践与最新技术落地案例。

点击链接了解完整大会议程:

https://Flink-forward.org.cn/

生产实践

图片

阿里超大规模 Flink 集群运维体系介绍

王华|阿里云实时计算高级运维专家

在实时计算领域阿里是最早一批全面拥抱 Flink 的公司,而且随着内部计算实时化大浪潮以及计算引擎 ALL IN Flink 的技术布局,使得阿里拥有了近几万台超大规模 Flink 集群,且承载了全集团和阿里云上极其重要、复杂丰富的实时计算业务场景。而运维这样一个实时敏感、规模庞大的实时计算系统,其运维复杂度和技术深度已经和传统大数据运维完全不能相提并论。

本次议题会揭秘阿里 Flink 运维体系,包括已经较成熟的基础运维部分,比如集群稳定性 SLA、资源管理模型、作业全自动化运维管理等,也有正在不断探索的智能运维高级部分,比如 Flink 作业智能诊断 & Advisor、基于云原生集群 AutoPolit 自愈服务等。

Flink 引擎在快手的深度优化与生产实践

刘建刚|快手实时计算团队技术专家

自 2018 年至今,Flink 在快手进行了多轮迭代和升级,在功能、性能、稳定性、易用性等方面得到了极大提升,服务于快手的电商、实时大屏、视频推荐和直播等各类实时计算场景,得到了奥运、春晚等活动的洗礼。

本议题着眼于 Flink 引擎在快手生产实践中的经验,首先介绍 Flink 在各类复杂场景下容错能力的提升,然后分享下 Flink 引擎的控制能力增强和优化实践,最后再谈一谈我们在批处理方面的体验、评测和优化。

大规模作业的稳定性优化实践

邱从贤|腾讯数据平台高级开发工程师,Apache Flink Committer

Apache Flink 作为一个带状态的分布式计算框架,稳定性是很重要的一点,本次分享将从稳定性的定义,稳定性的分类,稳定性的挑战和相应的解决方案进行介绍。

小米基于 Flink 的稳定性优化与实践

张蛟|小米大数据部高级软件工程师,Apache Flink Contributor

演讲主要包括以下几方面的内容:

  1. 小米实时计算平台的发展现状;
  2. 小米在基于 Flink 的实时计算中遇到的各类稳定性问题及解决方法方案实践;
  3. 重点业务支持;
  4. 后续的发展规划,实时计算框架和提供实时基础数据。

美团 Flink 大作业部署与状态稳定性优化实践

冯斐|美团数据平台计算引擎组工程师

王非凡|美团数据平台计算引擎工程师,Apache Flink Contributor

在美团,业务团队使用实时数据的场景越来越多,实时计算的规模越来越大,这对实时计算引擎提出了更高的要求。为了能更好地支持 Flink 在生产环境中大规模应用,我们针对任务部署流程与运行时任务状态,进行了扩展性和稳定性优化。我们将从这几个方面介绍具体的优化实践:

  1. 美团 Flink 大规模应用落地面临的挑战;
  2. Flink 任务部署流程优化;
  3. Flink 任务状态稳定性优化;
  4. 未来规划。

机器学习

img

Alink 新功能与典型案例

杨旭|阿里巴巴资深算法专家

Alink 是基于 Flink 的流批一体的机器学习平台,提供的一系列算法,可以帮助处理各种机器学习任务,比如统计分析、机器学习、实时预测、个性化推荐和异常检测。除了提供 Java API 也提供了 PyAlink,可以轻松部署到单机及集群环境,通过 Jupyter、Zepplin 等 notebook 使用。机器学习算法平台降低了用户使用机器学习、深度学习的门槛,将各个算法作为组件,即使不了解其后面的理论知识,用户也可以根据示例尝试新方法。

Alink、Tensorflow on Flink 在京东的应用

张颖|京东搜索推荐算法工程师

刘露|京东搜索推荐算法工程师

  1. 结合 Alink 实现实时模型训练的 failover 策略、基于 PS 的模型冷启动策略和模型热切换策略、模型训练基于状态后端的 pretrain 策略、模型基于 Flink 的分布式策略等;
  2. Tensorflow on Flink 在京东的应用。

基于 Flink AI Flow 的机器学习工作流最佳实践

姜鑫|阿里巴巴高级工程师

蒋晓峰|阿里巴巴技术专家,Apache RocketMQ & Apache ShardingSphere & SOFAJRaft Committer,Apache Flink Contributor

典型的机器学习工作流通常包含多个步骤,如源数据 ETL(抽取、转化、加载),数据预处理,指标提取,模型训练与交叉验证,新数据预测等。在构建机器学习平台时,管理机器学习项目的整个生命周期成为痛点,需要引入机器学习工作流引擎帮助用户标准化管理机器学习项目的整个生命周期。

Flink AI Flow 是一个大数据和人工智能桥接的开源框架,将整个机器学习项目生命周期作为一个统一的工作流进行管理,包括特征工程、模型训练、模型评估、模型服务、模型推理、监控等。 在整个工作流中,Apache Flink 作为通用计算引擎,利用基于事件的调度程序即增强版本的 Apache Airflow,支持包含流作业的工作流,能够覆盖机器学习全流程(从数据准备到模型训练到模型部署)。

本次演讲将介绍 Flink AI Flow 的基础原理以及机器学习工作流基于 Flink AI Flow 的最佳实践。

Clink:A C/C++ online feature serving solution for Flink

陈震|360 智能工程部总监

得益于 Flink 的批流一体机制和 Alink 丰富的机器学习算子库,基于 Flink 生态的特征处理、特征生成和特征工程架构已在 360 多个业务线落地,但从基于 Java 栈的 Flink 生态上线到搜广推业务中常见的 C/C++ 技术栈开发的特征服务的过程中,存在着语言不一致,代码重复开发,算子实现细节差异,一致性难以保证、调试困难等问题。在这个背景下,我们与阿里 Flink/Alink 团队合作开发了 Clink。

Clink 主要包括三部分:

  1. 使用 C/C++ 开发了高性能的特征工程算子库 libclink ,可被 Flink/Alink 直接调用,解决编程语言和算子实现细节不一致的问题;
  2. 一套基于配置文件的特征工程 pipeline 引擎,该配置文件可在 Flink/Alink 直接导入导出;
  3. Clink 的 pipeline 可被 Clink-Serving,一个基于 bRPC 的高性能服务直接加载,启动为微服务架构的特征工程服务。

通过 Clink,可有效解决机器学习特征工程流程中存在的代码重复开发和一致性等问题。目前 Clink 已在 360 部分业务正式上线,基本上实现了 “Batch-Steaming-Online” 特征工程的一致性保证,较好地提升了算法迭代的效率。此外,Clink 也于近期完成了初步开源,希望能帮助到有类似需求的公司和团队。

伯努利:结构化的工业级流式机器学习系统@阿里妈妈

姜碧野|阿里妈妈算法平台与效能架构团队高级算法专家

本次演讲将基于团队在 DLP-KDD2021 Workshop 上发表的论文:《What Do We Need for Industrial Machine Learning Systems? Bernoulli, A Streaming System with Structured Designs》 主要讲述在搜索推荐广告这种互联网场景下,面对不断流入的曝光点击数据,如何基于 Blink/Flink 流式处理引擎,配合特征计算和后端的分布式训练引擎,实时完成样本生成和模型训练更新。并探讨如何利用结构化特性,建立高效的流式机器学习迭代体系。

演讲主要分为几个部分:结构化的流式样本处理、模块化训练和资源复用、流式机器学习迭代体系。本系统已经在阿里巴巴广告业务实际落地并全量部署,通过流式迭代(相比于批处理的天级迭代)极大地提高了算法工程师的实验迭代效率。


以上为 Flink Forward Asia 2021 生产实践以及机器学习专场内容节选,了解更多大会详情可点击下方链接:

https://Flink-forward.org.cn/

Flink Forward Asia 2021 赞助与合作

图片


首届 Flink Forward Asia Hackathon 正式启动,10W 奖金等你来!

欢迎进入赛事官网了解详情:

https://www.aliyun.com/page-source//tianchi/promotion/FlinkForwardAsiaHackathon

图片

更多 Flink 相关技术问题,可扫码加入社区钉钉交流群
第一时间获取最新技术文章和社区动态,请关注公众号~

image.png

活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算Flink版现开启活动:
99 元试用 实时计算Flink版(包年包月、10CU)即有机会获得 Flink 独家定制卫衣;另包 3 个月及以上还有 85 折优惠!
了解活动详情:https://www.aliyun.com/product/bigdata/sc

image.png

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
7月前
|
机器学习/深度学习 人工智能 JSON
【解决方案】DistilQwen2.5-R1蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对DistilQwen2.5-R1模型系列提供了全面的技术支持。无论是开发者还是企业客户,都可以通过 PAI-ModelGallery 轻松实现 Qwen2.5 系列模型的训练、评测、压缩和快速部署。本文详细介绍在 PAI 平台使用 DistilQwen2.5-R1 蒸馏模型的全链路最佳实践。
|
6月前
|
人工智能 JSON 算法
【解决方案】DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列,包括 DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。本文详细介绍DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践。
|
机器学习/深度学习 数据采集 人工智能
AI与机器学习:从理论到实践
【10月更文挑战第2天】本文将深入探讨AI和机器学习的基本概念,以及它们如何从理论转化为实际的应用。我们将通过Python代码示例,展示如何使用机器学习库scikit-learn进行数据预处理、模型训练和预测。无论你是AI领域的初学者,还是有一定基础的开发者,这篇文章都将为你提供有价值的信息和知识。
|
8月前
|
数据采集 人工智能 API
生物医药蛋白分子数据采集:支撑大模型训练的技术实践分享
作为生物信息学领域的数据工程师,近期在为蛋白质相互作用预测AI大模型构建训练集时,我面临着从PDB、UniProt等学术数据库获取高质量三维结构、序列及功能注释数据的核心挑战。通过综合运用反爬对抗技术,成功突破了数据库的速率限制、验证码验证等反爬机制,将数据采集效率提升4倍,为蛋白质-配体结合预测模型训练提供了包含10万+条有效数据的基础数据集,提高了该模型预测的准确性。
275 1
|
8月前
|
机器学习/深度学习 人工智能 边缘计算
DistilQwen2.5蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
DistilQwen2.5 是阿里云人工智能平台 PAI 推出的全新蒸馏大语言模型系列。通过黑盒化和白盒化蒸馏结合的自研蒸馏链路,DistilQwen2.5各个尺寸的模型在多个基准测试数据集上比原始 Qwen2.5 模型有明显效果提升。这一系列模型在移动设备、边缘计算等资源受限的环境中具有更高的性能,在较小参数规模下,显著降低了所需的计算资源和推理时长。阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对 DistilQwen2.5 模型系列提供了全面的技术支持。本文详细介绍在 PAI 平台使用 DistilQwen2.5 蒸馏小模型的全链路最佳实践。
|
9月前
|
机器学习/深度学习 数据采集 分布式计算
大数据分析中的机器学习基础:从原理到实践
大数据分析中的机器学习基础:从原理到实践
425 3
|
12月前
|
人工智能 JSON 算法
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
阿里云的人工智能平台 PAI,作为一站式、 AI Native 的大模型与 AIGC 工程平台,为开发者和企业客户提供了 Qwen2.5-Coder 系列模型的全链路最佳实践。本文以Qwen2.5-Coder-32B为例,详细介绍在 PAI-QuickStart 完成 Qwen2.5-Coder 的训练、评测和快速部署。
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
|
11月前
|
机器学习/深度学习 人工智能 算法
人工智能浪潮下的编程实践:构建你的第一个机器学习模型
在人工智能的巨浪中,每个人都有机会成为弄潮儿。本文将带你一探究竟,从零基础开始,用最易懂的语言和步骤,教你如何构建属于自己的第一个机器学习模型。不需要复杂的数学公式,也不必担心编程难题,只需跟随我们的步伐,一起探索这个充满魔力的AI世界。
231 12
|
11月前
|
机器学习/深度学习 存储 运维
分布式机器学习系统:设计原理、优化策略与实践经验
本文详细探讨了分布式机器学习系统的发展现状与挑战,重点分析了数据并行、模型并行等核心训练范式,以及参数服务器、优化器等关键组件的设计与实现。文章还深入讨论了混合精度训练、梯度累积、ZeRO优化器等高级特性,旨在提供一套全面的技术解决方案,以应对超大规模模型训练中的计算、存储及通信挑战。
627 4