新场景 + 新应用,Flink 在机器学习领域的生产落地

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 12月13日-15日,Flink Forward Asia 2020 机器学习专场,聚焦 Apache Flink 在机器学习领域的新技术、新场景、新应用。大会邀请了来自微博、小米、bilibili、阿里巴巴、英特尔等多位一线技术专家,分享 Flink 机器学习的具体应用实践与实战案例。

人工智能与机器学习被称为未来十大科技之一。随着全球移动互联网和物联网的发展,机器学习和 AI 相关技术的应用范围越来越广,而这背后都离不开数据与算力的强大支撑。企业如何借助 Apache Flink 强大算力为机器学习应用赋能?业界有哪些 Flink 机器学习的落地实践?

1.jpg


12月13日-15日,Flink Forward Asia 2020 机器学习专场,聚焦 Apache Flink 在机器学习领域的新技术、新场景、新应用。大会邀请了来自微博、小米、bilibili、阿里巴巴、英特尔等多位一线技术专家,分享 Flink 机器学习的具体应用实践与实战案例。

▼ 扫码了解完整大会议程 ▼

d8a70687c48a41fcbf57fe388e48e4c2.jpg

(大会官网)

Alink 在微博机器学习平台中的实践

高霖 | 新浪微博资深算法工程师

微博机器学习平台介绍
Alink 在微博的应用场景
Alink 在微博机器学习平台中的实践经验和改进

Flink 在小米广告业务中的实践

王曦伟 | 小米在线广告业务特征平台、实时化平台负责人

本次分享主要向大家介绍小米广告算法实时化体系的基本设计,以及 Flink 在这一体系上的应用场景和实践经验。

Apache Flink 在 bilibili 的多元化探索与实践

郑志升 | bilibili 大数据实时平台负责人

bilibili 实时体系从17年底雏形开始的实时传输架构(基于 Flume)和实时计算架构(Spark Streaming),逐渐演进至目前基于 Flink 构建而起的一整套完善的实时平台。历经3年的技术沉淀,传输平台随着体量逼近万亿规模,出现了很多基于 Flume 无法很好根治的痛点,例如导入数据无法满足准实时查询要求,以及不同数据流传输链路中的隔离要求,而基于 Flink 的流式分发架构很好地解决这些问题。

而计算平台则针对早期过高的个性化定制编程模式提供了一套通用的 BSQL 方案,广泛应用于实时数仓、报表、BI 分析、AI 工程等领域,特别是 AI 方向重点突破解决了流批场景统一的特征计算工程。

本次分享核心讲解万亿级传输分发架构的落地,以及 AI 领域如何基于 Flink 打造一套完善的预处理实时 Pipeline。更多内容详见本次分享。

· B站实时的前世与今生
· 万亿级数据分发架构的落地
· 模型训练预处理 Pipeline 的实时化
· 未来的展望与思考

Alink 使机器学习应用更简单

杨旭 | 阿里巴巴资深算法专家

Alink 是在去年的Flink Forward Asia上宣布开源的。在过去的一年中,Alink仍在快速迭代发展中,推出了2个大版本和4个小版本。

在本次分享中,着重介绍在易用性方面的工作,简化安装过程、解决常见的问题;提升使用体验,在参数检查方面更加智能;支持 Kafka 数据源、Hive 数据源;支持多文件系统;推出 AK 格式读取、导出组件,简化文件数据的操作;支持模型信息摘要、输出等。

基于 Flink 的在线机器学习系统架构探讨

秦江杰 | Apache Flink & Kafka PMC Member,阿里巴巴 Flink 生态团队负责人
陈戊超 | 阿里巴巴技术专家

近年来随着机器学习的广泛应用,传统的离线机器学习在包括推荐、搜索、广告等场景下逐渐被实时机器学习的架构所替代,形成了机器学习实时化的趋势,在此过程中 Flink 扮演了越来越重要的作用。本演讲从机器学习工程的角度出发,对以下问题进行探讨:

1、如何从传统离线机器学习架构迁移到在线离线融合的机器学习架构?
2、Flink 的流批统一,支持 retraction 的机制在实时机器学习架构中有何优势?
3、如何整合并简化机器学习应用的开发部署。

听众将了解 Flink AI 的发展方向以及如何基于 Flink 搭建一个在线机器学习系统。

Cluster Serving: Distributed and Automated Model Inference on Big Data Streaming Frameworks

宋佳明 | 英特尔机器学习工程师

随着深度学习在生产环境的应用,大规模深度学习、实时分布式推理的需求不断增加,为了满足机器学习 Pipeline 中对极低延迟模型服务的需求,我们开发了集群服务:英特尔 Analytics Zoo 自动分布式服务解决方案。

在本次分享中,我们将介绍 Cluster Serving 如何利用 Flink 的流式 Runtime、低延迟、高吞吐的优势,Cluster Serving 的架构设计和底层设计,以及如何部署和管理分布式深度学习模型,并分享生产环境中使用大数据和统一数据处理的案例。

除此之外,本次分享还将介绍如何使用群集服务轻松集成 Flink 运算符,以及如何在 Flink 新功能“Stateful Function”实现更灵活的服务。

以上为 Flink Forward Asia 2020 在线峰会机器学习专场内容节选,了解更多大会详情及大会预约可点击「阅读原文」。12月13日,全球 38+ 一线厂商,70+ 优质议题,我们在 Flink Forward Asia 在线峰会等你~

▼ FFA 2020 交流群 ▼

大会实时提问及嘉宾分享PPT都将在交流群公布~

ffa 交流群

3.jpg


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
28天前
|
流计算 开发者
【开发者评测】实时计算Flink场景实践和核心功能体验测评获奖名单公布!
【开发者评测】实时计算Flink场景实践和核心功能体验测评获奖名单公布!
|
2月前
|
运维 数据挖掘 网络安全
场景实践 | 基于Flink+Hologres搭建GitHub实时数据分析
基于Flink和Hologres构建的实时数仓方案在数据开发运维体验、成本与收益等方面均表现出色。同时,该产品还具有与其他产品联动组合的可能性,能够为企业提供更全面、更智能的数据处理和分析解决方案。
|
3月前
|
消息中间件 监控 数据可视化
实时计算Flink场景实践和核心功能体验
本文详细评测了阿里云实时计算Flink版,从产品引导、文档帮助、功能满足度等方面进行了全面分析。产品界面设计友好,文档丰富实用,数据开发和运维体验优秀,具备出色的实时性和动态扩展性。同时,提出了针对业务场景的改进建议,包括功能定制化增强、高级分析功能拓展及可视化功能提升。文章还探讨了产品与阿里云内部产品及第三方工具的联动潜力,展示了其在多云架构和跨平台应用中的广阔前景。
117 9
|
3月前
|
运维 数据可视化 数据处理
实时计算Flink场景实践和核心功能体验 评测
实时计算Flink场景实践和核心功能体验 评测
83 5
|
3月前
|
运维 监控 安全
实时计算Flink场景实践和核心功能体验
实时计算Flink场景实践和核心功能体验
|
2月前
|
数据采集 运维 搜索推荐
实时计算Flink场景实践
在数字化时代,实时数据处理愈发重要。本文分享了作者使用阿里云实时计算Flink版和流式数据湖仓Paimon的体验,展示了其在电商场景中的应用,包括数据抽取、清洗、关联和聚合,突出了系统的高效、稳定和低延迟特点。
68 0
|
7月前
|
SQL 搜索推荐 OLAP
Flink 流批一体场景应用及落地情况
本文由阿里云 Flink 团队苏轩楠老师撰写,旨在介绍 Flink 流批一体在几个常见场景下的应用。
68139 11
Flink 流批一体场景应用及落地情况
|
6月前
|
SQL 运维 监控
实时计算 Flink版产品使用问题之在场景中新加入了其他的CTAS语句后任务无法启动,该如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
7月前
|
机器学习/深度学习 人工智能 Apache
人工智能平台PAI操作报错合集之alink任务可以在本地运行,上传到flink web运行就报错,如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
8月前
|
运维 监控 Java
面经:Storm实时计算框架原理与应用场景
【4月更文挑战第11天】本文是关于Apache Storm实时流处理框架的面试攻略和核心原理解析。文章分享了面试常见主题,包括Storm的架构与核心概念(如Spout、Bolt、Topology、Tuple和Ack机制),编程模型与API,部署与运维,以及应用场景与最佳实践。通过代码示例展示了如何构建一个简单的WordCountTopology,强调理解和运用Storm的关键知识点对于面试和实际工作的重要性。
509 4
面经:Storm实时计算框架原理与应用场景

相关产品

  • 实时计算 Flink版