新场景 + 新应用,Flink 在机器学习领域的生产落地

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
简介: 12月13日-15日,Flink Forward Asia 2020 机器学习专场,聚焦 Apache Flink 在机器学习领域的新技术、新场景、新应用。大会邀请了来自微博、小米、bilibili、阿里巴巴、英特尔等多位一线技术专家,分享 Flink 机器学习的具体应用实践与实战案例。

人工智能与机器学习被称为未来十大科技之一。随着全球移动互联网和物联网的发展,机器学习和 AI 相关技术的应用范围越来越广,而这背后都离不开数据与算力的强大支撑。企业如何借助 Apache Flink 强大算力为机器学习应用赋能?业界有哪些 Flink 机器学习的落地实践?

1.jpg


12月13日-15日,Flink Forward Asia 2020 机器学习专场,聚焦 Apache Flink 在机器学习领域的新技术、新场景、新应用。大会邀请了来自微博、小米、bilibili、阿里巴巴、英特尔等多位一线技术专家,分享 Flink 机器学习的具体应用实践与实战案例。

▼ 扫码了解完整大会议程 ▼

d8a70687c48a41fcbf57fe388e48e4c2.jpg

(大会官网)

Alink 在微博机器学习平台中的实践

高霖 | 新浪微博资深算法工程师

微博机器学习平台介绍
Alink 在微博的应用场景
Alink 在微博机器学习平台中的实践经验和改进

Flink 在小米广告业务中的实践

王曦伟 | 小米在线广告业务特征平台、实时化平台负责人

本次分享主要向大家介绍小米广告算法实时化体系的基本设计,以及 Flink 在这一体系上的应用场景和实践经验。

Apache Flink 在 bilibili 的多元化探索与实践

郑志升 | bilibili 大数据实时平台负责人

bilibili 实时体系从17年底雏形开始的实时传输架构(基于 Flume)和实时计算架构(Spark Streaming),逐渐演进至目前基于 Flink 构建而起的一整套完善的实时平台。历经3年的技术沉淀,传输平台随着体量逼近万亿规模,出现了很多基于 Flume 无法很好根治的痛点,例如导入数据无法满足准实时查询要求,以及不同数据流传输链路中的隔离要求,而基于 Flink 的流式分发架构很好地解决这些问题。

而计算平台则针对早期过高的个性化定制编程模式提供了一套通用的 BSQL 方案,广泛应用于实时数仓、报表、BI 分析、AI 工程等领域,特别是 AI 方向重点突破解决了流批场景统一的特征计算工程。

本次分享核心讲解万亿级传输分发架构的落地,以及 AI 领域如何基于 Flink 打造一套完善的预处理实时 Pipeline。更多内容详见本次分享。

· B站实时的前世与今生
· 万亿级数据分发架构的落地
· 模型训练预处理 Pipeline 的实时化
· 未来的展望与思考

Alink 使机器学习应用更简单

杨旭 | 阿里巴巴资深算法专家

Alink 是在去年的Flink Forward Asia上宣布开源的。在过去的一年中,Alink仍在快速迭代发展中,推出了2个大版本和4个小版本。

在本次分享中,着重介绍在易用性方面的工作,简化安装过程、解决常见的问题;提升使用体验,在参数检查方面更加智能;支持 Kafka 数据源、Hive 数据源;支持多文件系统;推出 AK 格式读取、导出组件,简化文件数据的操作;支持模型信息摘要、输出等。

基于 Flink 的在线机器学习系统架构探讨

秦江杰 | Apache Flink & Kafka PMC Member,阿里巴巴 Flink 生态团队负责人
陈戊超 | 阿里巴巴技术专家

近年来随着机器学习的广泛应用,传统的离线机器学习在包括推荐、搜索、广告等场景下逐渐被实时机器学习的架构所替代,形成了机器学习实时化的趋势,在此过程中 Flink 扮演了越来越重要的作用。本演讲从机器学习工程的角度出发,对以下问题进行探讨:

1、如何从传统离线机器学习架构迁移到在线离线融合的机器学习架构?
2、Flink 的流批统一,支持 retraction 的机制在实时机器学习架构中有何优势?
3、如何整合并简化机器学习应用的开发部署。

听众将了解 Flink AI 的发展方向以及如何基于 Flink 搭建一个在线机器学习系统。

Cluster Serving: Distributed and Automated Model Inference on Big Data Streaming Frameworks

宋佳明 | 英特尔机器学习工程师

随着深度学习在生产环境的应用,大规模深度学习、实时分布式推理的需求不断增加,为了满足机器学习 Pipeline 中对极低延迟模型服务的需求,我们开发了集群服务:英特尔 Analytics Zoo 自动分布式服务解决方案。

在本次分享中,我们将介绍 Cluster Serving 如何利用 Flink 的流式 Runtime、低延迟、高吞吐的优势,Cluster Serving 的架构设计和底层设计,以及如何部署和管理分布式深度学习模型,并分享生产环境中使用大数据和统一数据处理的案例。

除此之外,本次分享还将介绍如何使用群集服务轻松集成 Flink 运算符,以及如何在 Flink 新功能“Stateful Function”实现更灵活的服务。

以上为 Flink Forward Asia 2020 在线峰会机器学习专场内容节选,了解更多大会详情及大会预约可点击「阅读原文」。12月13日,全球 38+ 一线厂商,70+ 优质议题,我们在 Flink Forward Asia 在线峰会等你~

▼ FFA 2020 交流群 ▼

大会实时提问及嘉宾分享PPT都将在交流群公布~

ffa 交流群

3.jpg


相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
3月前
|
机器学习/深度学习 数据采集 算法
量子机器学习入门:三种数据编码方法对比与应用
在量子机器学习中,数据编码方式决定了量子模型如何理解和处理信息。本文详解角度编码、振幅编码与基础编码三种方法,分析其原理、实现及适用场景,帮助读者选择最适合的编码策略,提升量子模型性能。
272 8
|
7月前
|
人工智能 自然语言处理 数据挖掘
云上玩转Qwen3系列之三:PAI-LangStudio x Hologres构建ChatBI数据分析Agent应用
PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用(229)
本文深入探讨Java大数据与机器学习在自然语言生成(NLG)中的可控性研究,分析当前生成模型面临的“失控”挑战,如数据噪声、标注偏差及黑盒模型信任问题,提出Java技术在数据清洗、异构框架融合与生态工具链中的关键作用。通过条件注入、强化学习与模型融合等策略,实现文本生成的精准控制,并结合网易新闻与蚂蚁集团的实战案例,展示Java在提升生成效率与合规性方面的卓越能力,为金融、法律等强监管领域提供技术参考。
|
4月前
|
机器学习/深度学习 算法 Java
Java 大视界 -- Java 大数据机器学习模型在生物信息学基因功能预测中的优化与应用(223)
本文探讨了Java大数据与机器学习模型在生物信息学中基因功能预测的优化与应用。通过高效的数据处理能力和智能算法,提升基因功能预测的准确性与效率,助力医学与农业发展。
|
4月前
|
机器学习/深度学习 搜索推荐 数据可视化
Java 大视界 -- Java 大数据机器学习模型在电商用户流失预测与留存策略制定中的应用(217)
本文探讨 Java 大数据与机器学习在电商用户流失预测与留存策略中的应用。通过构建高精度预测模型与动态分层策略,助力企业提前识别流失用户、精准触达,实现用户留存率与商业价值双提升,为电商应对用户流失提供技术新思路。
|
4月前
|
机器学习/深度学习 存储 分布式计算
Java 大视界 --Java 大数据机器学习模型在金融风险压力测试中的应用与验证(211)
本文探讨了Java大数据与机器学习模型在金融风险压力测试中的创新应用。通过多源数据采集、模型构建与优化,结合随机森林、LSTM等算法,实现信用风险动态评估、市场极端场景模拟与操作风险预警。案例分析展示了花旗银行与蚂蚁集团的智能风控实践,验证了技术在提升风险识别效率与降低金融风险损失方面的显著成效。
|
5月前
|
机器学习/深度学习 分布式计算 Java
Java 大视界 -- Java 大数据机器学习模型在遥感图像土地利用分类中的优化与应用(199)
本文探讨了Java大数据与机器学习模型在遥感图像土地利用分类中的优化与应用。面对传统方法效率低、精度差的问题,结合Hadoop、Spark与深度学习框架,实现了高效、精准的分类。通过实际案例展示了Java在数据处理、模型融合与参数调优中的强大能力,推动遥感图像分类迈向新高度。
|
5月前
|
机器学习/深度学习 存储 Java
Java 大视界 -- Java 大数据机器学习模型在游戏用户行为分析与游戏平衡优化中的应用(190)
本文探讨了Java大数据与机器学习模型在游戏用户行为分析及游戏平衡优化中的应用。通过数据采集、预处理与聚类分析,开发者可深入洞察玩家行为特征,构建个性化运营策略。同时,利用回归模型优化游戏数值与付费机制,提升游戏公平性与用户体验。
|
7月前
|
机器学习/深度学习 数据采集 人工智能
智能嗅探AJAX触发:机器学习在动态渲染中的创新应用
随着Web技术发展,动态加载数据的网站(如今日头条)对传统爬虫提出新挑战:初始HTML无完整数据、请求路径动态生成且易触发反爬策略。本文以爬取“AI”相关新闻为例,探讨了通过浏览器自动化、抓包分析和静态逆向接口等方法采集数据的局限性,并提出借助机器学习智能识别AJAX触发点的解决方案。通过特征提取与模型训练,爬虫可自动推测数据接口路径并高效采集。代码实现展示了如何模拟AJAX请求获取新闻标题、简介、作者和时间,并分类存储。未来,智能化将成为采集技术的发展趋势。
183 1
智能嗅探AJAX触发:机器学习在动态渲染中的创新应用
|
7月前
|
人工智能 自然语言处理 数据库
云上玩转Qwen3系列之二:PAI-LangStudio搭建联网搜索和RAG增强问答应用
本文详细介绍了如何使用 PAI-LangStudio 和 Qwen3 构建基于 RAG 和联网搜索 的 AI 智能问答应用。该应用通过将 RAG、web search 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了额外的联网搜索和特定领域知识库检索的能力,提升了智能回答的效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。

相关产品

  • 实时计算 Flink版