文档备案控制台

开发者社区问答正文

Apache Flink与Apache Spark可以作为大规模机器学习的平台吗？

Apache Flink与Apache Spark可以作为大规模机器学习的平台吗？

谁能将Flink和Spark作为机器学习的平台进行比较？哪种算法对迭代算法更好？

展开

收起

问问小秘 2020-05-19 13:21:40 1220 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客bnlxddh3fwntw

Apache Spark通过循环展开执行迭代。这意味着对于每次迭代，计划并执行一组新的任务/操作员。Spark非常高效地执行了此任务，因为它非常擅长进行低延迟的任务调度（顺便说一句，Spark流使用相同的机制），并且在迭代过程中将数据缓存在内存中。因此，每次迭代都基于保存在内存中的前一次迭代的结果。在Spark中，迭代被实现为常规的for循环（请参阅Logistic回归示例）。

Flink执行具有循环数据流的迭代程序。这意味着数据流程序（及其所有运算符）仅被调度一次，并且数据从迭代的尾部反馈到其头部。基本上，数据在一次迭代中围绕运算符循环流动。由于运算符仅被调度一次，因此他们可以在所有迭代中维持状态。Flink的API提供了两个专用的迭代运算符来指定迭代：
1）批量迭代，在概念上类似于循环展开
2）增量迭代。增量迭代可以显着加快某些算法的速度，因为随着迭代次数的增加，每次迭代的工作量都会减少。例如，增量迭代PageRank实现的第10个迭代比第一个迭代快得多。

根据我在ML和数据流处理方面的经验。Flink和Spark擅长不同领域，在ML场景中它们可以互补。Flink可以胜任在线学习任务，其中我们通过消耗新事件并同时进行实时推断来不断更新局部模型。并且部分模型还可以合并基于Spark脱机的历史数据构建的预训练模型。

2020-05-19 13:29:32

赞同展开评论

问答分类：

机器学习/深度学习分布式计算算法 Apache 流计算 Spark 人工智能平台 PAI 实时计算 Flink版

问答标签：

实时计算 Flink版平台 Apache flink Apache平台实时计算 Flink版Apache 人工智能平台 PAI平台

问答地址：

开发者社区 > 大数据 > 问答

相关问答

flink里pyspark ,通过 spark-submit 这种方式提交作业，报错依赖缺失咋办？

201

1

0

运维在阿里实时计算平台的发展过程中面临了哪些阶段的挑战？

143

1

0

阿里实时计算平台在架构演进上有什么变化？

150

1

0

目前阿里的实时计算平台拥有多少核算力、物理机和作业？

150

1

0

在3.0时代，阿里实时计算平台支撑了哪个重大活动？

122

1

0

对于实时计算平台未来的发展，斗鱼有哪些展望？

118

1

0

实时计算平台如何支持作业组装的两种方式？

83

1

0

玄武实时计算平台是如何监控每个作业的运行状态的？

101

1

0

在玄武实时计算平台的调度层，是如何实现Flink多个版本的共存的？

87

1

0

玄武实时计算平台的架构是如何设计的？

215

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

现在还能免费部署模型至api上了吗？

更新太慢了,模型也要赶紧优化

如何获取阿里云服务器的优惠折扣？

通义灵码提示格式问题

modelscope 部署模型资源好久了，一直没响应，这应该怎么删除重新部署呢？

相关文章

GEO优化培训讲师王耀恒：告别“投毒式”优化，拥抱价值生态建设

阿里云服务器通用算力型u2a和经济型e怎么选？二者性能、适用场景、活动价格对比与选择参考

2026 实战白皮书：板块式进度透视管理工具从入门到精通的系统化指南与谋略

公司电脑屏幕监控中的PHP跳表算法实践探究

Python变量：从入门到灵活运用的全攻略

相关解决方案

更多

一站式搭建短剧平台

Flink 与 Hologres 搭建实时数仓

ETL For AI Data：一站式构建AI数据处理平台

Flink CDC 实现企业级实时数据同步

跨应用和平台，AI记忆不再丢失

还有其他疑问?