文档备案控制台

开发者社区问答正文

Apache Flink与Apache Spark可以作为大规模机器学习的平台吗？

Apache Flink与Apache Spark可以作为大规模机器学习的平台吗？

谁能将Flink和Spark作为机器学习的平台进行比较？哪种算法对迭代算法更好？

展开

收起

问问小秘 2020-05-19 13:21:40 1238 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客bnlxddh3fwntw

Apache Spark通过循环展开执行迭代。这意味着对于每次迭代，计划并执行一组新的任务/操作员。Spark非常高效地执行了此任务，因为它非常擅长进行低延迟的任务调度（顺便说一句，Spark流使用相同的机制），并且在迭代过程中将数据缓存在内存中。因此，每次迭代都基于保存在内存中的前一次迭代的结果。在Spark中，迭代被实现为常规的for循环（请参阅Logistic回归示例）。

Flink执行具有循环数据流的迭代程序。这意味着数据流程序（及其所有运算符）仅被调度一次，并且数据从迭代的尾部反馈到其头部。基本上，数据在一次迭代中围绕运算符循环流动。由于运算符仅被调度一次，因此他们可以在所有迭代中维持状态。Flink的API提供了两个专用的迭代运算符来指定迭代：
1）批量迭代，在概念上类似于循环展开
2）增量迭代。增量迭代可以显着加快某些算法的速度，因为随着迭代次数的增加，每次迭代的工作量都会减少。例如，增量迭代PageRank实现的第10个迭代比第一个迭代快得多。

根据我在ML和数据流处理方面的经验。Flink和Spark擅长不同领域，在ML场景中它们可以互补。Flink可以胜任在线学习任务，其中我们通过消耗新事件并同时进行实时推断来不断更新局部模型。并且部分模型还可以合并基于Spark脱机的历史数据构建的预训练模型。

2020-05-19 13:29:32

赞同展开评论

问答分类：

机器学习/深度学习分布式计算算法 Apache 流计算 Spark 人工智能平台 PAI 实时计算 Flink版

问答标签：

实时计算 Flink版平台 Apache flink Apache平台实时计算 Flink版Apache 人工智能平台 PAI平台

问答地址：

开发者社区 > 大数据 > 问答

相关问答

机器学习PAI平台部署微调的大模型是怎么收费的？

185

1

0

MaxCompute中使用Spark如何处理org.apache.spark.sql.Anal...

143

1

0

机器学习PAI新建特征平台项目一定要配置 Hologres吗？

143

2

0

新加坡的阿里云账号，无法开通机器学习PAI的特征平台吗？

143

1

0

机器学习PAI的组合特征需要注册到特征平台吗？

135

1

0

机器学习PAI的特征变换不是主要在特征平台做的吗？

140

1

0

阿里云机器学习PAI平台和达摩院智能计算实验室最近发布了什么重大成果？

144

1

0

想在PAI平台里离线调用NLP模型，发现平台不支持比较高的ModelScope版本，要怎么解决呢？

153

1

0

小打卡平台是如何基于MaxCompute+PAI实现推荐算法的？

114

1

0

阿里云的人工智能平台PAI与大模型服务平台在功能定位和服务范围上有不同么？

160

0

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

内存被通义灵码吃光了。我电脑总共48G的内存，被通义灵码吃掉了30几G，你们搞什么飞机？

我下载的gguf文件，最新的LMSTUDIO仍然无法识别什么问题

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

copaw安装后，出现这个情况，在设置模型的过程中出现这个问题，如何解决

Qwen OpenAI-Responses 兼容模式有问题

相关文章

余数周期闭合与格点守恒计算框架 ——一种离散数值系统的结构化分析方法（陈恩华）

未来10年前端的岗位发展趋势

固定比例数值诊断框架下黎曼 ζ 函数临界线附近行为的数值研究（陈恩华）

别再盲目上 Serverless 了：聊聊 Serverless 数据分析的真相、成本和适用场景

写 PyTorch 总像在写脚本？试试 PyTorch Lightning，把模型训练变成“工程化项目”

相关解决方案

更多

一站式搭建短剧平台

漫剧工坊：一站式动画创作平台

Flink 与 Hologres 搭建实时数仓

Flink CDC 实现企业级实时数据同步

跨应用和平台，AI记忆不再丢失

还有其他疑问?