文档备案控制台

开发者社区问答正文

Spark SVD不可重复

我正在使用computeSVDSpark类的方法IndexedRowMatrix（在Scala中）。我注意到它没有setSeed()方法。对于同一输入矩阵的多次运行，我得到的结果略有不同，可能是由于Spark使用的内部算法。虽然它也实现了近似可扩展的SVD算法，但我会从源代码中说，computeSVD()来自IndexedRowMatrix不应用近似但确切的版本。

由于我正在使用SVD结果做推荐，并且用户和项目潜在因素矩阵不同，我实际上得到了不同的推荐列表：在一些运行中大致相同的项目以不同的顺序，有时一些新项目进入列表和有些人遗漏了，因为在对传递到的缺失输入评级矩阵进行估算后，预测评级通常几乎是平局的computeSVD()。

有没有人有这个问题？有没有办法让这完全确定，

展开

收起

社区小助手 2018-12-06 15:41:34 1951 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

当您在Apache Spark中使用数值计算时，您必须记住两件事：

FP算术不是关联的。

scala> (0.1 + 0.2) + 0.3 == 0.1 + (0.2 + 0.3)
res0: Boolean = false
Spark中的每次交换都是非决定论的潜在来源。为了实现最佳性能，Spark可以按任意顺序合并上游任务的部分结果。

这可以通过一些防御性编程来解决，但运行时开销通常很高，在实践中很有用。

因此，即使程序不依赖于随机数生成器（如computeSVD），或者如果设置了生成器种子，最终结果也会波动。

在实践中，除了重写内部之外，你真的没什么可做的。如果您怀疑问题在某种程度上是病态的，您可以尝试使用一些随机噪声构建多个模型，以查看最终预测的敏感程度，并在生成预测时将此考虑在内。

2019-07-17 23:18:35

赞同展开评论

问答分类：

分布式计算算法 Scala Spark

问答地址：

开发者社区 > 大数据 > 问答

相关问答

spark任务想完整的部署，发布，执行调度，仅仅maxcompute组件权限够么，还需要datawo

941

1

0

Spark 读取Maxcompute 中的表进行处理，怎么弄？

985

1

0

maxcompute的底层引擎我用的都是mr，他是可以切换成spark吗？

2017

1

0

我想咨询下，我们的maxcompute spark程序需要访问redis，开发环境和生产环境redi

941

1

0

MaxCompute 的 spark 能读 odps 的 resource 资源吗

1152

1

0

MaxCompute 的 spark 不支持 df.createOrReplaceGlobalTem

1221

20

0

请教个问题，Spark on MaxCompute是基于内存的吗？会不会比直接用odps sql写要

818

1

0

MaxCompute Spark中磁盘空间不足的表现形式是什么？

976

1

0

MaxCompute Spark中本地磁盘的相关参数是什么？

1120

1

0

MaxCompute Spark中Driver Memory的原因及解决方案是什么？

1076

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

关于Qwen3.5小模型的性能问题

我的显卡有20G左右的显存,想部署一个支持多模态的量化版的qwen3.5模型,请各位给个建议。

【求助】阿里云部署OpenClaw，企业微信长连接配置成功，但机器人无响应。

openclaw在windows环境下本地部署碰到一个棘手问题

OpenClaw Linux 部署，在Linux操作系统上怎么部署安装？

相关文章

【路径规划】基于时空A星算法求解带时间约束的多机器人路径规划问题附matlab代码

内网行为管控场景下Python LRU缓存优化算法实践

基于NLP噪声注入的邮件安全逃逸机制与防御策略研究

阿里云服务器计费模式：包年包月、按量付费、抢占式实例、节省计划、预留实例券区别及选择参考

韩国KT与警方联合AI反钓鱼系统的架构范式与实时阻断机制研究

还有其他疑问?