开发者社区问答正文

基于Spark的面向十亿级别特征的大规模机器学习

Apache Spark committer梁闫博在CCTC2017中国云计算技术大会上做了主题为《Deep Dive:How Spark Uses Memory》的演讲，就Vector-free L-BFGS on Spark，Logistic regression on vector-free L-BFGS，spark性能分析做了深入分析。

https://yq.aliyun.com/download/334?spm=a2c4e.11154804.0.0.4b706a79vLEzX2

展开

收起

福利达人 2018-05-27 17:51:11 1017 版权

阿里云 AI 助理回答

梁闫博作为Apache Spark的committer，在CCTC2017中国云计算技术大会上的演讲《Deep Dive:How Spark Uses Memory》深入探讨了Spark内存管理的机制，这对于理解及优化基于Spark的大数据处理应用至关重要。您提供的链接指向了阿里云云栖社区的一个下载页面，该页面可能包含了梁闫博演讲的资料或相关文档，可以帮助听众和读者更深入地了解以下内容：

Vector-free L-BFGS on Spark：L-BFGS（Limited-memory Broyden-Fletcher-Goldfarb-Shanno）是一种用于数值优化的有效算法，特别适用于大规模机器学习问题。"Vector-free"方法通常旨在减少计算过程中的内存占用，通过优化数据结构和计算流程来提升在Spark上运行这类算法的效率和可扩展性。
Logistic Regression on Vector-free L-BFGS：逻辑回归是统计学和机器学习中广泛使用的分类算法。将其与vector-free L-BFGS结合，可以高效地处理大规模数据集上的逻辑回归模型训练，尤其是在Spark这样的分布式计算框架上，能够有效利用集群资源进行并行计算，同时通过优化内存使用来加速训练过程。
Spark性能分析：这部分内容可能涉及如何监控和分析Spark作业的执行情况，包括但不限于内存使用、任务调度、数据shuffle等关键性能指标。通过深入了解这些细节，开发者可以识别并解决性能瓶颈，进一步提升Spark应用程序的执行效率。

如果您对上述话题感兴趣，可以通过提供的链接下载相关资料，以获取更详细的信息和实践指导。此外，阿里云也提供了丰富的服务和产品，如E-MapReduce、MaxCompute等，它们都是基于或兼容Spark的大数据处理平台，能帮助用户在云端高效地进行大数据分析和机器学习任务。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

机器学习/深度学习分布式计算 Apache 云计算 Spark 人工智能平台 PAI

问答标签：

apache spark特征人工智能平台 PAI特征特征人工智能平台 PAI apache spark机器学习 spark人工智能平台 PAI

问答地址：

开发者社区 > 大数据 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

基于Spark的面向十亿级别特征的 大规模机器学习

相关文章

基于Spark的面向十亿级别特征的大规模机器学习