【Spark Summit East 2017】将Apache Spark MLlib扩展至十亿级别的参数

简介: 本讲义出自Yanbo Liang在Spark Summit East 2017上的演讲,主要介绍了为了应对像广告点击率预测和神经网络这样的应用程序需要从大量的数据中获取数十亿参数的挑战而研发的MLlib自由向量L-BFGS,它能解决Spark SQL框架中训练集经常产生的数十亿参数问题,演讲中展示了

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Yanbo Liang在Spark Summit East 2017上的演讲,主要介绍了为了应对像广告点击率预测和神经网络这样的应用程序需要从大量的数据中获取数十亿参数的挑战而研发的MLlib自由向量L-BFGS,它能解决Spark SQL框架中训练集经常产生的数十亿参数问题,演讲中展示了通过自由向量L-BFGS进行逻辑回归来满足真实世界的数据集和需求,并分享了如何将这种方法用于其他的机器学习算法。


c47dc8e2c587ef0dd497d778c135df2796beae58

4515d2cbb202a360c1720b23dc8ff36618fbd28e

d6d77687e58bafa3ac9d7cb1b8bbd41814faf681

9a47a01f292959edd19b457c632fdcf5d6284253

6ba29ddfc70eda7b034e7debbe7c12a6859f199a

063252255a4550ffa959f316c4ee44e0c4f53faf

e43fc097ad951c65623e2391bb84e19a64e9828f

961ff6f7915bf3bb93ceb3edf8510e4b26ef085a

84af2cfeafd648d75836bcc603ffce9bc5df1f10

455059c1e1853d3e43b14571b8a8628b766279bf

a83f397519a27d4c5d02d1baabb2cddd18114dc4

213a90500a1daec0fef92490be1642c8816f6891

e6f67de39606a14134b12b743be82a74fb3666f6

2780b0a64d4ecde145f4b82a3f86a5a0578116fb

a5fae5465ee8ad9365163c2be8740de3d6caee7c


f98673869e3ca51e625da3b84231ab2228c2a4e3

a5c38386b17e5e46694ce856f55051ea7077e9d6

9778865cfe602bb2bf676a76dc59f86693305cb9

f67754041d7462148d684ef20cf5898e29565efe

9c80c93921c5454f37bbacccd11cb5020c381a15

312f6f660a6b8ceaba4b3c580a987960cbcea9e6

c87684c778415c3d4c957a5807d6adafb5ef2d30

81a61469e22ff58d31867422727110c42624589a

8f307b1c1960624140c88d1baad7256caa93d491

76ffe97f94e7c8721621de44078cdce41cc2e119

1da5ecd56f0c1391552989851aa8e163a0391e4c

9db900f66c3d29fd101e92d84d5637c76a13626a

d9e5c9246fdb7cb7037a31bab342c5cd9741be60

32f0d2e06f55b76977b45ff71e6d24b392cd63cd

d7107af785e5567dbfa66404ed9eade688020cb4

2acecb2057ee8a4bb9134e55b924a7dc2e91af59

d92f0eb32a9dd12fa2707911248e67615207365f


f8a3a77e44e90ed404bd81cf8e310d3f915e67c1

4069ad841997506842340114c8aa2006807a8d93

a05728b5f0b7daf128345971b8a9da4605d07291

2883329731d9143a391f4e85c07c9539726cc37f

90d42a1a9df3cc3450aef355f107118e01cb6a22

5a50c75700855feb1978fd456cedf2e75805ad92

41af7fa6a11d689b829c2fab4277cc0e17a5a3c7

28a37ddfbd190828a053992f0d6ca1252bf29478

655aef26f55da9be48299a13d566e2db23871a51

45143218cc5260730052670142a12a1b2c61e672


相关文章
|
2月前
|
分布式计算 大数据 数据处理
Apache Spark:提升大规模数据处理效率的秘籍
【4月更文挑战第7天】本文介绍了Apache Spark的大数据处理优势和核心特性,包括内存计算、RDD、一站式解决方案。分享了Spark实战技巧,如选择部署模式、优化作业执行流程、管理内存与磁盘、Spark SQL优化及监控调优工具的使用。通过这些秘籍,可以提升大规模数据处理效率,发挥Spark在实际项目中的潜力。
108 0
|
2月前
|
机器学习/深度学习 分布式计算 算法
Spark中的机器学习库MLlib是什么?请解释其作用和常用算法。
Spark中的机器学习库MLlib是什么?请解释其作用和常用算法。
71 0
|
1月前
|
分布式计算 大数据 数据处理
Apache Spark在大数据处理中的应用
Apache Spark是大数据处理的热门工具,由AMPLab开发并捐赠给Apache软件基金会。它以内存计算和优化的执行引擎著称,提供比Hadoop更快的处理速度,支持批处理、交互式查询、流处理和机器学习。Spark架构包括Driver、Master、Worker Node和Executor,核心组件有RDD、DataFrame、Dataset、Spark SQL、Spark Streaming、MLlib和GraphX。文章通过代码示例展示了Spark在批处理、交互式查询和实时数据处理中的应用,并讨论了其优势(高性能、易用性、通用性和集成性)和挑战。【6月更文挑战第11天】
63 6
|
1月前
|
分布式计算 Spark 大数据
深入探究Apache Spark在大数据处理中的实践应用
【6月更文挑战第2天】Apache Spark是流行的开源大数据处理框架,以其内存计算速度和低延迟脱颖而出。本文涵盖Spark概述、核心组件(包括Spark Core、SQL、Streaming和MLlib)及其在数据预处理、批处理分析、交互式查询、实时处理和机器学习中的应用。通过理解Spark内部机制和实践应用,可提升大数据处理效率,发挥其在各行业的潜力。
|
2月前
|
测试技术 Apache Windows
如何使用apache的ab压力测试小工具传参数
该内容是关于在Windows环境下使用PHPStudy中的Apache集成的ab工具进行性能测试的简要教程。
49 9
|
1月前
|
消息中间件 分布式计算 关系型数据库
使用Apache Spark从MySQL到Kafka再到HDFS的数据转移
使用Apache Spark从MySQL到Kafka再到HDFS的数据转移
|
2月前
|
分布式计算 Scala Spark
Spark参数解析之MasterArguments
Spark参数解析之MasterArguments
23 0
|
2月前
|
消息中间件 分布式计算 Serverless
CDC一键入湖:当 Apache Hudi DeltaStreamer 遇见 Serverless Spark
CDC一键入湖:当 Apache Hudi DeltaStreamer 遇见 Serverless Spark
83 2
|
2月前
|
机器学习/深度学习 分布式计算 算法
Spark MLlib简介与机器学习流程
Spark MLlib简介与机器学习流程

推荐镜像

更多