【Spark Summit East 2017】将Apache Spark MLlib扩展至十亿级别的参数

简介: 本讲义出自Yanbo Liang在Spark Summit East 2017上的演讲,主要介绍了为了应对像广告点击率预测和神经网络这样的应用程序需要从大量的数据中获取数十亿参数的挑战而研发的MLlib自由向量L-BFGS,它能解决Spark SQL框架中训练集经常产生的数十亿参数问题,演讲中展示了

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Yanbo Liang在Spark Summit East 2017上的演讲,主要介绍了为了应对像广告点击率预测和神经网络这样的应用程序需要从大量的数据中获取数十亿参数的挑战而研发的MLlib自由向量L-BFGS,它能解决Spark SQL框架中训练集经常产生的数十亿参数问题,演讲中展示了通过自由向量L-BFGS进行逻辑回归来满足真实世界的数据集和需求,并分享了如何将这种方法用于其他的机器学习算法。


c47dc8e2c587ef0dd497d778c135df2796beae58

4515d2cbb202a360c1720b23dc8ff36618fbd28e

d6d77687e58bafa3ac9d7cb1b8bbd41814faf681

9a47a01f292959edd19b457c632fdcf5d6284253

6ba29ddfc70eda7b034e7debbe7c12a6859f199a

063252255a4550ffa959f316c4ee44e0c4f53faf

e43fc097ad951c65623e2391bb84e19a64e9828f

961ff6f7915bf3bb93ceb3edf8510e4b26ef085a

84af2cfeafd648d75836bcc603ffce9bc5df1f10

455059c1e1853d3e43b14571b8a8628b766279bf

a83f397519a27d4c5d02d1baabb2cddd18114dc4

213a90500a1daec0fef92490be1642c8816f6891

e6f67de39606a14134b12b743be82a74fb3666f6

2780b0a64d4ecde145f4b82a3f86a5a0578116fb

a5fae5465ee8ad9365163c2be8740de3d6caee7c


f98673869e3ca51e625da3b84231ab2228c2a4e3

a5c38386b17e5e46694ce856f55051ea7077e9d6

9778865cfe602bb2bf676a76dc59f86693305cb9

f67754041d7462148d684ef20cf5898e29565efe

9c80c93921c5454f37bbacccd11cb5020c381a15

312f6f660a6b8ceaba4b3c580a987960cbcea9e6

c87684c778415c3d4c957a5807d6adafb5ef2d30

81a61469e22ff58d31867422727110c42624589a

8f307b1c1960624140c88d1baad7256caa93d491

76ffe97f94e7c8721621de44078cdce41cc2e119

1da5ecd56f0c1391552989851aa8e163a0391e4c

9db900f66c3d29fd101e92d84d5637c76a13626a

d9e5c9246fdb7cb7037a31bab342c5cd9741be60

32f0d2e06f55b76977b45ff71e6d24b392cd63cd

d7107af785e5567dbfa66404ed9eade688020cb4

2acecb2057ee8a4bb9134e55b924a7dc2e91af59

d92f0eb32a9dd12fa2707911248e67615207365f


f8a3a77e44e90ed404bd81cf8e310d3f915e67c1

4069ad841997506842340114c8aa2006807a8d93

a05728b5f0b7daf128345971b8a9da4605d07291

2883329731d9143a391f4e85c07c9539726cc37f

90d42a1a9df3cc3450aef355f107118e01cb6a22

5a50c75700855feb1978fd456cedf2e75805ad92

41af7fa6a11d689b829c2fab4277cc0e17a5a3c7

28a37ddfbd190828a053992f0d6ca1252bf29478

655aef26f55da9be48299a13d566e2db23871a51

45143218cc5260730052670142a12a1b2c61e672


相关文章
|
2月前
|
分布式计算 DataWorks Java
DataWorks产品使用合集之如何引用在spark jar中引用密文的空间参数
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
分布式计算 Scala Spark
Spark参数解析之MasterArguments
Spark参数解析之MasterArguments
36 0
|
分布式计算 Spark
Spark重要参数详解
Spark重要参数详解
93 0
|
存储 SQL JSON
Spark - Task 与 Partition 一一对应与参数详解
使用 spark 读取 parquet 文件,共有 M个 parquet 文件,于是启动了 PExecutor x QCores 进行如下 WordCount 代码测试,其中 P x Q = M 即 Core 数目与 parquet 文件数一一对应。
601 0
Spark - Task 与 Partition 一一对应与参数详解
|
分布式计算 Java 大数据
docker下的spark集群,调整参数榨干硬件
调整docker-compose编排的参数,充分发挥硬件信息能运行spark集群
279 0
docker下的spark集群,调整参数榨干硬件
|
存储 缓存 资源调度
spark-submit 参数设置
spark-submit 参数设置
|
SQL 分布式计算 运维
Hive引擎Spark优化配置参数2
上一篇内容讲了资源参数优化,本篇继续说明spark driver以及spark shuffle相关的参数调优。
1106 0
 Hive引擎Spark优化配置参数2
|
SQL 缓存 分布式计算
Hive引擎Spark优化配置参数1
Hive是大数据领域常用的组件之一,主要是大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点,因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。本文主要描述在底层引擎为Spark时,经常会用到的、常见的配置参数。
2110 0
Hive引擎Spark优化配置参数1
|
SQL 分布式计算 运维
技本功|Hive优化之Spark执行引擎参数调优(二)
影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。 本文主要结合实际业务情况,在使用Spark作为底层引擎时,通过一些常见的配置参数对报错任务进行调整优化,主要包含以下两个方面:
1252 0
技本功|Hive优化之Spark执行引擎参数调优(二)

推荐镜像

更多