【Spark Summit East 2017】将Apache Spark MLlib扩展至十亿级别的参数

简介: 本讲义出自Yanbo Liang在Spark Summit East 2017上的演讲,主要介绍了为了应对像广告点击率预测和神经网络这样的应用程序需要从大量的数据中获取数十亿参数的挑战而研发的MLlib自由向量L-BFGS,它能解决Spark SQL框架中训练集经常产生的数十亿参数问题,演讲中展示了

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Yanbo Liang在Spark Summit East 2017上的演讲,主要介绍了为了应对像广告点击率预测和神经网络这样的应用程序需要从大量的数据中获取数十亿参数的挑战而研发的MLlib自由向量L-BFGS,它能解决Spark SQL框架中训练集经常产生的数十亿参数问题,演讲中展示了通过自由向量L-BFGS进行逻辑回归来满足真实世界的数据集和需求,并分享了如何将这种方法用于其他的机器学习算法。


c47dc8e2c587ef0dd497d778c135df2796beae58

4515d2cbb202a360c1720b23dc8ff36618fbd28e

d6d77687e58bafa3ac9d7cb1b8bbd41814faf681

9a47a01f292959edd19b457c632fdcf5d6284253

6ba29ddfc70eda7b034e7debbe7c12a6859f199a

063252255a4550ffa959f316c4ee44e0c4f53faf

e43fc097ad951c65623e2391bb84e19a64e9828f

961ff6f7915bf3bb93ceb3edf8510e4b26ef085a

84af2cfeafd648d75836bcc603ffce9bc5df1f10

455059c1e1853d3e43b14571b8a8628b766279bf

a83f397519a27d4c5d02d1baabb2cddd18114dc4

213a90500a1daec0fef92490be1642c8816f6891

e6f67de39606a14134b12b743be82a74fb3666f6

2780b0a64d4ecde145f4b82a3f86a5a0578116fb

a5fae5465ee8ad9365163c2be8740de3d6caee7c


f98673869e3ca51e625da3b84231ab2228c2a4e3

a5c38386b17e5e46694ce856f55051ea7077e9d6

9778865cfe602bb2bf676a76dc59f86693305cb9

f67754041d7462148d684ef20cf5898e29565efe

9c80c93921c5454f37bbacccd11cb5020c381a15

312f6f660a6b8ceaba4b3c580a987960cbcea9e6

c87684c778415c3d4c957a5807d6adafb5ef2d30

81a61469e22ff58d31867422727110c42624589a

8f307b1c1960624140c88d1baad7256caa93d491

76ffe97f94e7c8721621de44078cdce41cc2e119

1da5ecd56f0c1391552989851aa8e163a0391e4c

9db900f66c3d29fd101e92d84d5637c76a13626a

d9e5c9246fdb7cb7037a31bab342c5cd9741be60

32f0d2e06f55b76977b45ff71e6d24b392cd63cd

d7107af785e5567dbfa66404ed9eade688020cb4

2acecb2057ee8a4bb9134e55b924a7dc2e91af59

d92f0eb32a9dd12fa2707911248e67615207365f


f8a3a77e44e90ed404bd81cf8e310d3f915e67c1

4069ad841997506842340114c8aa2006807a8d93

a05728b5f0b7daf128345971b8a9da4605d07291

2883329731d9143a391f4e85c07c9539726cc37f

90d42a1a9df3cc3450aef355f107118e01cb6a22

5a50c75700855feb1978fd456cedf2e75805ad92

41af7fa6a11d689b829c2fab4277cc0e17a5a3c7

28a37ddfbd190828a053992f0d6ca1252bf29478

655aef26f55da9be48299a13d566e2db23871a51

45143218cc5260730052670142a12a1b2c61e672


相关文章
|
机器学习/深度学习 存储 分布式计算
Hadoop生态系统中的机器学习与数据挖掘技术:Apache Mahout和Apache Spark MLlib的应用
Hadoop生态系统中的机器学习与数据挖掘技术:Apache Mahout和Apache Spark MLlib的应用
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
|
机器学习/深度学习 人工智能 分布式计算
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
|
分布式计算 Prometheus Kubernetes
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
|
3月前
|
存储 消息中间件 Java
Apache Flink 实践问题之原生TM UI日志问题如何解决
Apache Flink 实践问题之原生TM UI日志问题如何解决
44 1
|
21天前
|
SQL Java API
Apache Flink 2.0-preview released
Apache Flink 社区正积极筹备 Flink 2.0 的发布,这是自 Flink 1.0 发布以来的首个重大更新。Flink 2.0 将引入多项激动人心的功能和改进,包括存算分离状态管理、物化表、批作业自适应执行等,同时也包含了一些不兼容的变更。目前提供的预览版旨在让用户提前尝试新功能并收集反馈,但不建议在生产环境中使用。
514 13
Apache Flink 2.0-preview released
|
26天前
|
存储 缓存 算法
分布式锁服务深度解析:以Apache Flink的Checkpointing机制为例
【10月更文挑战第7天】在分布式系统中,多个进程或节点可能需要同时访问和操作共享资源。为了确保数据的一致性和系统的稳定性,我们需要一种机制来协调这些进程或节点的访问,避免并发冲突和竞态条件。分布式锁服务正是为此而生的一种解决方案。它通过在网络环境中实现锁机制,确保同一时间只有一个进程或节点能够访问和操作共享资源。
59 3
|
2月前
|
SQL 消息中间件 关系型数据库
Apache Doris Flink Connector 24.0.0 版本正式发布
该版本新增了对 Flink 1.20 的支持,并支持通过 Arrow Flight SQL 高速读取 Doris 中数据。
|
3月前
|
消息中间件 监控 数据挖掘
基于RabbitMQ与Apache Flink构建实时分析系统
【8月更文第28天】本文将介绍如何利用RabbitMQ作为数据源,结合Apache Flink进行实时数据分析。我们将构建一个简单的实时分析系统,该系统能够接收来自不同来源的数据,对数据进行实时处理,并将结果输出到另一个队列或存储系统中。
205 2

推荐镜像

更多