【Spark Summit East 2017】将Apache Spark MLlib扩展至十亿级别的参数

简介: 本讲义出自Yanbo Liang在Spark Summit East 2017上的演讲,主要介绍了为了应对像广告点击率预测和神经网络这样的应用程序需要从大量的数据中获取数十亿参数的挑战而研发的MLlib自由向量L-BFGS,它能解决Spark SQL框架中训练集经常产生的数十亿参数问题,演讲中展示了

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Yanbo Liang在Spark Summit East 2017上的演讲,主要介绍了为了应对像广告点击率预测和神经网络这样的应用程序需要从大量的数据中获取数十亿参数的挑战而研发的MLlib自由向量L-BFGS,它能解决Spark SQL框架中训练集经常产生的数十亿参数问题,演讲中展示了通过自由向量L-BFGS进行逻辑回归来满足真实世界的数据集和需求,并分享了如何将这种方法用于其他的机器学习算法。


c47dc8e2c587ef0dd497d778c135df2796beae58

4515d2cbb202a360c1720b23dc8ff36618fbd28e

d6d77687e58bafa3ac9d7cb1b8bbd41814faf681

9a47a01f292959edd19b457c632fdcf5d6284253

6ba29ddfc70eda7b034e7debbe7c12a6859f199a

063252255a4550ffa959f316c4ee44e0c4f53faf

e43fc097ad951c65623e2391bb84e19a64e9828f

961ff6f7915bf3bb93ceb3edf8510e4b26ef085a

84af2cfeafd648d75836bcc603ffce9bc5df1f10

455059c1e1853d3e43b14571b8a8628b766279bf

a83f397519a27d4c5d02d1baabb2cddd18114dc4

213a90500a1daec0fef92490be1642c8816f6891

e6f67de39606a14134b12b743be82a74fb3666f6

2780b0a64d4ecde145f4b82a3f86a5a0578116fb

a5fae5465ee8ad9365163c2be8740de3d6caee7c


f98673869e3ca51e625da3b84231ab2228c2a4e3

a5c38386b17e5e46694ce856f55051ea7077e9d6

9778865cfe602bb2bf676a76dc59f86693305cb9

f67754041d7462148d684ef20cf5898e29565efe

9c80c93921c5454f37bbacccd11cb5020c381a15

312f6f660a6b8ceaba4b3c580a987960cbcea9e6

c87684c778415c3d4c957a5807d6adafb5ef2d30

81a61469e22ff58d31867422727110c42624589a

8f307b1c1960624140c88d1baad7256caa93d491

76ffe97f94e7c8721621de44078cdce41cc2e119

1da5ecd56f0c1391552989851aa8e163a0391e4c

9db900f66c3d29fd101e92d84d5637c76a13626a

d9e5c9246fdb7cb7037a31bab342c5cd9741be60

32f0d2e06f55b76977b45ff71e6d24b392cd63cd

d7107af785e5567dbfa66404ed9eade688020cb4

2acecb2057ee8a4bb9134e55b924a7dc2e91af59

d92f0eb32a9dd12fa2707911248e67615207365f


f8a3a77e44e90ed404bd81cf8e310d3f915e67c1

4069ad841997506842340114c8aa2006807a8d93

a05728b5f0b7daf128345971b8a9da4605d07291

2883329731d9143a391f4e85c07c9539726cc37f

90d42a1a9df3cc3450aef355f107118e01cb6a22

5a50c75700855feb1978fd456cedf2e75805ad92

41af7fa6a11d689b829c2fab4277cc0e17a5a3c7

28a37ddfbd190828a053992f0d6ca1252bf29478

655aef26f55da9be48299a13d566e2db23871a51

45143218cc5260730052670142a12a1b2c61e672


相关文章
|
2月前
|
分布式计算 大数据 Apache
利用.NET进行大数据处理:Apache Spark与.NET for Apache Spark
【10月更文挑战第15天】随着大数据成为企业决策和技术创新的关键驱动力,Apache Spark作为高效的大数据处理引擎,广受青睐。然而,.NET开发者面临使用Spark的门槛。本文介绍.NET for Apache Spark,展示如何通过C#和F#等.NET语言,结合Spark的强大功能进行大数据处理,简化开发流程并提升效率。示例代码演示了读取CSV文件及统计分析的基本操作,突显了.NET for Apache Spark的易用性和强大功能。
65 1
|
5月前
|
分布式计算 大数据 Spark
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
《Spark大数据处理:技术、应用与性能优化》深入浅出介绍Spark核心,涵盖部署、实战与性能调优,适合初学者。作者基于微软和IBM经验,解析Spark工作机制,探讨BDAS生态,提供实践案例,助力快速掌握。书中亦讨论性能优化策略。[PDF下载链接](https://zhangfeidezhu.com/?p=347)。![Spark Web UI](https://img-blog.csdnimg.cn/direct/16aaadbb4e13410f8cb2727c3786cc9e.png#pic_center)
165 1
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
|
4月前
|
分布式计算 Hadoop 大数据
大数据处理框架在零售业的应用:Apache Hadoop与Apache Spark
【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持
78 0
|
4月前
|
分布式计算 DataWorks Java
DataWorks产品使用合集之如何引用在spark jar中引用密文的空间参数
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
分布式计算 Serverless 数据处理
EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务
Apache Airflow 是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务,以实现任务调度和执行的自动化,帮助您更有效地管理数据处理任务。
235 0
|
5月前
|
分布式计算 Apache Spark
|
16天前
|
存储 人工智能 大数据
The Past, Present and Future of Apache Flink
本文整理自阿里云开源大数据负责人王峰(莫问)在 Flink Forward Asia 2024 上海站主论坛开场的分享,今年正值 Flink 开源项目诞生的第 10 周年,借此时机,王峰回顾了 Flink 在过去 10 年的发展历程以及 Flink社区当前最新的技术成果,最后展望下一个十年 Flink 路向何方。
303 33
The Past, Present and Future of Apache Flink
|
2月前
|
SQL Java API
Apache Flink 2.0-preview released
Apache Flink 社区正积极筹备 Flink 2.0 的发布,这是自 Flink 1.0 发布以来的首个重大更新。Flink 2.0 将引入多项激动人心的功能和改进,包括存算分离状态管理、物化表、批作业自适应执行等,同时也包含了一些不兼容的变更。目前提供的预览版旨在让用户提前尝试新功能并收集反馈,但不建议在生产环境中使用。
860 13
Apache Flink 2.0-preview released
|
2月前
|
存储 缓存 算法
分布式锁服务深度解析:以Apache Flink的Checkpointing机制为例
【10月更文挑战第7天】在分布式系统中,多个进程或节点可能需要同时访问和操作共享资源。为了确保数据的一致性和系统的稳定性,我们需要一种机制来协调这些进程或节点的访问,避免并发冲突和竞态条件。分布式锁服务正是为此而生的一种解决方案。它通过在网络环境中实现锁机制,确保同一时间只有一个进程或节点能够访问和操作共享资源。
101 3
|
3月前
|
SQL 消息中间件 关系型数据库
Apache Doris Flink Connector 24.0.0 版本正式发布
该版本新增了对 Flink 1.20 的支持,并支持通过 Arrow Flight SQL 高速读取 Doris 中数据。

推荐镜像

更多