BigDL:Apache Spark 上的分散学习
什么是BigDL?
BigDL是Apache的火花的分布式深度学习库; 。使用BigDL,用户可以将他们的深度学习应用程序编写为标准火花程序,这些程序可以直接运行在现有的火花或Hadoop的之上集群为了轻松构建火花和BigDL应用程序,为端到端分析+ AI提供管道了高级分析动物园。
- 深度学习支持。以Torch为模型,BigDL为深度学习提供全面支持,包括计算计算(通过Tensor)和高级神经网络;此外,用户使用BigDL将预训练的Caffe或Torch模型加载到Spark程序中。
- 极高的性能。为了实现高性能,BigDL在每个火花中任务使用英特尔MKL /英特尔MKL-DNN和多线程编程。因此,比它单节点至强的上开箱即用开源来自Caffe,火炬或TensorFlow快数量几个级(即与主流GPU相当)。通过采用英特尔DL升压,BigDL显着改善了推理延迟和吞吐量。
- 有效地横向扩展。BigDL 可以通过利用Apache(粒子规模快速的应用数据处理框架)以及在 Spark 上高效实现同步 SGD 和全缩减通信,有效地横向扩展以 Spark 执行“大数据规模”的数据分析。
为什么是BigDL?
在以下情况下,您可能希望使用 BigDL 写深度学习程序:
- 您想在存储数据存储的同一个大数据(Hadoop/Spark)集群上分析大量数据(例如,在 HDFS、HBase、Hive 等中)。
- 您想将深度学习功能(训练或预测)添加到您的大数据(Spark)程序和/或工作流中。
- 您希望利用现有的 Hadoop/Spark 集群来运行您的学习应用程序,然后与其他学习应用程序,例如ETL、数据挖掘、特征工程、经典机器学习、图形分析等)动态共享这些应用程序。
如何使用 BigDL?
- BigDL的技术概述请参考BigDL出版
- 更多信息可以在BigDL项目网站上找到:
https://bigdl-project.github.io/
特别是,您可以查看入门页面以快速了解如何使用BigDL - 关于BigDL(使用Python)的分步深入学习教程,您可以查看BigDL教程项目
- 您可以加入BigDL Google Group(或订阅邮件列表)以获取更多关于 BigDL 的问题和讨论
- 您可以在问题页面上发布错误报告和功能请求
- 您可以参考Analytics Zoo了解Spark和BigDL 上的高级管道API、内置深度学习模型、参考案例等