BigDL:Apache Spark 上的分布式深度学习库

简介: BigDL是 Apache Spark 的分布式深度学习库;使用 BigDL,用户可以将他们的深度学习应用程序编写为标准 Spark 程序,这些程序可以直接运行在现有的 Spark 或 Hadoop 集群之上。为了轻松构建 Spark 和 BigDL 应用程序,为端到端分析 + AI 管道提供了高级Analytics Zoo。

image.png

BigDL:Apache Spark 上的分散学习

什么是BigDL?

BigDL是Apache的火花的分布式深度学习库; 。使用BigDL,用户可以将他们的深度学习应用程序编写为标准火花程序,这些程序可以直接运行在现有的火花或Hadoop的之上集群为了轻松构建火花和BigDL应用程序,为端到端分析+ AI提供管道了高级分析动物园

  • 深度学习支持。Torch为模型,BigDL为深度学习提供全面支持,包括计算计算(通过Tensor)和高级神经网络;此外,用户使用BigDL将预训练的CaffeTorch模型加载到Spark程序中。
  • 极高的性能。为了实现高性能,BigDL在每个火花中任务使用英特尔MKL /英特尔MKL-DNN和多线程编程。因此,比它单节点至强的上开箱即用开源来自Caffe火炬TensorFlow数量几个级(即与主流GPU相当)。通过采用英特尔DL升压,BigDL显着改善了推理延迟和吞吐量。
  • 有效地横向扩展。BigDL 可以通过利用Apache(粒子规模快速的应用数据处理框架)以及在 Spark 上高效实现同步 SGD 和全缩减通信,有效地横向扩展以 Spark 执行“大数据规模”的数据分析。

为什么是BigDL?

在以下情况下,您可能希望使用 BigDL 写深度学习程序:

  • 您想在存储数据存储的同一个大数据(Hadoop/Spark)集群上分析大量数据(例如,在 HDFS、HBase、Hive 等中)。
  • 您想将深度学习功能(训练或预测)添加到您的大数据(Spark)程序和/或工作流中。
  • 您希望利用现有的 Hadoop/Spark 集群来运行您的学习应用程序,然后与其他学习应用程序,例如ETL、数据挖掘、特征工程、经典机器学习、图形分析等)动态共享这些应用程序。

如何使用 BigDL?

相关文章
|
2月前
|
消息中间件 Kafka Apache
Apache Flink 是一个开源的分布式流处理框架
Apache Flink 是一个开源的分布式流处理框架
482 5
|
14天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
7月前
|
SQL 分布式计算 数据库连接
大数据Spark分布式SQL引擎
大数据Spark分布式SQL引擎
217 0
|
3月前
|
分布式计算 大数据 数据处理
Spark RDD(弹性分布式数据集)
Spark RDD(弹性分布式数据集)
|
3月前
|
分布式计算 算法 数据挖掘
Spark中的图计算库GraphX是什么?请解释其作用和常用操作。
Spark中的图计算库GraphX是什么?请解释其作用和常用操作。
36 1
|
3月前
|
监控 安全 Apache
Apache ZooKeeper - 使用ZK实现分布式锁(非公平锁/公平锁/共享锁 )
Apache ZooKeeper - 使用ZK实现分布式锁(非公平锁/公平锁/共享锁 )
88 1
|
3月前
|
SQL 关系型数据库 Apache
Flink CDC 是一个基于 Apache Flink 的开源库
Flink CDC 是一个基于 Apache Flink 的开源库
69 7
|
4月前
|
SQL 分布式计算 Java
Note_Spark_Day08:Spark SQL(Dataset是什么、外部数据源、UDF定义和分布式SQL引擎)
Note_Spark_Day08:Spark SQL(Dataset是什么、外部数据源、UDF定义和分布式SQL引擎)
46 0
|
4月前
|
缓存 分布式计算 关系型数据库
Spark案例库V1.0版
Spark案例库V1.0版
27 0
|
4月前
|
分布式计算 并行计算 Hadoop
【云计算与大数据计算】分布式处理CPU多核、MPI并行计算、Hadoop、Spark的简介(超详细)
【云计算与大数据计算】分布式处理CPU多核、MPI并行计算、Hadoop、Spark的简介(超详细)
103 0

推荐镜像

更多