文档备案控制台

开发者社区大数据文章正文

Intel 开源 BigDL，基于 Spark 的深度学习库

2017-06-06 1592

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

近日，Intel 开源了 BigDL，这是一个基于 Apache Spark 的分布式深度学习库。使用 BigDL ，用户可以将他们的深度学习应用程序作为标准的 Spark 程序，它可以直接运行在现有的 Spark 或 Hadoop 集群之上。

特性：

丰富的深度学习支持。BigDL 模仿 Torch，提供对深度学习的全方位支持，包括数值计算（通过Tensor）和高层次神经网络。此外，用户可以使用 BigDL 将预训练的 Caffe 或 Torch 模型加载到 Spark 程序中。

极其高的性能。为了达到高性能，BigDL 在每个 Spark 任务中使用 Intel MKL和多线程编程。因此，它比单节点 Xeon 上的开箱即用的 Caffe、Torch 或 TensorFlow 快几个数量级。

有效地横向扩展。 BigDL 可以通过利用 Apache Spark 以及高效实施同步 SGD，全面减少 Spark 上的通信，有效地向外扩展，以“大数据规模”执行数据分析。

使用场景：

你想要在在大数据云（Hadoop/Spark）分析（存储在如 HDFS、HBase、Hive上的）海量数据。

你想向你的大数据（Spark）程序和/或工作流添加深度学习功能（训练或者预测）。

你想利用已有的 Hadoop/Spark 集群来运行深度学习程序，然后可以与其他工作负载动态共享（例如，ETL、数据仓库、功能引擎、经典机器学习、图像分析等）。

文章转载自开源中国社区 [http://www.oschina.net]

文章标签：

分布式计算

机器学习/深度学习

Spark

Apache

大数据

算法框架/工具

SQL

Caffe

Hadoop

HIVE

关键词：

apache spark开源

开源深度学习

开源apache spark

深度学习库

深度学习开源

boxti

目录

相关文章

青欢

|

机器学习/深度学习人工智能 TensorFlow

TensorFlow 是一个由 Google 开发的开源深度学习框架

TensorFlow 是一个由 Google 开发的开源深度学习框架

青欢

487 3 3

蚝油菜花

|

机器学习/深度学习存储人工智能

MNN：阿里开源的轻量级深度学习推理框架，支持在移动端等多种终端上运行，兼容主流的模型格式

MNN 是阿里巴巴开源的轻量级深度学习推理框架，支持多种设备和主流模型格式，具备高性能和易用性，适用于移动端、服务器和嵌入式设备。

蚝油菜花

4275 18 18

MNN：阿里开源的轻量级深度学习推理框架，支持在移动端等多种终端上运行，兼容主流的模型格式

东方睿赢

|

机器学习/深度学习数据采集数据可视化

TensorFlow，一款由谷歌开发的开源深度学习框架，详细讲解了使用 TensorFlow 构建深度学习模型的步骤

本文介绍了 TensorFlow，一款由谷歌开发的开源深度学习框架，详细讲解了使用 TensorFlow 构建深度学习模型的步骤，包括数据准备、模型定义、损失函数与优化器选择、模型训练与评估、模型保存与部署，并展示了构建全连接神经网络的具体示例。此外，还探讨了 TensorFlow 的高级特性，如自动微分、模型可视化和分布式训练，以及其在未来的发展前景。

东方睿赢

1194 5 5

楠竹11

|

机器学习/深度学习算法编译器

Python程序到计算图一键转化，详解清华开源深度学习编译器MagPy

【10月更文挑战第26天】MagPy是一款由清华大学研发的开源深度学习编译器，可将Python程序一键转化为计算图，简化模型构建和优化过程。它支持多种深度学习框架，具备自动化、灵活性、优化性能好和易于扩展等特点，适用于模型构建、迁移、部署及教学研究。尽管MagPy具有诸多优势，但在算子支持、优化策略等方面仍面临挑战。

楠竹11

916 3 3

Echo_Wish

|

机器学习/深度学习运维安全

深度学习在安全事件检测中的应用：守护数字世界的利器

深度学习在安全事件检测中的应用：守护数字世界的利器

Echo_Wish

602 22 22

Echo_Wish

|

机器学习/深度学习传感器数据采集

深度学习在故障检测中的应用：从理论到实践

深度学习在故障检测中的应用：从理论到实践

Echo_Wish

1428 6 6

强了一点

|

机器学习/深度学习编解码人工智能

计算机视觉五大技术——深度学习在图像处理中的应用

深度学习利用多层神经网络实现人工智能，计算机视觉是其重要应用之一。图像分类通过卷积神经网络（CNN）判断图片类别，如“猫”或“狗”。目标检测不仅识别物体，还确定其位置，R-CNN系列模型逐步优化检测速度与精度。语义分割对图像每个像素分类，FCN开创像素级分类范式，DeepLab等进一步提升细节表现。实例分割结合目标检测与语义分割，Mask R-CNN实现精准实例区分。关键点检测用于人体姿态估计、人脸特征识别等，OpenPose和HRNet等技术推动该领域发展。这些方法在效率与准确性上不断进步，广泛应用于实际场景。

强了一点

1622 64 65

计算机视觉五大技术——深度学习在图像处理中的应用

Echo_Wish

|

机器学习/深度学习人工智能运维

深度学习在流量监控中的革命性应用

深度学习在流量监控中的革命性应用

Echo_Wish

543 40 40

Echo_Wish

|

机器学习/深度学习运维资源调度

深度学习在资源利用率优化中的应用：让服务器更聪明

深度学习在资源利用率优化中的应用：让服务器更聪明

Echo_Wish

731 6 7

奔跑的数据

|

机器学习/深度学习数据采集存储

深度学习在DOM解析中的应用：自动识别页面关键内容区块

本文探讨了如何通过深度学习模型优化东方财富吧财经新闻爬虫的性能。针对网络请求、DOM解析与模型推理等瓶颈，采用代理复用、批量推理、多线程并发及模型量化等策略，将单页耗时从5秒优化至2秒，提升60%以上。代码示例涵盖代理配置、TFLite模型加载、批量预测及多线程抓取，确保高效稳定运行，为大规模数据采集提供参考。

奔跑的数据

506 0 0

热门文章

最新文章

撒花！《神经网络与深度学习》中文教程正式开源！全书 pdf、ppt 和代码一同放出

炎炎夏日适合在屋里学习深度学习

揭秘深度学习中的自注意力机制及其在Transformer模型中的应用

【技术白皮书】第一章：OCR智能文字识别新发展——深度学习的文本信息抽取

深度学习实践篇[17]：模型压缩技术、模型蒸馏算法：Patient-KD、DistilBERT、DynaBERT、TinyBERT

深度学习论文阅读（四）：GoogLeNet《Going Deeper with Convolutions》

机器学习和深度学习之间的区别

TensorFlow与GPU加速：提升深度学习性能

阿里云PAI：一站式AI研发平台，引领深度学习潮流

深度学习笔记(六):如何运用梯度下降法来解决线性回归问题

Linux环境下 java程序提交spark任务到Yarn报错

Kubeflow-Spark-Operator-架构学习指南

阿里云 EMR Serverless Spark：面向 Data+AI 的高性能 Lakehouse 产品

springboot项目集成dolphinscheduler调度器可拖拽spark任务管理

Spark SQL架构及高级用法

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

一体系数据平台的进化：基于阿里云 EMR Serverless Spark 的持续演进

Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

3 秒音频也能克隆？拆解 Spark-TTS 架构的极致小样本学习

从InfluxDB到StarRocks：Grab实现Spark监控平台10倍性能提升

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

深度学习与自动驾驶

大数据实时计算框架Spark快速入门

相关电子书

更多

深度学习的最新进展

搜狗深度学习技术在广告推荐领域的应用

# Apache Spark系列技术直播# 第八讲【微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践】

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！