一个伟大愿景:让深度学习更简单

简介: 文章简要概述了一个深度学习的开源库,文末有这个开源库的地址。

更多深度文章,请关注:https://yq.aliyun.com/cloud


15年前推出MapReduce时,它展示了整个世界对于未来的不屑一瞥。硅谷科技公司的工程师第一次可以分析整个互联网。然而,MapReduce提供了非常低级API,结果使这个超级力量成为了奢侈品,只有极少数的高学历的,有很多资源的工程师才可以使用它。

今天,深度学习已经达到了“MapReduce”当时的地位:它已经显示出了很大潜力,它是人工智能的超级力量。它的力量在过去的几年创造的价值很让人吃惊,例如:自动驾驶汽车和AlphaGo这些都被认为是奇迹。

然而,今天利用深度学习的超级力量与过去的大数据一样具有挑战性。深度学习框架由于低级API而具有陡峭的“学习曲线” 扩展分布式硬件需要大量的人工工作即使是大量的时间和资源的结合,深度学习实现成功也需要繁琐的工作和实验参数。因此深度学习也通常被称为黑魔法

七年前,我们开始了一个Spark项目,其目标是通过提供高级API和统一的引擎来实现机器学习,ETL,流式传输和交互式SQL,从而实现大众化大数据的超级力量的目标。今天,Apache Spark已经为软件工程师们及SQL分析师们都提供了大量数据。

继续这个民主化的愿景,我们很高兴地宣布深度学习管道,这是一个新的开源库,旨在使每个人都能轻松地将可扩展的深度学习整合到他们的工作流程中,使他们能从机器学习从业者过渡到商业分析师,真正的将技术应用于实际生活中。

深度学习管道基于Apache SparkML管道培训,并使用Spark DataFramesSQL部署模型。它包括用于深度学习的常见的高级API,因此有些功能可以在几行代码中高效地完成,比如说:

·    图像加载(Image loading

·    Spark ML管道中应用预先训练的模型(Apply pre-trained models as transformers in a Spark ML pipeline)

·    迁移学习(Transfer learning

·    分布式超参数调优(Distributed hyperparameter tuning

·    DataFramesSQL中部署模型

接下来,我们通过实例详细描述这些功能。要在Databricks上尝试这些和更多的例子,请查看笔记本深度学习流水线在数据库中

图像加载(Image loading

在图像上应用深度学习的第一步是加载图像的能力。深度学习管道包括可以将数百万图像加载到DataFrame中的实用程序功能,并以分布式方式自动解码它们,从而允许进行大规模操作。

df = imageIO.readImages("/data/myimages")

我们还正在努力增加对更多数据类型的支持,如文本和时间序列。

应用可预测的预训练模型(Applying Pre-trained Models for Scalable Prediction

深度学习管道支持以分布式的方式运行预训练的模型,可用于批量和流式数据处理。它包含了一些最受欢迎的模型,使用户在不需要花费昂贵的培训模型的前提下,能够直接开始深度学习。例如,以下代码使用InceptionV3创建一个Spark预测流水线,InceptionV3是用于图像分类的最先进的卷积神经网络(CNN)模型,并且预测了我们刚加载的图像中是什么样的对象。当然,这个预测是利用Spark一起完成的。


from sparkdl import readImages, DeepImagePredictor
    predictor = DeepImagePredictor(inputCol="image", outputCol="predicted_labels", modelName="InceptionV3")
    predictions_df = predictor.transform(df)


除了使用已经创建好的模型,用户还可以在Spark预测管道中插Keras 模型和TensorFlow Graphs。这可以将单节点工具上的任何单节点模型转换成可以分布式应用在大量数据的单节点模型。

在数据库统一分析平台上,如果选择基于GPU的集群,计算密集型部分将自动运行在GPU上,以获得最佳效率。

迁移学习(Transfer learning

预先训练的模型在适合手头任务时非常有用,但通常不会针对用户正在处理的特定数据集进行优化。例如,InceptionV3是针对广泛的1000个类别进行图像分类优化的模型,但我们的域可能是狗种分类。一种常用的深度学习技术是迁移学习,它使针对类似任务训练的模型适应于手头的任务。同从初级培训新模式相比,迁移学习需要大幅度的减少数据和资源。这就是为什么迁移学习已经成为许多现实世界的用例,如癌症检测方法b6470870efec5c81c24307b62b4a7f02164828c2

深度学习管道可以快速转移学习与Featurizer的概念。以下示例结合了Spark中的InceptionV3模型和逻辑回归,以将InceptionV3适配到我们的特定域。DeepImageFeaturizer自动剥离预先训练的神经网络的最后一层,并使用所有以前层的输出作为逻辑回归算法的特征。由于逻辑回归算法是一种简单而快速的算法,所以这种迁移学习训练可以快速收敛,而不需要通过培训远程学习模型所需的图像。

 

from sparkdl import DeepImageFeaturizer 
from pyspark.ml.classification import LogisticRegression
featurizer = DeepImageFeaturizer(modelName="InceptionV3")
lr = LogisticRegression()
p = Pipeline(stages=[featurizer, lr]) 
# train_images_df = ... # load a dataset of images and labels
model = p.fit(train_images_df)


分布式超参数调优(Distributed hyperparameter tuning

在深度学习中获得最佳结果需要对培训参数进行不同的测试,这是一个超参数调优的重要步骤。由于深度学习管道可以将深度学习培训作为Spark的机器学习流程中的一步,因此用户可以依靠已经内置到Spark中的超参数调优基础架构。

7328e159c0804fef3b304a373b5fa8df95470b4a

以下代码插入到Keras Estimator中,并使用具有交叉验证的网格搜索来执行超参数调整:

 

myEstimator = KerasImageFileEstimator(inputCol='input',
                    outputCol='output',
                    modelFile='/my_models/model.h5',
                    imageLoader=_loadProcessKeras)
kerasParams1 = {'batch_size':10, epochs:10}
kerasParams2 = {'batch_size':5, epochs:20}
myParamMaps =
  ParamGridBuilder() \
    .addGrid(myEstimator.kerasParams, [kerasParams1, kerasParams2]) \
    .build() 
cv = CrossValidator(myEstimator, myEvaluator, myParamMaps)
cvModel = cv.fit()
kerasTransformer = cvModel.bestModel  # of type KerasTransformer


SQL中部署模型(Deploying Models in SQL

一旦数据科学家建立了所需的模型,深度学习管道就可以将其作为SQL中的一个功能,所以组织中的任何人都可以使用它 - 数据工程师,数据科学家,业务分析师,任何人。

sparkdl.registerKerasUDF("img_classify", "/mymodels/dogmodel.h5")

接下来,组织中的任何用户都可以在SQL中应用预测:

 

SELECT image, img_classify(image) label FROM images 
WHERE contains(label, “Chihuahua”)

所有支持的语言(PythonScalaJavaR)中的DataFrame编程API中也提供了类似的功能。与可扩展预测类似,此功能可以在批量和结构化流中使用

结论:

在这篇博文中,我们介绍了深层学习管道,这是一个新的图书馆,使深度学习更加容易使用和扩展。虽然这只是一个开始,我们认为深度学习管道有潜力完成Spark所完成的工作:使深度学习的超级力量对每个人都是触手可得的。

系列中的未来帖子将更详细地介绍图书馆中的各种工具,比如说:大规模的图像处理,迁移学习,大规模预测,以及在SQL中进行深度学习。

要了解有关该库的更多信息,请查看Databricks笔记本以及github仓库。我们希望您能给我们反馈。或者,作为贡献者,并帮助将可扩展的深度学习的超级力量带给每个人。

超级福利:免费试用DATABRICKS 

本文由北邮@爱可可-爱生活老师推荐,阿里云云栖社区组织翻译。
文章原标题《A Vision for Making Deep Learning Simple From Machine Learning Practitioners to Business Analysts》,

作者: Sue Ann HongTim Hunter and Reynold Xin ,译者:袁虎,审阅:我是主题曲哥哥 

文章为简译,更为详细的内容,请查看原文

相关文章
|
6天前
|
机器学习/深度学习 存储 人工智能
基于深度学习的认知架构的AI
基于深度学习的认知架构的AI是一类模仿人类认知过程的人工智能系统,旨在模拟人类感知、学习、推理、决策等复杂的认知功能。认知架构的目的是创建一个能够理解和处理复杂环境、实现自我学习和适应的AI系统
20 3
|
27天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能的未来:深度学习的突破与挑战
【8月更文挑战第17天】本文将深入探讨人工智能的一个关键分支——深度学习,揭示其背后的原理、当前的研究热点以及未来可能遇到的挑战。我们将从深度学习的基础概念出发,逐步展开讨论,最后提出一个开放性问题,引发读者对未来技术发展的思考。
38 12
WK
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习的特点及未来发展趋势
深度学习是人工智能关键技术,通过多层神经网络自动学习数据特征,尤其擅长处理高维复杂信息。其核心在于多层结构、自动特征提取、强大的非线性表征能力和数据驱动特性。已在计算机视觉、自然语言处理、语音识别等领域取得突破,如CNN在图像识别上的应用,RNN在文本分析中的表现。未来,深度学习将持续拓展应用范围,同时面临提高模型可解释性和保障数据安全等挑战。
WK
23 1
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能的未来:深度学习的新篇章
【8月更文挑战第23天】在人工智能的宏伟蓝图中,深度学习技术如同一颗璀璨的星辰,引领着科技的潮流。本文旨在揭示深度学习的发展趋势,探讨其在各行各业中的应用前景,并分析面临的挑战与机遇。我们将一同见证这一技术如何塑造未来世界,开启智能时代的新篇章。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能的未来:机器学习与深度学习的融合之路
【7月更文挑战第29天】随着科技的不断进步,人工智能领域正迎来前所未有的发展机遇。本文将深入探讨机器学习与深度学习这两大技术支柱如何相互促进,共同推动人工智能向更高层次发展。通过分析当前的研究趋势和技术挑战,我们将描绘出一个更加智能、互联的未来图景。
52 3
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习的突破与挑战:探索未来技术前沿
本文深入探讨了深度学习领域的最新进展、面临的主要挑战以及未来的发展趋势。文章首先介绍了深度学习的基本概念和应用领域,然后详细分析了当前深度学习技术的关键问题,包括数据依赖性、模型泛化能力、计算资源需求等。最后,文章展望了深度学习的未来发展方向,如模型可解释性、小样本学习、跨模态学习等,旨在为读者提供对深度学习领域全面而深入的理解。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习与自然语言处理:未来的创新与挑战
在当今快速发展的技术时代,深度学习作为人工智能的关键分支,对自然语言处理领域带来了革命性的变化。本文探讨了深度学习技术在自然语言处理中的应用现状,分析了其未来的创新潜力和面临的挑战,旨在为读者提供对这一前沿领域的深入理解。
35 0
|
4月前
|
机器学习/深度学习 存储 人工智能
深度学习的发展趋势是什么?
【5月更文挑战第11天】深度学习的发展趋势是什么?
79 1
|
4月前
|
机器学习/深度学习 自然语言处理 知识图谱
探索深度学习中的迁移学习:知识融合与创新应用
迁移学习在深度学习领域中扮演着重要角色,但其应用依然充满挑战与机遇。本文从知识融合和创新应用两个方面探讨迁移学习的发展趋势与前景,通过深入分析相关理论与实践案例,揭示迁移学习在解决现实问题中的潜力与局限,并展望其在未来的发展方向。
203 1
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
未来深度学习技术的发展前景与挑战
随着科技的不断发展,深度学习技术在人工智能领域扮演着越来越重要的角色。本文探讨了未来深度学习技术的发展前景和面临的挑战,分析了其在各个领域的应用以及可能的未来发展方向。
80 1