TensorFlowOnSpark

简介:

雅虎昨日宣布开源 TensorFlowOnSpark。

它使得深度学习框架 TensorFlow 能与 Apache Spark 中的数据集兼容。对于使用 Spark 来处理不同类型数据的机构和开发者来说,这无疑是一个好消息。TensorFlowOnSpark 的开源代码,已基于 Apache 2.0 协议在 GitHub 上发布。

众所周知,深度学习有海量数据需求。雷锋网了解到,许多业内公司利用 Spark 对超大规模的数据集进行管理。让深度学习框架直接、方便地获取这部分数据,将为 ML 开发提供极大助力。

雅虎在官方博客中宣布了这一消息,并解释了此前雅虎 Big ML 开发团队遇到的问题:

“现有的深度学习框架,往往需要设立单独的深度学习数据组。这强迫我们为同一个机器学习流水线创建多个程序。维护多个独立的数据组,要求我们在它们之间传输海量数据集——这导致不必要的系统复杂性和端到端的学习延迟。”

为解决这一问题,雅虎此前开发了 CaffeOnSpark。它使得基于 Caffe 机器学习框架开发的程序,能与 Apache Spark 兼容。雷锋网了解到,雅虎已将基于 CaffeOnSpark 的程序,用于鉴别搜索中的不恰当搜索结果,以及自动探测电子竞技游戏直播视频中的关键看点。

雅虎去年开源了 CaffeOnSpark。如今它对 TensorFlow 做了同样的工作。两者的原理几乎相同,只是把机器学习框架换成了 TensorFlow。

雅虎表示,把 TensorFlow 程序移植到 TensorFlowOnSpark 相对方便,并经过反公司内部的反复验证。

“这通常只需要修改十行以内的 Python 代码。许多使用 TensorFlow 的雅虎开发者已轻松地把 TensorFlow 程序,移植到 TensorFlowOnSpark 执行。”

http://mt.sohu.com/it/d20170215/126316942_470008.shtml

http://blog.csdn.net/fishseeker/article/details/61918138?utm_source=tuicool&utm_medium=referral

https://github.com/yahoo/TensorFlowOnSpark


本文转自 stock0991 51CTO博客,原文链接:http://blog.51cto.com/qing0991/1928360

相关文章
|
2月前
|
SQL 分布式计算 Hadoop
初识 Spark
【9月更文挑战第1天】. 初识 Spark
53 2
|
6月前
|
存储 缓存 分布式计算
spark BlockManager粗讲
spark BlockManager粗讲
|
消息中间件 分布式计算 监控
Spark6:Spark Steaming
Spark6:Spark Steaming
63 0
|
SQL 分布式计算 资源调度
|
SQL 机器学习/深度学习 分布式计算
【Spark】(一)初识 Spark
【Spark】(一)初识 Spark
166 0
【Spark】(一)初识 Spark
|
SQL 机器学习/深度学习 分布式计算
spark介绍
spark介绍
2213 0
spark介绍
|
存储 机器学习/深度学习 缓存
五分钟零基础介绍 spark
相信大家都听说过火的不能再火、炒得不能再炒的新一代大数据处理框架 Spark. 那么 Spark 是何方神圣?为何大有取代 Hadoop 的势头?Spark 内部又是如何工作的呢?我们会用几篇文章为大家一一介绍。 Hadoop:我不想知道我是怎么来的,我就想知道我是怎么没的? 还是从 Hadoop 处理海量数据的架构说起,一个 Hadoop job 通常都是这样的: 从 HDFS 读取输入数据; 在 Map 阶段使用用户定义的 mapper function, 然后把结果写入磁盘; 在 Reduce 阶段,从各个处于 Map 阶段的机器中读取 Map 计算的中间结果,使用用户定义的 r
135 0
|
分布式计算 Kubernetes Spark
Spark on k8s
前言 Spark 自从2.3版本以来就支持运行在k8s上,本文主要介绍如何运行Spark在阿里云容器服务-Kubernetes。 前提条件 1、 已经购买阿里云容器服务-Kubernetes。购买链接:Kubernetes控制台。
3061 0
|
SQL 分布式计算 大数据
初学Spark
介绍大数据处理引擎Spark的特点,以及它的技术栈
2142 0