雅虎开源了TensorFlowOnSpark

简介:

雅虎开源了TensorFlowOnSpark,数据科学家和工程师们可以直接利用运行于CPU/GPU架构上的Spark或者Hadoop做分布式模型训练。据报道,这个库支持把现有的TensorFlow程序切换到新的API,同时实现了模型训练的性能提升。

在开源公告里,雅虎说明了TensorFlowOnSpark想解决的问题,比如在深度神经网络训练中管理Spark数据管线之外的其他集群带来的运维负载,以网络I/O为瓶颈的数据集在训练集群的传入和传出,令人讨厌的系统复杂性,以及端到端的整体学习时延。TensorFlowOnSpark的工作和雅虎之前开源的CaffeOnSpark相似。现有的对TensorFlow和Spark的集成所做的努力,有DataBricks的TensorFrame,以及Amp Lab 的SparkNet,这些对于雅虎来说都是在正确方向上的迈进,但是在允许TensorFlow进程之间直接通信方面还是有所欠缺。雅虎的目标之一,是让TensorFlowOnSpark成为一个完全对Spark兼容的API,在一个Spark处理工作流里,其集成能力能跟SparkSQL、MLib以及其他Spark核心库一样好。

在架构上,它把给定TensorFlow算法和TensorFlow core放在一个Spark Executor中,并让TensorFlow任务能够通过TensorFlow的文件阅读器和QueueRunners直接获取HDFS数据,这是一种有着更少网络I/O以及“把计算带给数据”的方案。TensorFlowOnSpark在语义上就支持对执行器的端口预留和监听,对数据和控制函数的消息轮询,TensorFlow主函数的启动,数据注入,直接从HDFS读取数据的阅读器和queue-runner机制,通过feed_dict向TensorFlow注入Spark RDD,以及关机。

除了TensorFlowOnSpark,雅虎还在他们自己的分支上扩展了TensorFlow核心C++引擎以在Infiniband里使用RDMA,这个需求在TensorFlow主项目里被提出过还产生了相关讨论。雅虎的Andy Feng注意到,使用RDMA而不是gRPC来做进程间通信,在不同的网络里会带来百分之十到百分之两百不等的训练速度的提升。

本文转自d1net(转载)

目录
相关文章
|
1月前
|
SQL Java API
官宣|Apache Flink 1.19 发布公告
Apache Flink PMC(项目管理委员)很高兴地宣布发布 Apache Flink 1.19.0。
1346 1
官宣|Apache Flink 1.19 发布公告
|
1月前
|
存储 人工智能 测试技术
Apache Hudi 背后商业公司Onehouse宣布2500万美元A轮融资
Apache Hudi 背后商业公司Onehouse宣布2500万美元A轮融资
40 1
|
6月前
|
SQL 存储 Java
官宣|Apache Flink 1.18 发布公告
官宣|Apache Flink 1.18 发布公告
940 3
官宣|Apache Flink 1.18 发布公告
|
SQL Web App开发 算法
官宣|Apache Flink 1.17 发布公告
Apache Flink PMC(项目管理委员)已宣布发布 Apache Flink 1.17.0。Apache Flink 是领先的流处理标准,流批统一的数据处理概念在越来越多的公司中得到认可。
官宣|Apache Flink 1.17 发布公告
|
SQL Web App开发 缓存
官宣|Apache Flink 1.16 发布公告
Flink 社区正一步一步推动 Streaming warehouse 从概念变为现实并走向成熟。
官宣|Apache Flink 1.16 发布公告
|
SQL 存储 JSON
官宣|Apache Flink 1.15 发布公告
1.15 版本中,贡献者们极大地改进了操作 Apache Flink 的体验
官宣|Apache Flink 1.15 发布公告
|
SQL 消息中间件 资源调度
官宣|Apache Flink 1.14.0 发布公告
新版本在 SQL API、更多连接器支持、Checkpoint 机制、PyFlink 等多个方面带来了大量的新特性与改进。
官宣|Apache Flink 1.14.0 发布公告
|
SQL 消息中间件 Java
官宣 | 千呼万唤,Apache Flink 1.11.0 正式发布啦!
Apache Flink 社区很荣幸的宣布 Flink 1.11.0 版本正式发布!超过 200 名贡献者参与了 Flink 1.11.0 的开发,提交了超过 1300 个修复或优化。这些修改极大的提高了 Flink 的可用性,并且增强了各个 API 栈的功能。
官宣 | 千呼万唤,Apache Flink 1.11.0 正式发布啦!
|
消息中间件 运维 分布式计算
实至名归!Flink 再度成为 Apache 基金会最活跃的开源项目
2019 年对 Apache 软件基金会(简称 ASF)来说,依然是伟大的一年:它标志着开源领导“Apache 之道”(The Apache Way)的 20 年。ASF 的口号,“社区重于代码”(Community Over Code),贯穿于其所做的每一件事,全球有数十亿人受益于价值 200 多亿美元的社区主导的软件,100% 免费提供。