Spark将机器学习与GPU加速机制纳入自身-阿里云开发者社区

Spark将机器学习与GPU加速机制纳入自身

2017-08-09 1923

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

【51CTO.com快译】

Databricks公司通过简化对GPU加速型机器学习方案的访问支持自家云Spark服务。

作为Apache Spark内存内大数据项目的支持与开发合作厂商，Databricks公司已经对其自家Apache Spark云实现方案进行两轮支持升级，旨在让更多IT用户享受其便利。

此次推出的新功能——即GPU加速与多套深度学习库集成——在理论上能够实现Apache Spark在任意位置的安装工作。不过Databricks方面表示，其版本目前仍处于调整阶段，这是为了避免资源争用情况给功能的实际使用带来复杂性影响。

Apache Spark本身并不具备开箱即用的GPU加速功能，且需要设置一套系统对此加以支持，这意味着用户需要面对多种复杂组件。有鉴于此，Databrick公司决定承担起相关难题。

Databricks方面还宣称，其将降低节点间的资源争用数量，从而最大程度保证Spark的运作能够充分发挥GPU集群的性能优势。这一思路与麻省理工学院的Milk库看起来非常类似，后者同样利用加速机制并发处理应用，旨在确保与内存相关的操作以批量方式进行，最终实现对系统缓存资源的最大化利用。Databricks公司的设置能够保证各项GPU操作之间不会相互导致冲突乃至中断。

另一项能够显著节约时间的举措在于直接访问多种主流机器学习库，这意味着Spark将可作为数据源起效。其中包括Databricks自家的TensorFrames库，其允许将TensorFlow库与Spark相配合，同时实现GPU加速能力。

Databricks 公司已经在推文中表示，其基础设施能够充分利用Spark的自身优势。其建立起免费级服务，用以吸引那些仍对深度使用Spark抱有警惕心理的客户，包括为其提供完整产品中的部分功能。根据InfoWorld网站此前发布的评测报告，Databricks的免费产品确实相当出色且易于上手。

不过市场竞争仍然相当激烈，特别是考虑到Databricks需要面对像微软(拥有Azure机器学习方案)、IBM以及Amazon这样的巨头级对手。因此，其必须找到保持并扩大服务受众规模的可行途径，并专注于打造自身独特的服务产品。除了添加机器学习与GPU加速等功能之外，Databricks还需要在发展计划中确保新特性能够切实带来便利——而非提升复杂程度。

作者：核子可乐译

来源：51CTO

Spark将机器学习与GPU加速机制纳入自身

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Spark将机器学习与GPU加速机制纳入自身

热门文章

最新文章

相关课程

相关电子书

相关实验场景