Spark将机器学习与GPU加速机制纳入自身

简介:

Databricks公司通过简化对GPU加速型机器学习方案的访问支持自家云Spark服务。

作为Apache Spark内存内大数据项目的支持与开发合作厂商,Databricks公司已经对其自家Apache Spark云实现方案进行两轮支持升级,旨在让更多IT用户享受其便利。

此次推出的新功能——即GPU加速与多套深度学习库集成——在理论上能够实现Apache Spark在任意位置的安装工作。不过Databricks方面表示,其版本目前仍处于调整阶段,这是为了避免资源争用情况给功能的实际使用带来复杂性影响。

Apache Spark本身并不具备开箱即用的GPU加速功能,且需要设置一套系统对此加以支持,这意味着用户需要面对多种复杂组件。有鉴于此,Databrick公司决定承担起相关难题。

Databricks方面还宣称,其将降低节点间的资源争用数量,从而最大程度保证Spark的运作能够充分发挥GPU集群的性能优势。这一思路与麻省理工学院的Milk库看起来非常类似,后者同样利用加速机制并发处理应用,旨在确保与内存相关的操作以批量方式进行,最终实现对系统缓存资源的最大化利用。Databricks公司的设置能够保证各项GPU操作之间不会相互导致冲突乃至中断。

另一项能够显著节约时间的举措在于直接访问多种主流机器学习库,这意味着Spark将可作为数据源起效。其中包括Databricks自家的TensorFrames库,其允许将TensorFlow库与Spark相配合,同时实现GPU加速能力。

Databricks 公司已经在推文中表示,其基础设施能够充分利用Spark的自身优势。其建立起免费级服务,用以吸引那些仍对深度使用Spark抱有警惕心理的客户,包括为其提供完整产品中的部分功能。根据InfoWorld网站此前发布的评测报告,Databricks的免费产品确实相当出色且易于上手。

不过市场竞争仍然相当激烈,特别是考虑到Databricks需要面对像微软(拥有Azure机器学习方案)、IBM以及Amazon这样的巨头级对手。因此,其必须找到保持并扩大服务受众规模的可行途径,并专注于打造自身独特的服务产品。除了添加机器学习与GPU加速等功能之外,Databricks还需要在发展计划中确保新特性能够切实带来便利——而非提升复杂程度。


本文作者:核子可乐

来源:51CTO

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
2月前
|
机器学习/深度学习 安全 算法
利用机器学习优化网络安全防御机制
【2月更文挑战第23天】 在数字化时代,网络安全已成为维护信息完整性、保障用户隐私的关键挑战。随着攻击手段的日益复杂化,传统的防御策略逐渐显得力不从心。本文通过引入机器学习技术,探索其在网络安全防御中的应用及优化路径。首先,概述了当前网络安全面临的主要威胁和机器学习的基本概念;其次,分析了机器学习在识别恶意行为、自动化响应等方面的潜力;最后,提出了一个基于机器学习的网络安全防御框架,并通过案例分析展示了其有效性。本研究旨在为网络安全领域提供一种创新的防御思路,以适应不断演变的网络威胁。
36 2
|
3月前
|
机器学习/深度学习 人工智能 Java
机器学习PAI报错问题之跑collective gpu分布式报错如何解决
人工智能平台PAI是是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务;本合集将收录PAI常见的报错信息和解决策略,帮助用户迅速定位问题并采取相应措施,确保机器学习项目的顺利推进。
|
2月前
|
机器学习/深度学习 数据采集 算法
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
160 0
|
4月前
|
机器学习/深度学习 分布式计算 算法
Spark中的机器学习库MLlib是什么?请解释其作用和常用算法。
Spark中的机器学习库MLlib是什么?请解释其作用和常用算法。
41 0
|
4月前
|
机器学习/深度学习 Python
机器学习中的工作流机制
机器学习中的工作流机制
|
10天前
|
机器学习/深度学习 分布式计算 算法
使用Spark进行机器学习
【5月更文挑战第2天】使用Spark进行机器学习
16 2
|
2月前
|
机器学习/深度学习 自然语言处理 并行计算
【机器学习】“注目未来:自注意力机制的巧妙设计引领自然语言处理新潮流“
【机器学习】“注目未来:自注意力机制的巧妙设计引领自然语言处理新潮流“
50 0
|
4月前
|
机器学习/深度学习 分布式计算 算法
Spark MLlib简介与机器学习流程
Spark MLlib简介与机器学习流程
|
5月前
|
机器学习/深度学习 人工智能 分布式计算
机器学习(一)Spark机器学习基础
机器学习(一)Spark机器学习基础
37 0
|
5月前
|
机器学习/深度学习 分布式计算 搜索推荐
【大数据技术】Spark MLlib机器学习协同过滤电影推荐实战(附源码和数据集)
【大数据技术】Spark MLlib机器学习协同过滤电影推荐实战(附源码和数据集)
101 0