NEC新技术带来比Apach Spark快50倍的机器学习能力

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介:
本文来自AI新媒体量子位(QbitAI)

日本计算机巨头NEC宣布,已经开发出一种新的数据处理技术,能加快向量计算机的机器学习速度。这种技术比当前主流的Apache Spark大数据框架快50倍。

NEC表示,新技术利用了一种叫作“稀疏矩阵”的数据结构,能明显提高机器学习任务中向量计算机的性能。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

向量计算机是一种主要用于处理大型科学和工程计算的超级计算机。

上世纪70至90年代,向量计算机架构在超级计算机的发展中占据主导地位。当时,这种架构被用于Cray的大部分平台。然而,由于传统微处理器设计带来的强大性能,这种架构逐渐变得不太常见。然而近年来,随着NEC SX系列超级计算机的开发,向量计算机架构正获得新的生命。

NEC表示,与数据处理技术一同,该公司还开发了新的中间件,通过稀疏矩阵结构去简化机器学习应用。该公司表示,这种中间件可以从Python和Spark基础架构中启动,而不需要额外的编程。

对于“快50倍”这种说法,也有质疑的声音。

Constellation Research副总裁、首席分析师Holger Mueller表示,关于NEC所说的新技术比Apache Spark快50倍,这样的情况在预料之中,并且这样比较并不合适。

他指出,Spark通常使用内存存储将数据提供给神经网络,而神经网络通常运行在英伟达等公司的GPU上。与此不同,向量计算机针对向量的计算和处理进行了优化,而向量是神经网络的基础。

Mueller表示:“毫无疑问,向量计算机在建模、创建和分析神经网络过程中速度更快。而英伟达在人工智能和神经网络领域表现得很好,也是因为该公司的GPU本质上是向量计算器。将Spark存储和NEC向量计算机结合在一起,进行数据分析、学习和计算的速度会有多快?或许这将带来最快的速度,但我们需要从NEC的率先尝试中了解更多信息。”

与此同时,NEC也强调了新平台的成本经济性,以及可能的使用场景。

NEC系统平台研究实验室总经理Yuichi Nakamura表示:“这项技术使用户可以迅速从机器学习的成果中受益,包括网络广告的投放优化、推荐,以及文档分析。此外,使用少量服务器的低成本分析将帮助更多用户获得大数据分析优势,而以往这只属于大公司。”

NEC还表示,最新的SX-ACE向量计算机能满足广泛的性能需求。新的数据处理技术支持大数据分析能力,包括机器学习和深度学习。

NEC宣布,将在奥地利因斯布鲁克举行的2017年“并行和分布式计算国际研讨会”上展示其新技术。

【完】

本文作者:陈桦 
原文发布时间:2017-07-05 
相关实践学习
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
2月前
|
机器学习/深度学习 分布式计算 算法
Spark中的机器学习库MLlib是什么?请解释其作用和常用算法。
Spark中的机器学习库MLlib是什么?请解释其作用和常用算法。
64 0
|
7天前
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
|
2月前
|
机器学习/深度学习 数据采集 分布式计算
【机器学习】Spark ML 对数据进行规范化预处理 StandardScaler 与向量拆分
标准化Scaler是数据预处理技术,用于将特征值映射到均值0、方差1的标准正态分布,以消除不同尺度特征的影响,提升模型稳定性和精度。Spark ML中的StandardScaler实现此功能,通过`.setInputCol`、`.setOutputCol`等方法配置并应用到DataFrame数据。示例展示了如何在Spark中使用StandardScaler进行数据规范化,包括创建SparkSession,构建DataFrame,使用VectorAssembler和StandardScaler,以及将向量拆分为列。规范化有助于降低特征重要性,提高模型训练速度和计算效率。
|
2月前
|
机器学习/深度学习 分布式计算 算法
【机器学习】Spark ML 对数据特征进行 One-Hot 编码
One-Hot 编码是机器学习中将离散特征转换为数值表示的方法,每个取值映射为一个二进制向量,常用于避免特征间大小关系影响模型。Spark ML 提供 OneHotEncoder 进行编码,输入输出列可通过 `inputCol` 和 `outputCol` 参数设置。在示例中,先用 StringIndexer 对类别特征编码,再用 OneHotEncoder 转换,最后展示编码结果。注意 One-Hot 编码可能导致高维问题,可结合实际情况选择编码方式。
|
2月前
|
机器学习/深度学习 分布式计算 算法
使用Spark进行机器学习
【5月更文挑战第2天】使用Spark进行机器学习
28 2
|
2月前
|
机器学习/深度学习 数据采集 前端开发
【Python机器学习专栏】模型泛化能力与交叉验证
【4月更文挑战第30天】本文探讨了机器学习中模型泛化能力的重要性,它是衡量模型对未知数据预测能力的关键。过拟合和欠拟合影响泛化能力,而交叉验证是评估和提升泛化能力的有效工具。通过K折交叉验证等方法,可以发现并优化模型,如调整参数、选择合适模型、数据预处理、特征选择和集成学习。Python中可利用scikit-learn的cross_val_score函数进行交叉验证。
|
2月前
|
机器学习/深度学习 分布式计算 算法
Spark MLlib简介与机器学习流程
Spark MLlib简介与机器学习流程
|
2月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
144 14
|
2月前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
2月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
53 1