NEC新技术带来比Apach Spark快50倍的机器学习能力

简介:
本文来自AI新媒体量子位(QbitAI)

日本计算机巨头NEC宣布,已经开发出一种新的数据处理技术,能加快向量计算机的机器学习速度。这种技术比当前主流的Apache Spark大数据框架快50倍。

NEC表示,新技术利用了一种叫作“稀疏矩阵”的数据结构,能明显提高机器学习任务中向量计算机的性能。

向量计算机是一种主要用于处理大型科学和工程计算的超级计算机。

上世纪70至90年代,向量计算机架构在超级计算机的发展中占据主导地位。当时,这种架构被用于Cray的大部分平台。然而,由于传统微处理器设计带来的强大性能,这种架构逐渐变得不太常见。然而近年来,随着NEC SX系列超级计算机的开发,向量计算机架构正获得新的生命。

NEC表示,与数据处理技术一同,该公司还开发了新的中间件,通过稀疏矩阵结构去简化机器学习应用。该公司表示,这种中间件可以从Python和Spark基础架构中启动,而不需要额外的编程。

对于“快50倍”这种说法,也有质疑的声音。

Constellation Research副总裁、首席分析师Holger Mueller表示,关于NEC所说的新技术比Apache Spark快50倍,这样的情况在预料之中,并且这样比较并不合适。

他指出,Spark通常使用内存存储将数据提供给神经网络,而神经网络通常运行在英伟达等公司的GPU上。与此不同,向量计算机针对向量的计算和处理进行了优化,而向量是神经网络的基础。

Mueller表示:“毫无疑问,向量计算机在建模、创建和分析神经网络过程中速度更快。而英伟达在人工智能和神经网络领域表现得很好,也是因为该公司的GPU本质上是向量计算器。将Spark存储和NEC向量计算机结合在一起,进行数据分析、学习和计算的速度会有多快?或许这将带来最快的速度,但我们需要从NEC的率先尝试中了解更多信息。”

与此同时,NEC也强调了新平台的成本经济性,以及可能的使用场景。

NEC系统平台研究实验室总经理Yuichi Nakamura表示:“这项技术使用户可以迅速从机器学习的成果中受益,包括网络广告的投放优化、推荐,以及文档分析。此外,使用少量服务器的低成本分析将帮助更多用户获得大数据分析优势,而以往这只属于大公司。”

NEC还表示,最新的SX-ACE向量计算机能满足广泛的性能需求。新的数据处理技术支持大数据分析能力,包括机器学习和深度学习。

NEC宣布,将在奥地利因斯布鲁克举行的2017年“并行和分布式计算国际研讨会”上展示其新技术。

【完】

本文作者:陈桦 
原文发布时间:2017-07-05 
相关实践学习
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
机器学习/深度学习 分布式计算 大数据
阿里云 EMR Serverless Spark 在微财机器学习场景下的应用
面对机器学习场景下的训练瓶颈,微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark,微财突破了单机训练使用的数据规模瓶颈,大幅提升了训练效率,解决了存算分离架构下 Shuffle 稳定性和性能困扰,为智能风控等业务提供了强有力的技术支撑。
593 15
|
机器学习/深度学习 数据采集 分布式计算
【机器学习】Spark ML 对数据进行规范化预处理 StandardScaler 与向量拆分
标准化Scaler是数据预处理技术,用于将特征值映射到均值0、方差1的标准正态分布,以消除不同尺度特征的影响,提升模型稳定性和精度。Spark ML中的StandardScaler实现此功能,通过`.setInputCol`、`.setOutputCol`等方法配置并应用到DataFrame数据。示例展示了如何在Spark中使用StandardScaler进行数据规范化,包括创建SparkSession,构建DataFrame,使用VectorAssembler和StandardScaler,以及将向量拆分为列。规范化有助于降低特征重要性,提高模型训练速度和计算效率。
798 6
|
机器学习/深度学习 分布式计算 算法
【机器学习】Spark ML 对数据特征进行 One-Hot 编码
One-Hot 编码是机器学习中将离散特征转换为数值表示的方法,每个取值映射为一个二进制向量,常用于避免特征间大小关系影响模型。Spark ML 提供 OneHotEncoder 进行编码,输入输出列可通过 `inputCol` 和 `outputCol` 参数设置。在示例中,先用 StringIndexer 对类别特征编码,再用 OneHotEncoder 转换,最后展示编码结果。注意 One-Hot 编码可能导致高维问题,可结合实际情况选择编码方式。
540 6
|
机器学习/深度学习 分布式计算 算法
使用Spark进行机器学习
【5月更文挑战第2天】使用Spark进行机器学习
316 2
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
196 0
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】自然语言引导下的单目深度估计:泛化能力与鲁棒性的新挑战
【机器学习】自然语言引导下的单目深度估计:泛化能力与鲁棒性的新挑战
265 0
|
机器学习/深度学习 数据采集 前端开发
【Python机器学习专栏】模型泛化能力与交叉验证
【4月更文挑战第30天】本文探讨了机器学习中模型泛化能力的重要性,它是衡量模型对未知数据预测能力的关键。过拟合和欠拟合影响泛化能力,而交叉验证是评估和提升泛化能力的有效工具。通过K折交叉验证等方法,可以发现并优化模型,如调整参数、选择合适模型、数据预处理、特征选择和集成学习。Python中可利用scikit-learn的cross_val_score函数进行交叉验证。
1316 0
|
机器学习/深度学习 分布式计算 算法
Spark MLlib简介与机器学习流程
Spark MLlib简介与机器学习流程
|
9月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
446 0
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
1073 2
ClickHouse与大数据生态集成:Spark & Flink 实战