MLPerf最新发榜!这家AI芯片公司再获世界第一,大模型性能狂超A100

简介: MLPerf最新发榜!这家AI芯片公司再获世界第一,大模型性能狂超A100


此次是墨芯连续第二次问鼎 MLPerf,也是又一次 “12nm 战胜 4nm”。


ChatGPT 引爆大模型浪潮,也带来了算力挑战:当大模型进入大规模部署阶段,海量算力需求、推理加速等痛点,如何解决?


早在 2021 年,Google Research 和 OpenAI 的合作论文给出答案:《Sparse is Enough in Scaling Transformers》,证明稀疏计算能够为大模型带来数十倍加速。


4 月 6 日,全球权威 AI 基准评测 MLPerf Inference v3.0 公布的结果,再次佐证了:稀疏计算是大模型时代最不容忽视的算力 “潜力股”。


来自中国的 AI 芯片企业 —— 墨芯人工智能,凭借软硬协同的稀疏计算技术,在 MLPerf 竞争最激烈的 ResNet50 模型上蝉联冠军,斩获开放任务分区 “双料冠军”:S40 计算卡以 127,375 FPS,获得单卡算力全球第一;S30 计算卡以 383,520 FPS 算力,获整机 4 卡算力全球第一。


此次是墨芯连续第二次问鼎 MLPerf,也是又一次 “12nm 战胜 4nm”:墨芯 AI 计算卡系列是基于首颗稀疏计算芯片12nm的AntoumⓇ,性能超越了4nm制程产品,展现出稀疏计算的强大优势。

 


作为业界公认最为权威、标准严格的AI基准测试,本届MLPerf参与热度再创新高,共收到来自英伟达、高通、英特尔等25家企业提交的6700多份测试结果,其中最显著的变化当属旨在鼓励创新的开放分区,提交结果数达上一届的三倍之多。种种迹象表明,ChatGPT引爆的大模型趋势将算力产业推向变革关口,众多厂商都在积极探索新的算力增长之道,通过软硬协同、稀疏计算等新方式,以满足大模型迫切的巨量算力需求。

刷新纪录,稀疏计算引领算力突破


继去年 MLPerf 2.1 夺魁以后,本次墨芯在 MLPerf 上再次刷新算力纪录,连获 Resnet-50 单卡、多卡的性能第一,并在 Bert 语言模型上实现性能提升在MLPerf相同模型、数据集、精度条件下,墨芯计算卡产品性能超过英伟达 H100 和 A100。


刷新算力纪录:墨芯 S40 计算卡首次亮相 MLPerf,在数据中心的图像任务主流模型 ResNet-50 上夺得冠军,算力达 127,375 FPS。S40 计算卡性能达英伟达 H100、A100 的 1.4 倍和 2.9 倍。

 


二度问鼎,优势持续扩大:这是墨芯第二次在 ResNet-50 模型上夺冠。墨芯 S40 计算卡比上届冠军 S30 计算卡的算力增幅达 33%,体现出持续的产品性能提升能力。与上一次 MLPerf 相比,墨芯产品相较 H100 和 A100 的算力优势分别扩大了 20% 和 90%。

 


单机 4 卡第一,算力超 8 张 A100:墨芯 30 计算卡获得 ResNet-50 模型 “整机 4 卡” 冠军,算力 383,520 FPS,达英伟达 H100 的 4 卡成绩的 1.8 倍,并且超过英伟达 A100 的 8 卡成绩。

 


在NLP模型BERT上,墨芯S40计算卡算力5,069 SPS达到英伟达提交的A100算力的2.7倍。


适配多服务器,发挥稳定:本次MLPerf中墨芯计算卡在多家厂商的服务器上的运行性能均表现出色、稳定,体现出产品的高成熟度与高兼容性,凸显出稀疏计算生态的广阔前景。

大幅加速推理,赋能 AIGC 等在线应用


随着 ChatGPT 等 AIGC 类应用的推广,加速推理速度、满足用户在线实时交互的需求,已成为大模型落地的一大痛点。在本次 MLPerf 中,墨芯 S30 与 S10 计算卡在离线(Offline)与在线(Server)两种模式下均表现优异,S30在ResNet-50和BERT的在线模式下算力分别达83,998(FPS)和3,009(SPS),展现出稀疏计算同时兼顾高吞吐、低延时的独特优势。



在推理加速方面,稀疏计算还具有更大的发挥空间。此前,墨芯人工智能创始人兼CEO王维在出席活动时透露:在墨芯内测中,在与GPT-3参数相当的开源LLM——1760亿参数的BLOOM上,4张墨芯S30计算卡在仅采用中低倍稀疏率的情况下,就能实现25 tokens/s的内容生成速度,超过8张A100。


实测:在 1760 亿参数的 BLOOM 上,4 张墨芯 S30 计算卡的内容生成速度达到 25 tokens/s,超过 8 张 A100


蝉联冠军的背后,是行业深度洞察与强大技术加持


本次 MLPerf 的参与热度再创新高,在高手云集的激烈竞争中,墨芯连续两届蝉联 MLPerf 冠军,表明了产品的优秀稳定性能与持续领先的地位。不仅如此,此次距离上次 MLPerf 仅过去半年有余,墨芯就推出了新的 AI 计算卡产品,并且性能有大幅提升,凸显出强大的团队实力、工程化能力等综合实力。


产品的持续领先和稳步发展,是建立在对行业的深刻洞察与远见之上的。在 ChatGPT 火爆之前,墨芯团队已经观察到大模型的必然趋势,并笃定:稀疏计算是大模型时代的最佳算力方案。


“Transformers引发的大模型浪潮,代表着整个AI的划时代巨变:在那之前是小模型时代,也就是AI 1.0,以解析式AI为主;到了AI 2.0大模型时代,大模型推动了生成式AI应用场景的爆发。”王维表示,从AI 1.0到AI 2.0,对算力的需求产生质变:“小模型时代,用场景数据训练小模型,研发和部署周期短,对算力的需求主要是通用性、易用性。到了大模型时代,大模型主要基于Transformer模型架构,算子层面逐渐固化,更追求计算速度和算力成本等。”

王维指出,大模型时代的算力痛点主要集中在两点:首先是大算力,大模型参数呈指数级增长,算力需求爆发,产生巨大的算力缺口;另一方面是加快推理速度,由于生成式 AI 基本都是在线应用,系统对于用户的需求要在毫秒内快速响应。


“微创新是大公司做的事情。大模型参数已经突破万亿、并且持续增大,微创新无法根本解决问题。创业公司要做就做有数量级突破的颠覆式创新。墨芯成立之初,我们就看到了:稀疏计算能够带来数量级的性能增长。因此我们一直笃定,做一家稀疏计算公司。” 王维表示。此次墨芯在 MLPerf 的连续夺冠,正是用实际证明了稀疏计算的巨大应用价值,以 “12nm 战胜 4nm” 的成绩打开新的算力增长空间。


墨芯的判断,与业界、学界对稀疏计算的看好是相一致的:Transformers 带来大模型浪潮后,稀疏计算相关研究活跃度显著提升。学界与业界都积极将稀疏计算作为大模型算力破解的重要方向,例如谷歌对 AI 的终极愿景 ——Pathways 架构采用稀疏计算原理:执行任务时仅稀疏激活模型的特定部分,计算真正有用的元素,这正是稀疏计算的本质。


 

谷歌在《Introducing Pathways: A next-generation AI architecture》写道:“今天的模型是稠密和低效的,Pathways 将使它们变得稀疏和高效。” 英伟达也在其 Ampere 架构中首次支持 2 倍稀疏计算。墨芯则将稀疏计算从算法上升到软硬协同层面,2022 年发布首颗高稀疏倍率芯片 AntoumⓇ,能够支持 32 倍稀疏,大幅降低大模型所需的计算量。


MLPerf 参与情况也侧面印证了业界共识:算力提升不能再纯靠硬件,必须通过软硬协同的方式。本届 MLPerf 中开放分区的提交结果再创新高,高通、英特尔等头部企业也提交多项结果,开放分区的算力方案呈现丰富的多样性。


不仅在 MLPerf 上表现出色,墨芯的产品商业落地上也进展迅速。据王维透露,墨芯 AI 计算卡发布数月就已实现量产,在互联网等领域成单落地。ChatGPT 走红后墨芯也收到大量客户问询,了解稀疏计算在大模型上的算力优势与巨大潜力。


ChatGPT 被比尔・盖茨评价为 “其意义不亚于互联网和 PC 的诞生”,被黄仁勋称为 AI 的 “iPhone 时刻”。每一项应用普及的前提,都是由基础设施提供坚实支撑。在大模型时代,稀疏计算无疑是最有前景的最佳算力方案,引领 AI 2.0 时代的算力进化,加速生成式 AI 等应用百花齐放的未来。

相关文章
|
18天前
|
人工智能 并行计算 安全
从零到一,打造专属AI王国!大模型私有化部署全攻略,手把手教你搭建、优化与安全设置
【10月更文挑战第24天】本文详细介绍从零开始的大模型私有化部署流程,涵盖需求分析、环境搭建、模型准备、模型部署、性能优化和安全设置六个关键步骤,并提供相应的示例代码,确保企业能够高效、安全地将大型AI模型部署在本地或私有云上。
166 7
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。
|
5天前
|
人工智能 自然语言处理 机器人
文档智能与RAG技术如何提升AI大模型的业务理解能力
随着人工智能的发展,AI大模型在自然语言处理中的应用日益广泛。文档智能和检索增强生成(RAG)技术的兴起,为模型更好地理解和适应特定业务场景提供了新方案。文档智能通过自动化提取和分析非结构化文档中的信息,提高工作效率和准确性。RAG结合检索机制和生成模型,利用外部知识库提高生成内容的相关性和准确性。两者的结合进一步增强了AI大模型的业务理解能力,助力企业数字化转型。
35 3
|
14天前
|
人工智能 JSON API
阿里云文档智能 & RAG解决方案:提升AI大模型业务理解与应用
阿里云推出的文档智能 & RAG解决方案,旨在通过先进的文档解析技术和检索增强生成(RAG)方法,显著提升人工智能大模型在业务场景中的应用效果。该方案通过文档智能(Document Mind)技术将非结构化文档内容转换为结构化数据,提取文档的层级树、样式和版面信息,并输出为Markdown和Json格式,为RAG提供语义分块策略。这一过程不仅解决了文档内容解析错误和切块丢失语义信息的问题,还优化了输出LLM友好的Markdown信息。方案的优势在于其多格式支持能力,能够处理包括Office文档、PDF、Html、图片在内的主流文件类型,返回文档的样式、版面信息和层级树结构。
71 2
|
7天前
|
人工智能 弹性计算 Serverless
触手可及,函数计算玩转 AI 大模型 | 简单几步,轻松实现AI绘图
本文介绍了零售业中“人—货—场”三要素的变化,指出传统营销方式已难以吸引消费者。现代消费者更注重个性化体验,因此需要提供超出预期的内容。文章还介绍了阿里云基于函数计算的AI大模型,特别是Stable Diffusion WebUI,帮助非专业人士轻松制作高质量的促销海报。通过详细的部署步骤和实践经验,展示了该方案在实际生产环境中的应用价值。
38 6
触手可及,函数计算玩转 AI 大模型 | 简单几步,轻松实现AI绘图
|
18天前
|
存储 人工智能 数据可视化
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
在数字化时代,企业面临海量客户对话数据处理的挑战。阿里云推出的“AI大模型助力客户对话分析”解决方案,通过先进的AI技术和智能化分析,帮助企业精准识别客户意图、发现服务质量问题,并生成详尽的分析报告和可视化数据。该方案采用按需付费模式,有效降低企业运营成本,提升客服质量和销售转化率。
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
|
4天前
|
人工智能 新制造 芯片
2024年中国AI大模型产业发展报告解读
2024年,中国AI大模型产业迎来蓬勃发展,成为科技和经济增长的新引擎。本文解读《2024年中国AI大模型产业发展报告》,探讨产业发展背景、现状、挑战与未来趋势。技术进步显著,应用广泛,但算力瓶颈、资源消耗和训练数据不足仍是主要挑战。未来,云侧与端侧模型分化、通用与专用模型并存、大模型开源和芯片技术升级将是主要发展方向。
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
【10月更文挑战第31天】2024年,AI大模型在软件开发领域的应用取得了显著进展,从自动化代码生成、智能代码审查到智能化测试,极大地提升了开发效率和代码质量。然而,技术挑战、伦理与安全问题以及模型可解释性仍是亟待解决的关键问题。开发者需不断学习和适应,以充分利用AI的优势。
|
5天前
|
存储 人工智能 固态存储
如何应对生成式AI和大模型应用带来的存储挑战
如何应对生成式AI和大模型应用带来的存储挑战
|
12天前
|
人工智能 JSON 自然语言处理
基于文档智能&RAG搭建更懂业务的AI大模型
本文介绍了一种结合文档智能和检索增强生成(RAG)技术,构建强大LLM知识库的方法。通过清洗文档内容、向量化处理和特定Prompt,提供足够的上下文信息,实现对企业级文档的智能问答。文档智能(Document Mind)能够高效解析多种文档格式,确保语义的连贯性和准确性。整个部署过程简单快捷,适合处理复杂的企业文档,提升信息提取和利用效率。