在大模型AI的下一个战场,为中小创新企业重构竞争格局

简介: 在大模型AI的下一个战场,为中小创新企业重构竞争格局

本文来源:云科技时代



麦肯锡预计到2030年前,AI有望为全球经济贡献25.6万亿美元的价值,其中生成式AI的贡献高达7.6万亿美元。自2023年“百模大战”以来,基础大模型的“战事”已经进入尾声,大模型正在“卷向”产业和行业,越来越多的创新企业正在进入企业和行业大模型市场,让大模型真正落地、创造经济价值。


然而,当前的智能算力已经被AI头部大厂占满。业界推测GPT 4使用了2万多张GPU集群,训练了90-100天,训练成本高达6000-8000万美元,体现了面向大模型训练的AI基础设施,具有独占性、大规模和长时间的特点。中小创新企业既无力投资自有算力,也无法与头部大厂争抢有限的算力资源,从而也难以参与快速发展的大模型AI技术。


IDC指出,大模型正在重构整个IT生态,新一代AI基础设施将是下一个战场。当前,很多地方政府和企业正在投资智算中心,云大厂也在投资AIaaS,这些几乎都以服务头部创新企业为主。而只有服务中长尾上中小创新企业的AI基础设施,才有可能真正重构市场竞争格局,让中小创新企业参与大模型AI市场,释放大模型的普惠红利。


下一个战场:新一代AI基础设施


大模型与生成式AI正在加速从以CPU通用计算为核心的算力体系,向以GPU为代表的加速计算为核心的计算体系转型。当前,加速芯片正百花齐放:NVIDIA GPU一家独大,谷歌TPU、AWS Trainium、各种国产GPU和AI加速芯片等蓬勃发展,新一代AI基础设施呼之欲出,但异构AI芯片功能各异且不通用,生态也很有限,实际上形成了大模型普惠的瓶颈。

image.png

新一代AI基础设施的不仅面临着芯片层面的瓶颈,在大模型“大力出奇迹”的指导思想下,还面临着大系统的创新挑战。万亿或十万参数大模型对于传统数据中心提出极大的挑战,包括需要构建大规模万卡集群、高速分布式存储、高速可预期网络和调度加速框架等。例如,万卡智算中心网络特点是大规模、高带宽、低延迟、零丢包等,这些都是大系统创新挑战。


当前万卡集群的建设仍处于起步阶段,主要依赖NVIDIA GPU及配套设备实现,国产AI芯片在这两年取得长足进步,但在整体性能和生态构建方面仍存在一定差距。为了服务中小创新企业,新一代AI基础设施除了在芯片、系统硬件、系统软件和基础设施等方面进行创新外,还需要在算力调度、大模型与生成式软件开发、应用部署等软件层面进行创新,端到端打通应用生态,才能真正降低中小创新企业的门槛,释放生成式AI的生产力。


打通智能计算生态,任重而道远


打造面向中小创新企业的新一代大模型AI基础设施,关键在于智能计算生态。中国工程院院士孙凝晖指出,当前的国内智能计算生态孱弱,NVIDIA CUDA生态完备,已形成了事实上的垄断。国内企业山头林立,无法形成合力,虽然智能应用、开发框架、系统软件、智能芯片等每层都有相关产品,但各层之间没有深度适配,无法形成有竞争力的技术体系。


NVIDIA公司通过十多年的努力,建立了一个基于CUDA的庞大的智能计算生态,与国内智能芯片公司相比:NVIDIA CUDA生态有近2万人开发,是国内所有智能芯片公司人员总和的20倍;CUDA有550个SDK,是国内相关企业的上百倍;NVIDIA每年投入50亿美元,是国内相关公司的几十倍;此外,AI开发框架TensorFlow占据工业类市场,PyTorch占据研究类市场,百度飞桨等国产AI开发框架的开发人员只有国外框架的1/10……


打通智能计算生态,甚至对于国际领先企业来说,也是任重而道远的任务。根据国际报道,亚马逊正在努力与NVIDIA在人工智能芯片领域的主导地位竞争,经过4年多的努力,仍然面临着低使用率、兼容性差距和项目迁移等挑战。Bernstein研究公司分析师认为,每个主要的科技公司都想要从NVIDIA业务中分得一杯羹,但没有人能够取得进展。


对于中小创新企业来说,在NVIDIA的“垄断性”和云大厂的“孤岛式”AI基础设施之外,再构建一个灵活选择、灵活编排、灵活计价、灵活交付且具有全栈能力的AI基础设施,突破智能计算生态的“墙”,难度之大,可想而知。中国工程院院士郑纬民曾表示,国产生态只要解决好编程框架、并行加速、调度器、内存分配系统、容错系统、存储系统等问题,即使只有国外芯片60%的性能,国产芯片也会大受欢迎。


迎难而上,突破性的中国方案


2024年5月,北京特大型高科技企业北京电控所属的北京电子数智科技有限责任公司(简称“北电数智”)亮相2024中关村论坛,其规划设计与建设运营的北京数字经济算力中心作为新一代AI基础设施,首次进入了大模型AI产业视野。北电数智在9个月的时间里,突破性初步拉通了国产智能计算生态,打造了服务中小创新企业的全栈“AI工厂”。

image.png

具体来看,北电数智通过三大创新举措,为中小创新企业打造国产新一代AI基础设施:先进计算迭代验证平台、北京数字经济算力中心以及可信数据空间。


先进计算迭代验证平台主要采用vGPU技术,将物理GPU分割成多个虚拟GPU“切片”,再将虚拟GPU“切片”与不同的国产AI芯片混合起来,形成“高带低”的混合推理、混合训练等模式,面向文本、视频、图片等不同场景,充分发挥不同国产AI芯片在不同场景下的能力,在通用GPU的协同下,以更高性价比,满足不同场景的算力需求。


先进计算迭代验证平台通过软件加速、算子库补齐、网络和通信等工作,实现国产芯片的性能加速和调优,对外提供多场景智能算力。目前,北电数智已经能把国产芯片的性能从30-80分提高到70-90分,达到有用户愿意买单的程度。该平台还通过“以评促用”,让国产算力被用起来,在真实场景中“发现”芯片不足,推动芯片迭代升级,从可用到好用。


先进计算迭代验证平台实现了芯片与主流大模型的全方位解耦和适配。与CUDA的目标不同,CUDA需要解决不同大模型如何运行在NVIDIA GPU上的问题,而先进计算迭代验证平台要解决的是相同的大模型如何运行在不同AI芯片上、再以类似水或电的形式提供给开发者的问题,这其实就为新一代AI基础设施的中国方案找到了破题思路——也就是从算力平台层突破生态壁垒而不是从芯片层突破,这样既降低了难度,又找到了产业化路径。


换言之,先进计算迭代验证平台首先解决供需问题,也就是为国产芯片算力找到客户,也向客户推荐国产芯片算力,用经济规模效应让国产芯片算力被用起来,这样国产芯片算力就能参与到实际的场景中,也能不断了解客户的真实需求。其次,先进计算迭代验证平台从算力池、框架、模型到场景和应用进行端到端的联合优化,为开发者提供极致性能和成本优化,让大模型真正落地,在这个过程中不断优化国产芯片性能,同时也能给不同的国产芯片“打分”,让用户选型有据可依。


先进计算迭代验证平台在最底层打造了异构算力资源池,之上就是大系统创新——北京数字经济算力中心,即北电数智正在打造的AI工厂。作为万卡集群的智算中心,北京数字经济算力中心打造了全栈AI能力——算力、算力调度、算法框架、大模型、MaaS和应用开发平台,在每一层都汇聚了众多生态合作伙伴,集众家所长、打磨工程化平台化产品,让中小企业直接“拖拉拽”就可以开发自己的定制化大模型和生成式AI应用,并基于产业的AI全栈式能力,以生产要素聚集、生产能力培育及行业全面赋能的模式,服务AI产业生态企业,进一步实现AI产业生态运营。


可信数据空间则通过隐私计算、区块链、可信数据库等技术和机制,实现数据“安全共享、可信流通”,通过数据采集、存储、处理、分类、传输、交易等,让数据供需双方更加无忧地尝试匹配。可信数据空间提供政务数据专区、金融数据专区、医药数据专区等,为政府和企业提供安全数据盘活服务、脱密数据服务、打通可信数据流通路径。


在算力、算法和数据之外,北电数智也在大模型幻觉、大模型安全、知识产权、行业合规等方面,提供了丰富而全面的解决方案和服务。最后,北电数智还以AI云服务的形式,为中小企业提供低门槛、低价格的智能服务,真正普惠大模型AI。


北电数智所做的这一切,必须要联合智能计算生态的上下游。目前,北电数智已经链接AI产业生态伙伴700多家,包括芯片、服务器、数据中心、AI大模型及工程化、政务及公共服务、先进制造、大交通、大健康、教育、影视传媒等。


为了打通生态厂商的壁垒,北电数智采取了各种方式,其中一种就是“AI江湖产业生态闭门会”,让处于竞争状态的厂商,为了同一目标聚集起来,共同解决整个生态所面临的问题,显现了“集中力量办大事”的优势。实际上,大模型的出现更是对于AI和经济未来的重新想象,更需要昔日的竞争对手坐下来一起重新思考未来,再对齐各自当下的行动。


北电数智在建设北京数字经济算力中心的同时,也揭榜挂帅了北京某委办局政务大模型项目,同时通过先进计算迭代验证平台为用户提供使用指引,为芯片厂商提供可能的发展路径,以可信数据空间促进数据共享流通的“安全可靠运行环境”,将切实的商业利益反哺给整个生态,让国产智能计算生态形成正向的良性循环发展。


在面对客户需求时,北电数智通过三步走,帮助中小企业尽快用上用好智能算力:第一步:针对场景进行“诊断”,帮助用户制定合理升级路径,使企业无需进行大规模的开发投入;第二步,从实践中提炼出与用户需求相契合的“算力+模型”最优组合,缩短AI开发周期;第三步,与生态企业们联合共创,输出最适合用户需求的AI解决方案。


在新一代AI基础设施这个新战场上,北电数智率先实践了中国方案。北电数智是北京电控所属企业,在北京电控整体战略布局下,北电数智正以全面势能,拉通大模型AI产业链生态,端到端打通从实际场景到智能应用、大模型、开发框架、系统软件、智能芯片等的全技术链条,进而逐步培育有竞争力的国产大模型AI技术体系。


全文总结:国产新一代AI基础设施是普惠大模型AI红利、重构未来竞争格局的下一个战场。以北电数智为代表的企业,正在成为国产新一代AI基础设施的“串珠人”,汇聚行业资源、深耕行业需求,串联行业关键节点打造 AI 产业链。以新时代的担当,“集中力量办大事”,拉起国产智能计算生态,闯出与美国不同的AI产业路。尽管突破国际智能计算生态的道路险阻且漫长,但北京数字经济算力中心作为中国大模型AI产业的一面新旗帜,正在集结新的智能计算生态,为中小创新企业重构未来竞争格局。




“云科技时代”的文章广泛出现在:微信公众号、天天快报、今日头条号、微博号、知乎专栏、搜狐新闻端、网易客户端、百度百家、百家号、一点号、CSDN博客、ITPub博客、新浪财经头条、新浪看点等。

“云科技时代”是今日头条优质科技作者、入选今日头条精选频道

“云科技时代”力作《读懂新基建:数字技术带来全民机遇》在京东、当当、抖音等电商平台以及全国各大书店有售,电子版上架"京东读书"和“微信读书”APP。

“云科技时代”所有文章均在www.cloudtechtime.com收录。


相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。
|
7天前
|
人工智能 自然语言处理 机器人
文档智能与RAG技术如何提升AI大模型的业务理解能力
随着人工智能的发展,AI大模型在自然语言处理中的应用日益广泛。文档智能和检索增强生成(RAG)技术的兴起,为模型更好地理解和适应特定业务场景提供了新方案。文档智能通过自动化提取和分析非结构化文档中的信息,提高工作效率和准确性。RAG结合检索机制和生成模型,利用外部知识库提高生成内容的相关性和准确性。两者的结合进一步增强了AI大模型的业务理解能力,助力企业数字化转型。
39 3
|
16天前
|
人工智能 JSON API
阿里云文档智能 & RAG解决方案:提升AI大模型业务理解与应用
阿里云推出的文档智能 & RAG解决方案,旨在通过先进的文档解析技术和检索增强生成(RAG)方法,显著提升人工智能大模型在业务场景中的应用效果。该方案通过文档智能(Document Mind)技术将非结构化文档内容转换为结构化数据,提取文档的层级树、样式和版面信息,并输出为Markdown和Json格式,为RAG提供语义分块策略。这一过程不仅解决了文档内容解析错误和切块丢失语义信息的问题,还优化了输出LLM友好的Markdown信息。方案的优势在于其多格式支持能力,能够处理包括Office文档、PDF、Html、图片在内的主流文件类型,返回文档的样式、版面信息和层级树结构。
75 2
|
9天前
|
人工智能 弹性计算 Serverless
触手可及,函数计算玩转 AI 大模型 | 简单几步,轻松实现AI绘图
本文介绍了零售业中“人—货—场”三要素的变化,指出传统营销方式已难以吸引消费者。现代消费者更注重个性化体验,因此需要提供超出预期的内容。文章还介绍了阿里云基于函数计算的AI大模型,特别是Stable Diffusion WebUI,帮助非专业人士轻松制作高质量的促销海报。通过详细的部署步骤和实践经验,展示了该方案在实际生产环境中的应用价值。
41 6
触手可及,函数计算玩转 AI 大模型 | 简单几步,轻松实现AI绘图
|
15天前
|
人工智能 数据挖掘 数据库
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
本文为数据库「拥抱Data+AI」系列连载第1篇,该系列是阿里云瑶池数据库面向各行业Data+AI应用场景,基于真实客户案例&最佳实践,展示Data+AI行业解决方案的连载文章。本篇内容针对电商行业痛点,将深入探讨如何利用数据与AI技术以及数据分析方法论,为电商行业注入新的活力与效能。
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
|
6天前
|
人工智能 新制造 芯片
2024年中国AI大模型产业发展报告解读
2024年,中国AI大模型产业迎来蓬勃发展,成为科技和经济增长的新引擎。本文解读《2024年中国AI大模型产业发展报告》,探讨产业发展背景、现状、挑战与未来趋势。技术进步显著,应用广泛,但算力瓶颈、资源消耗和训练数据不足仍是主要挑战。未来,云侧与端侧模型分化、通用与专用模型并存、大模型开源和芯片技术升级将是主要发展方向。
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
【10月更文挑战第31天】2024年,AI大模型在软件开发领域的应用取得了显著进展,从自动化代码生成、智能代码审查到智能化测试,极大地提升了开发效率和代码质量。然而,技术挑战、伦理与安全问题以及模型可解释性仍是亟待解决的关键问题。开发者需不断学习和适应,以充分利用AI的优势。
|
7天前
|
存储 人工智能 固态存储
如何应对生成式AI和大模型应用带来的存储挑战
如何应对生成式AI和大模型应用带来的存储挑战
|
14天前
|
人工智能 JSON 自然语言处理
基于文档智能&RAG搭建更懂业务的AI大模型
本文介绍了一种结合文档智能和检索增强生成(RAG)技术,构建强大LLM知识库的方法。通过清洗文档内容、向量化处理和特定Prompt,提供足够的上下文信息,实现对企业级文档的智能问答。文档智能(Document Mind)能够高效解析多种文档格式,确保语义的连贯性和准确性。整个部署过程简单快捷,适合处理复杂的企业文档,提升信息提取和利用效率。
|
10天前
|
人工智能 自然语言处理 算法
企业内训|AI/大模型/智能体的测评/评估技术-某电信运营商互联网研发中心
本课程是TsingtaoAI专为某电信运营商的互联网研发中心的AI算法工程师设计,已于近日在广州对客户团队完成交付。课程聚焦AI算法工程师在AI、大模型和智能体的测评/评估技术中的关键能力建设,深入探讨如何基于当前先进的AI、大模型与智能体技术,构建符合实际场景需求的科学测评体系。课程内容涵盖大模型及智能体的基础理论、测评集构建、评分标准、自动化与人工测评方法,以及特定垂直场景下的测评实战等方面。
56 4

热门文章

最新文章