2024年是大模型落地应用的元年。
开发者们不再迷恋于“大练模型”,而是将大模型装进了手机、带到了课堂、融入的生产线、赋能到城市管理……大模型和场景的深入融合,不单单释放出了新质生产力,还默默重构着产业上下游的格局。
12月14日的昇思人工智能框架峰会上,昇思MindSpore开源社区理事长丁诚向外界公布了一组新数据:昇思MindSpore AI框架开源版本的下载量已经超过1100万次,覆盖全球130多个国家和地区的2400多个城市;3.7万多名开发者参与社区贡献,累积代码提交10万多行。
同一时间,中国科学院科技战略咨询研究院预测,中国AI框架2024年新增市场昇思份额将达30%。而根据IT行业的市场规律,一个AI框架的市场份额超过30%,意味着可能成为事实上的行业共识,将逐步形成完善的产业生态,进而推动技术更快的落地。
问题在于,为何昇思MindSpore会成为新增市场份额超过30%的AI框架,又将对大模型的落地应用产生什么样的影响?
01 立足开源开放,3.7万名贡献者撑起的繁荣生态
一个AI框架是否好用,开发者生态是不可或缺的一环。
时间回到2020年3月28日,昇思MindSpore AI框架正式开源。时值国内深度学习框架的“春天”,不少企业都推出了自己AI框架,不乏同样采取开源路线的玩家。不同的是,昇思MindSpore在开源之外,还着手构建了一套完整的人才培养和社区治理体系。
先说人才培养。
当外界普遍抱怨AI人才难觅的时候,昇思MindSpore开源社区悄悄构建了一套面向开发者分层分级的社区学习和发展体系。
第一阶段是学习,社区提供了30多门系列主题课程,600多场线上线下专题活动,每年20多场创新训练营等专场赋能,目的是帮助每一个对AI有兴趣的开发者,掌握人工智能相关的技术知识 ;
第二阶段是实践,开发者熟悉了AI相关的知识后,通过以赛促学、以练促学的方式,帮助开发者在实践中提升。目前昇思MindSpore开源社区已经发布了1100多个实习任务、举办了30多场大赛;
第三阶段是创新,当开发者充分掌握AI技能后,借助专项学术论文基金、社区项目支持等方式,为开发者提供创新资源和成果激励。比如CAAI-昇思学术基金、鲲鹏昇腾科研创新使能计划等等;
第四阶段是影响,对于成长起来的开发者,昇思MindSpore开源社区正在通过开发者/布道师认证、邀请加入SIG组和技术委员会等方式,帮助开发者提升影响力,同时以社区布道、答疑解惑等形式回馈社区。
再来说社区治理。
2023年6月的人工智能框架生态峰会上,昇思MindSpore与18家AI顶尖企业、学会、高校与科研院所联合发布了《共建人工智能框架生态倡议》,同时成立了昇思MindSpore开源社区理事会。
其中昇思MindSpore开源社区理事会由理事会单位共同管理、决策和规划社区的整体发展;技术委员会委员看护整体方案,共同决策社区的技术迭代演进;SIG组则全面看护各个技术领域,管理日程开发与维护,旨在构建一个开放、多元、包容的AI技术生态,凝聚多种创新力量。
如果将人才比作种子的话,开源社区就像是一片肥沃的黑土地,为种子的发芽、生根、开花、结果源源不断的提供养分,最终形成郁郁葱葱的森林,成为中国AI产业向上生长的坚实力量。
可以佐证的是:截止到2024年11月,昇思MindSpore的社区贡献者已经增长到3.7万人,一年半的时间里翻了两倍;和360多所高校建立了合作,其中290多所高校开设了昇思MindSpore相关课程;基于昇思MindSpore AI框架的原创论文发表累计超过1700篇,位列全球第二、中国第一;昇思MindSpore获评Gitee中国最佳开源贡献项目,成为Gitee-AI分类下全品类指数第一……
四年前,昇思MindSpore播下了开源的种子,现在已经逐渐长成繁荣的森林。
02 使能大模型创新,AI正在千行万业加速落地
开源生态的价值在哪里?大模型可以说是最典型的标杆。
就产业布局来说,AI框架有着“承上启下”的作用。按照中国工程院何友院士的说法:“AI框架南向使能多样化算力,北向孵化各类算法模型,是人工智能应用创新的土壤和源泉”。属于芯片企业、大模型厂商、应用开发者等不同角色汇聚的“中枢地带”,对大模型落地应用的意义不言而喻。
智谱CEO张鹏在昇思人工智能框架峰会上的演讲中提到:智谱团队在CodeGeeX的训练中,使用的就是昇思MindSpore AI框架,依托昇腾与昇思的多维混合分布式并行技术等软硬件能力,大幅改善了模型开发、训练的效率及模型精度。目前CodeGeeX在开发者社区中已经有超过百万的用户,日活超过了几十万。
作为大模型训练的“炼丹炉”,目前昇思MindSpore已经支持、孵化了50多个主流大模型,包括但不限于讯飞星火、通义千问、GLM4、Llama、Baichuan、DeepSeeek、YI等等,通过套件的能力封装,可以实现开发、训练、微调、部署的全流程开箱即用。同时有1700多家社区伙伴,采用昇思MindSpore孵化了2000多个解决方案,覆盖互联网、金融、能源、交通等15个行业。
也就是说,昇思MindSpore开源社区通过汇聚大模型产业链条中的不同力量,打通了一条大模型开发、训练、微调、推理部署的“最佳路径”,跑通了大模型落地的“最后一公里”,让创新离产业更近。
比如南方电网打造的“驭电”电力潮流预测大模型。
随着新能源大规模并网,电力系统规划和运行面临高度不确定性、高度可变性、海量调度单元、多目标和多约束决策等技术挑战,传统的数值仿真工具已经难以满足需要。
南方电网依托昇思MindSpore AI框架与昇腾AI处理器提供的基础软硬件能力,开发出了全新的仿真工具——“驭电”电力潮流预测大模型,通过学习电力系统内在运行规律,具备了海量运行方式生成和新能源承载能力分析等能力,可以在保障电网安全的基础上最大限度发挥新能源发电能力。
再比如昌平实验室打造的“天工”抗体设计模型。
抗体类药物在病毒引起的传染病等方面发挥着重要作用,但传统的抗体设计方法效率低下、成本高昂,无法满足日益增长的临床需求。
针对这些需求与挑战,昌平实验室联合昇思MindSpore打造了“天工”抗体设计模型,能够实现抗体功能设计、序列嫁接和活性预测等多种任务,相比传统抗体设计方法提升一个数量级以上。其中基于天工模型嫁接改造得到的人源抗体,经协和医学院团队验证抗体表达量提升约5至10倍,有望将抗体生产成本降低2倍以上。
可以找到的例子有很多。
比案例本身更有价值的,是将大模型落地到千行万业的新范式:因为昇思MindSpore正在适配越来越多大模型,提供了全流程的大模型开发套件,一家企业想要基于自身的业务做大模型,不再需要重新开发,只需调用套件接口,喂自己的数据,调整参数,就能开发自己的行业大模型。
03 技术跨越式演进,昇思MindSpore成为新选择
正如前面所提到的,AI框架的作用是“承上启下”。
不单单是在技术层面,还涉及产业上下游的协作:上游的大模型开发者,能否进一步提高模型训练的效率,将更多的精力集中在模型本身,而非基础设施和工具链上;下游的应用开发者,能否进一步降低学习门槛,快速将大模型的能力和场景相融合。
至少就目前来看,AI框架还有不少的挑战需要解决:
向上解决大模型开发者遇到的一系列问题,譬如大模型的参数量、序列长度、模态结构等指数级演进,产生了异构模型的计算不均衡、超长序列带来的内存爆炸、模型并行出现流水线空泡等问题;
向下打破大模型落地的重重阻碍,譬如在单模型单任务走向多模型多任务、深度学习和强化学习相融合的趋势下,多模型协同交互、推理和强化学习任务混合部署、训推权重在线转换等挑战层出不穷。
为什么昇思MindSpore AI框架会成为开发者的新选择呢?我们从丁诚的演讲中找到了三个关键线索。
一是从多个维度全面兼容业界主流方案。
考虑到大多数开发者在上手使用新框架时,希望第三方开源样例可以快速复现,昇思MindSpore在框架层将兼容300多个模型网络接口、300+算子表达以及数据、权重等基础格式,同时全面兼容了Transformers和Diffusers全流程套件的200多个接口。
以LLAMA 3-70B的代码样例为例,开发者只需要将命名空间进行等价替换,就可以快速完成脚本复现。
二是大幅降低大模型端到端的训练成本。
大模型训练的最大痛点无外乎算力和时间成本,而昇思MindSpore AI框架在设计时就构筑了原生的分布式并行能力,同时针对稠密模型、万亿参数的MoE模型、长序列等场景进行了针对性优化。
比如随着集群规模、并行策略维度的复杂性持续增长,并行策略的选取、优化也会带来巨大的调试成本,昇思MindSpore将进一步通过自动搜索、仿真执行等能力,让训练性能调优从周级下降到了天级。
三是面向未来场景持续优化框架结构。
面向o1代表的慢思考场景,昇思MindSpore将支持在线权重重排,使得训推任务的转换和权重切分可以无缝衔接;并将RLHF等基础模块进行封装,方便高效率实现算法,端到端提升整体吞吐。
面向AI for Science场景,昇思MindSpore提供了对数学家更亲和的函数式编程体验,原生支持Python3、NumPy等科学计算的接口加速,并能够结合自动微分能力和机制加速进行编译优化,进一步满足创新诉求。
一个简单易懂的道理:谁能帮助大模型开发者提高生产力,降低门槛和成本,谁就会成为他们口碑相传的必备工具。
2020年昇思MindSpore的下载量还只有10万次,2021年超过100万次,到了大模型走向落地的2024年,下载量陡增到1100万次,呈现出了一条鲜明的指数级增长曲线。随着越来越多的能力升级,相信将有更多的开发者加入到昇思MindSpore开源社区。
04 写在最后
AI框架是越用越好的生态,越多人使用意味着有更多的贡献者、更多的问题与解决方案,继而吸引到越多的开发者使用。
根据有关机构的预测,未来三年大模型在生产经营环节的应用将同步提高到80%以上,一幅大模型驱动的产业创新图景已经徐徐展开,一个由昇思MindSpore的开发者、伙伴及用户创造的开源生态也将越来越繁荣。