内修昇思MindSpore AI框架,外重行业汇聚,华为大模型的不平凡之路

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 内修昇思MindSpore AI框架,外重行业汇聚,华为大模型的不平凡之路

今天,我们来讲一讲昇思 MindSpore AI 框架与大模型的故事。


要说近几年深度学习领域最热门的研究课题有哪些?大模型肯定在列。从 2020 年 OpenAI 发布 1750 亿参数的 GPT-3 开始,炼大模型这股潮流变得不可阻挡。依托自身效果好、泛化能力强等特点,大模型进一步增强 AI 的通用性,更成为 AI 技术和应用的新基座。

科技巨头们纷纷下场,接连推出千亿甚至万亿参数级的大模型。而纵观现有大模型,NLP、CV 以及多模态成为三个主要的发力方向,这些偏向于基础大模型;同时,能否落地应用成为检测大模型能力的重要指标,因此具备丰富领域知识的行业大模型也越来越受到业界的关注。

在大模型这条赛道上,国内 AI 厂商各显神通。华为也不例外,原生支持大模型训练的昇思 MindSpore AI 框架成为其发展大模型的关键。昇思 MindSpore 的开源开放使得国内产学界一些科研机构基于它打造了一系列大模型。



据了解,昇思 MindSpore 在进行架构设计时就考虑了大模型开发时遇到的内存占用、通信瓶颈、调试复杂、部署难等问题,针对性的技术研究与创新:

  • 业界领先的全自动并行能力,提供 6 维混合并行算法,即数据并行、模型并行、流水并行、优化器并行等,一行代码实现模型自动切分、分布式并行计算,开发并行代码量降低 80%、系统调优时间下降 60%;
  • 极致的全局内存复用能力,在开发者无感知的情况下,自动实现 NPU 内存 / CPU 内存 / NVMe 硬盘存储的多级存储优化,512 卡就可训练 10 万亿规模的参数模型,极大降低大模型训练成本;
  • 极简的断点续训能力,可解决大集群训练故障导致的任务中断问题,实现自动恢复、继承性训练,开发者无需从头开始,千亿参数模型在分钟级就可无损恢复。


鹏城实验室基于昇思 MindSpore 先后推出了业界首个 2000 亿参数中文预训练语言模型鹏程.盘古和面向生物医学领域的鹏程.神农大模型、中科院自动化所基于昇思 MindSpore 推出了业界首个图文音三模态大模型紫东.太初、武汉大学基于昇思 MindSpore 研发了全球首个智能遥感框架及数据集武汉.LuoJia。


同时,将大模型能力开放给开发者也非常重要。昇思 MindSpore 没有忽视这一点,推出了一站式大模型体验平台,让你我皆可触碰大模型的魅力。

依托昇思 MindSpore构筑基础 + 行业大模型的整体布局

人工智能有三大支柱,分别为算力、数据和算法。根据中国信息通信研究院《AI 框架发展白皮书》的描述,AI 框架正是算法模型设计、训练和验证的一套标准接口、特性库和工具包。目前,流行的 AI 框架有国内的昇思 MindSpore、国外的 TensorFlow、PyTorch 等。

2020 年 3 月 28 日,华为将全场景 AI 计算框架昇思 MindSpore 正式开源,致力于构筑面向全球的开源社区,持续推动 AI 开源生态繁荣发展。随着越来越多的知名高校和科研机构拥抱昇思 MindSpore,它们联合昇思 MindSpore 先后打造出了覆盖 NLP、CV 和多模态融合以及特定于某个领域的专用大模型,逐渐形成了基础大模型 + 行业大模型的整体布局。

昇思 MindSpore 总体架构。

四大模型介绍

2021 年 5 月,在华为生态大会 2021「昇腾万里 共赢智能新时代」上,鹏城实验室基于昇思 MindSpore 推出了全球首个 2000 亿参数中文 NLP 大模型鹏程.盘古,它在预训练阶段学习了 40TB 的中文文本数据。在性能方面,鹏程.盘古在 16 个下游任务中性能指标优于业界 SOTA 模型;在应用方面,鹏程.盘古在知识问答、知识检索、知识推理等丰富的文本生成领域表现突出。

为了让鹏程.盘古大模型在各行各业的语言类场景下发挥作用,它的模型、代码和数据集在 OpenI 启智社区进行开源开放,吸引大家共同参与到模型的压缩轻量化和应用创新工作中,不断挖掘鹏程.盘古的巨大潜力。



鹏程.盘古大模型专注于文本模态,多模态则是 AI 世界的常态。推及到预训练大模型,业界广泛认为由单模态扩展至多模态是必由之路。中科院自动化所基于昇思 MindSpore 打造了全球首个千亿参数三模态大模型紫东.太初,通过跨模态语义关联达成了视觉-文本-语音三模态的统一表达和高效协同。

紫东.太初多模态大模型具有超强的图文音跨模态理解与生成能力,与单模态相比,只需要一个大模型就能支撑图文音全场景 AI 应用。紫东.太初大幅提升文本、语音、图像和视频等领域的基础任务性能,在多模态内容的理解、搜索、推荐和问答、语音识别和合成、人机交互和无人驾驶等商业应用中具有巨大的市场价值。紫东.太初同样坚持基础模型开源的开源开放,通过开源的形式将模型分享业界使用,让伙伴们基于紫东.太初孵化更多的行业应用,同时开源协作还将有利于模型进一步升级,开发者可以在紫东.太初模型代码的基础上持续创新

在华为全联接 2021 上,自动化所所长徐波演示了紫东.太初训练出来的虚拟人小初的语音生成视频能力。

无论是鹏程.盘古,还是紫东.太初,都属于基础大模型。接下来要说的是行业大模型,当被输入丰富的行业知识时,更专的大模型也就出现了。

同样在华为全联接 2021 上,鹏城实验室基于昇思 MindSpore AI 框架打造的鹏程.神农大模型正式发布,它是面向生物医学领域的 AI 平台,包含蛋白质结构预测、小分子生成、靶点与小分子相互作用预测以及新抗菌多肽设计与效果评价等模块,深度赋能生物制药。借助鹏程.神农的能力,制药企业和医学研究机构将大大加速新型药物的筛选与创制。

在抗菌肽(下一代抗菌素)的探索中,借助鹏程.神农大模型强大的氨基酸序列生成能力,并结合现有抗菌肽数据集,人们可以在很短时间内产生数万种候选肽的氨基酸序列。传统方法在长达四十年的时间里仅仅生成 4000 多种候选多肽,而鹏程.神农 + 抗菌肽分类器的组合在数月内产生 30 万种候选多肽。前后效果对比可见一斑,这也正是大模型的魔力。


2021 年 7 月,武汉大学正式推出武汉.LuoJia,包含全球首个遥感影像智能解译专用框架武汉.LuoJiaNET 和业界最大遥感影像样本数据集武汉.LuoJiaSET并已于今年 6 月分别上线昇腾和昇思社区。武汉.LuoJia 整体解决方案为遥感应用开发提供便利,让智能遥感技术在自然资源、海洋、农业、森林、应急等行业得到广泛应用。

武汉.LuoJiaNET 针对遥感数据存在的像幅尺寸大、数据通道多、尺度变化大等特点,兼具内存可扩展、尺度通道灵活创建、数据通道自主优选、框架与数据协同处理等特性。其构建了针对遥感影像「场景 - 目标 - 像素」多维度的遥感应用模型,能够完成场景检索、目标检测、地物分类、变化检测、多视角三维重建等任务。

武汉.LuoJiaSET 则是遥感领域满足 OGC 标准的大规模遥感影像样本库,制定了支持全球范围的遥感影像样本分类标准、标注规范,建立涵盖不同遥感任务的统一分类体系,形成样本要素的采集要求、内容和流程规范,支持多级别、多类型遥感影像样本库的采集、制作、管理、共享和应用。

武汉.LuoJia 整体解决方案。

从这些大模型来看,华为已经形成了一套清晰和成熟的支持大模型发展的路径,即通过科研机构基于昇腾 AI,利用全场景 AI 框架昇思 MindSpore,打造各类大模型如鹏程.盘古和鹏程.神农大模型利用了「鹏城云脑 II」超大规模 AI 集群,紫东.太初和武汉.LuoJia 利用了武汉人工智能计算中心 AI 集群。如此一来,昇思 MindSpore AI 框架赋能+ 昇腾 AI 提供的强大算力底座,形成的良性循环将进一步为大模型的研发注入活力。

在华为伙伴暨开发者大会 2022 上,华为发布了其昇腾大模型沙盘规划,明确了基础大模型和行业大模型/应用并行发展的整体布局。在继续推进 NLP、CV 和多模态等基础 AI 创新的同时,立足于行业以实现大模型在互联网、电力、智慧城市、金融和农业等更多领域发光发热。


昇思大模型体验平台上线

在大模型实现落地应用的过程中,开发者的实际体验和意见反馈是非常重要的一环。目前来看,构建体验平台和开发者社区是比较流行的做法。如此一来,开发者可以在终端上手体验大模型的能力,并及时给予反馈以便进一步改进和完善。

基于此,昇思 MindSpore 社区打造了一站式大模型体验平台,并于今日正式上线。开发者可以在线体验大模型推理任务,从而最便捷地使用基于昇思的创新大模型。


据了解,昇思大模型体验平台的亮点在于集模型选型、在线推理、在线训练为一体,还支持了 Gradio 项目可视化推理、在线进行迁移学习。开发者可以在线查询基于昇思 MindSpore 构建的模型和数据集,并选择自己感兴趣的大模型及相关任务,如鹏城.盘古大模型的知识问答、检索和推理等、紫东.太初多模态大模型的以音搜图、以图生音和以音生图等。


昇思大模型体验平台将于即日起开启公测,截止至 9 月 30 日参与平台公测将可享受以下福利:

  • 第一阶:首次注册,赠送 1 小时算力
  • 第二阶:下载首个模型,赠送 1 小时算力
  • 第三阶:邀请新用户成功注册,邀请最多新用户的前三名老用户,赠送价值 5000 元、3000 元、1000 元京东卡
  • 第四阶:下载模型最多用户,前三位赠送价值 3000 元、2000 元、1000 元京东卡
  • 第五阶:创建可运行项目最多的前三位赠送 2000 元、1000 元 、500 元的算力


联系小助手即可领取相应福利;微信 mindspore0328

结语

在各大科技巨头纷纷下注大模型赛道的当下,形成自己的核心竞争力变得尤为重要。昇思 MindSpore AI 框架已经成为了大模型研发的技术支撑,开源开放更使得产学界可以基于它研发自己的大模型。当前,华为联合科研机构和产业界,基于昇思 MindSpore AI 框架与各地人工智能计算中心的昇腾 AI 强大算力不断发展基础大模型和行业大模型的产业生态,赋能千行百业数字化、智能化。

同时,为了进一步促进大模型的产业化落地,华为携手合作伙伴成立多个产业联盟,如基于武汉.LuoJia 的智能遥感开源生态联盟和基于紫东.太初的多模态人工智能产业联盟。今年,华为还计划推出 AI 流体力学产业联盟、AI 生物医药产业联盟等。

图源:华为伙伴暨开发者大会 2022

产业联盟的建立一方面促进合作伙伴基于已有大模型孵化更多行业应用,让大模型真正赋能产业;另一方面大模型得到了行业更丰富数据、和更泛化应用场景的反哺,由此带来基础能力的不断提升,让大模型更智能、更适配应用场景。

参考链接:https://www.mindspore.cn/largeModel/taichuhttps://www.mindspore.cn/largeModel/panguhttps://www.pcl.ac.cn/html/943/2021-09-26/content-3858.htmlhttp://www.caict.ac.cn/english/research/whitepapers/202203/P020220322344729036910.pdf

相关文章
|
20天前
|
人工智能 测试技术 API
AI计算机视觉笔记二十 九:yolov10竹签模型,自动数竹签
本文介绍了如何在AutoDL平台上搭建YOLOv10环境并进行竹签检测与计数。首先从官网下载YOLOv10源码并创建虚拟环境,安装依赖库。接着通过官方模型测试环境是否正常工作。然后下载自定义数据集并配置`mycoco128.yaml`文件,使用`yolo detect train`命令或Python代码进行训练。最后,通过命令行或API调用测试训练结果,并展示竹签计数功能。如需转载,请注明原文出处。
|
13天前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
196 73
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
赋能百业:多模态处理技术与大模型架构下的AI解决方案落地实践
【9月更文挑战第4天】赋能百业:多模态处理技术与大模型架构下的AI解决方案落地实践
赋能百业:多模态处理技术与大模型架构下的AI解决方案落地实践
|
3天前
|
人工智能 安全 算法
5年数据观巨变,这家公司如何在AI和大模型数据赛道遥遥领先?
5年数据观巨变,这家公司如何在AI和大模型数据赛道遥遥领先?
|
8天前
|
存储 人工智能 算法
阿里云AI基础设施升级亮相,模型算力利用率提升超20%
阿里云AI基础设施升级亮相,模型算力利用率提升超20%
|
4天前
|
人工智能 开发框架 Java
重磅发布!AI 驱动的 Java 开发框架:Spring AI Alibaba
随着生成式 AI 的快速发展,基于 AI 开发框架构建 AI 应用的诉求迅速增长,涌现出了包括 LangChain、LlamaIndex 等开发框架,但大部分框架只提供了 Python 语言的实现。但这些开发框架对于国内习惯了 Spring 开发范式的 Java 开发者而言,并非十分友好和丝滑。因此,我们基于 Spring AI 发布并快速演进 Spring AI Alibaba,通过提供一种方便的 API 抽象,帮助 Java 开发者简化 AI 应用的开发。同时,提供了完整的开源配套,包括可观测、网关、消息队列、配置中心等。
366 5
|
2天前
|
存储 人工智能 算法
AI伦理学:建立可信的智能系统框架
【9月更文挑战第26天】随着AI技术的迅猛发展,其在各领域的应用日益广泛,但也带来了算法偏见、数据隐私泄露、就业替代等伦理和法律挑战。本文探讨AI伦理学的核心议题,包括数据隐私保护、算法公平性与透明度、机器决策责任归属及对就业市场的影响,并提出建立可信智能系统框架的建议,如强化法律法规、技术创新、建立监督机制、行业自律和公众教育,以确保AI技术的可持续发展和社会接受。
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
AI人工智能大模型的架构演进
随着深度学习的发展,AI大模型(Large Language Models, LLMs)在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进,包括从Transformer的提出到GPT、BERT、T5等模型的历史演变,并探讨这些模型的技术细节及其在现代人工智能中的核心作用。
57 9
|
15天前
|
人工智能 自动驾驶 云计算
【通义】AI视界|谷歌大模型被盯上!欧盟最高隐私监管机构对PaLM2模型展开调查~
本文汇总了近24小时内科技领域的五大要闻:欧盟对谷歌PaLM2模型启动隐私合规调查;甲骨文推出Zettascale云计算集群,集成大量NVIDIA GPU强化计算力;红杉资本偏好AI应用投资而非模型构建;夸克新推智能助手CueMe,支持长达2万字内容生成;沃尔沃与NVIDIA合作,未来车型将采用后者先进芯片提升自动驾驶功能。以上内容由通义自动生成。
|
17天前
|
机器学习/深度学习 人工智能 供应链
【通义】AI视界|OpenAI的“草莓”模型预计两周内上线!像人类一样思考!
本文介绍了近期科技领域的五大亮点:OpenAI即将推出的新一代AI模型“草莓”,具备高级推理能力;亚马逊测试AI技术加速有声读物生产,通过语音克隆提高效率;Kimi API新增联网搜索功能,拓宽信息来源;顺丰发布物流行业专用大语言模型“丰语”,提升工作效率;钉钉推出“AI班级群”功能,改善家校沟通体验。更多详情,请访问[通义官网]。