不作诗,只做事:华为盘古3.0,给大模型落地定了个调

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 不作诗,只做事:华为盘古3.0,给大模型落地定了个调

张平安:「大模型将重塑千行百业,每个开发者都将是改变世界的英雄。」


千呼万唤始出来,华为的多模态千亿级大模型 「盘古」3.0 版来了。

自去年底以来,ChatGPT 的技术突破引爆了 AI 军备竞赛,国内外科技公司和机构接连发布了上百个大语言模型。

而在其中,有个玩家「没有出手」,却一直备受期待。7 月 7 日,华为开发者大会 HDC Cloud 在东莞召开,在刚刚进行的 Keynote 上,华为终于公布了盘古大模型的最新消息。

「自 2017 年 transformer 架构提出以后,在一些领域,新的架构已经开始解决通用性问题,AI 进入了大模型时代。国内上半年陆续发布了 80 余个 AI 大模型,」华为常务董事 、华为云 CEO 张平安表示。「我们注意到了它们都有很好的对话能力。但我要说,盘古大模型不写诗,只做事。盘古大模型的目标是利用 AI 技术给各行业带来价值。」

在这次大会上,盘古大模型再次明确定位「为行业而生」,华为也首次对外公布了盘古基础大模型的全栈创新和行业大模型的技术细节。

揭秘盘古 3.0

盘古大模型的目标是要重塑千行百业。

具体来说,3.0 版的盘古大模型是一个面向行业的大模型系列,具有「5+N+X」三层架构:从 AI 能力的基础层,到行业的第二层,再到应用层面向场景的各个接口,华为围绕深耕行业面向开发者持续打造了新的竞争力。

其中:

  • L0 层包括 NLP、视觉、多模态、预测、科学计算五个基础模型,提供满足行业场景中的多种技能需求。盘古 3.0 提供了 100 亿、380 亿、710 亿和 1000 亿参数等基础大模型,以匹配不同场景、时延、响应速度的行业多样化需求。同时提供全新能力集,包括 NLP 大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力,这些技能都可以供客户和伙伴企业直接调用。无论多大参数规模的大模型,盘古提供一致的能力集。
  • L1 层是多个行业大模型,华为云既可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等大模型;也可以基于行业客户的自有数据,在盘古大模型的 L0 和 L1 层上,为客户训练自有的专用大模型。
  • L2 层提供了更多细化场景的模型,更专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景,为客户提供「开箱即用」的模型服务。


针对千亿级参数大模型的训练,华为提出了多种高效训练新技术。

最后这个训练优化器,还入围了 7 月即将举行的 AI 顶会 ACL 的杰出论文奖。

盘古大模型采用完全分层解耦设计,可以快速适配、快速满足行业需求。客户既可以为自己的大模型加载独立的数据集,也可以单独升级基础模型,也可以单独升级能力集。

在 L0 和 L1 大模型的基础上,华为云还为客户提供了大模型行业开发套件,通过对自有数据二次训练,客户就可以拥有自己的专属行业大模型。同时,根据客户不同的数据安全与合规诉求,盘古大模型还提供了公用云、大模型云专区、混合云多样化的部署形态。

在盘古大模型体系下,AI 是如何实现专业化落地的?华为表示,在 AI 管道上存在数十个不同的模型,匹配了多行业的不同诉求。基于此,文案生成,对话语音、代码生成,以及图像生成、编辑等能力都可以供人们快速调用上线。

华为表示,盘古大模型易落地的优势,在于提供了解耦设计。

「我们所有的大模型都共用了能力集,训练数据也进行了解耦。不管你希望使用 310 亿大模型,还是 1000 亿参数的大模型,都可以快速进行转换,」张平安表示。

在底层算力上,华为提供了基于昇腾的硬件,构建了昇腾芯片使能能力 CANN,在这其上则是 MindSpore AI 框架和 ModelArts 机器学习平台。基于这样的全栈能力,华为提升了大模型构建、训练和部署的效率。

由于众所周知的原因,华为使用自有算力设备,在昇腾云上,我们发现大模型的训练效率达到了业界主流 GPU 的 1.1 倍。

硬件能力

这样的算力也可以为外界所用。此次华为云还宣布在乌兰察布和贵安上线昇腾 AI 云服务,可提供每秒 200 亿亿次浮点运算能力。现在缺乏 GPU 的科技公司有了新的选择。据介绍,美团利用昇腾 AI 云服务,AI 算子的工作效率提升了 30%。

昇腾云服务除支持华为自家的 AI 框架 MindSpore 外,还支持 PyTorch、TensorFlow 等主流 AI 框架,框架中的 90% 算子都可以通过华为的迁移工具从 GPU 平滑迁移到昇腾。

为行业而生

昨天在 WAIC 大会上,华为轮值董事长胡厚崑表示,ChatGPT 的出现把 AI 推向了新的风口,人工智能将帮助改写身边的一切。华为现在的核心目标是在下个阶段,全力推进人工智能走深向实。

华为盘古系列基础大模型于 2021 发布,包括 NLP、CV 和科学计算大模型,后续发布了矿山、药物分子、气象、海浪等行业大模型。

其中,盘古 NLP 大模型首次使用了 Encoder-Decoder 架构,兼顾 NLP 大模型的理解能力和生成能力,保证了模型在不同系统中的嵌入灵活性。而在下游应用中,盘古大模型仅需少量样本和可学习参数即可完成千亿规模大模型的快速微调和下游适配。

而盘古 CV 大模型则是首次实现模型按需抽取的业界最大 CV 大模型,兼顾判别与生成能力,能够基于模型大小和运行速度需求,自适应抽取不同规模模型,AI 应用开发快速落地。

据华为介绍,盘古大模型已经深耕超过十个行业,服务 400 余个业务场景。

就在昨天,华为云盘古大模型研发团队独立研究并撰写的一篇论文《Pangu-Weather: A 3D High-Resolution Model for Fast and Accurate Global Weather Forecast》登上了《自然》杂志。

作为工程领域的 AI 技术,登陆 Nature 正刊是一件罕见的事。该论文详细介绍了基于深度学习开发的精准精确全球 AI 气象预报系统 —— 华为云盘古气象大模型,这是首个精度超过传统数值预报方法的 AI 预测模型,突破了 AI 预报天气精度不及传统数值预报的世界性难题,对比传统方法预测速度提升 10000 倍,可秒级完成对全球气象的预测

《自然》审稿人对该成果给予高度评价:「盘古气象大模型让人们重新审视气象预报模型的未来,模型的开放将推动该领域的发展。」因为盘古气象系统的准确表现,欧洲气象局已经将该系统列入了模型对比作为参考。

这是盘古大模型应用的「一小步」。在下午的发布会上,华为介绍了一系列大模型在其他领域的落地进展。

在政务领域,华为云携手深圳市福田区政务服务数据管理局上线了政务智慧助手小福,其能够精准理解民众咨询意图,改变了传统的一网通办模式。

在基于盘古大模型的政务助手上,AI 可以实现对话理解,画面内容的分割和理解,并正确对于政务规则进行解释并提出建议。现在摄像头从看得明白升级到了看得懂,对开放世界有了进一步的发现理解,构建了感知、认知到决策处置的全流程能力。

在金融行业,人们面临巨量的数据,对于数据应用和分析的门槛很高。工行在全国有 4 万余个网店和 20 万余员工,利用盘古大模型,工行与华为构建了金融大模型(网店助手),新的模型把生成能力和检索能力进行了结合,可以为柜台流程形成规范的操作指导,降低了单词业务办理的操作次数,每次办结时间缩短了 5 分钟以上。未来,人们还希望在此基础上构建信贷系统、金融风控等组件。

在制造业,生产供应和交付存在大量决策优化问题,传统的求解是一个复杂过程,需要业务专家、编程专家甚至数学专家进行合作。在华为供应链中,盘古制造大模型提前学习了业务流程、制造规则,现在发给制造员的订单信息和邮件可以被大模型准确理解,转化为调度指令交由「盘古天筹求解器」,成为了未来三天的全局统筹最有规划。

当其他大模型还在聊天写段子的时候,盘古大模型正在下矿井,做气象预测,开发新药。华为表示,这就是盘古大模型的理念。

最后当然还有 AI 自动编程能力,华为盘古的代码生成工具名叫 CodeArts。

「盘古训练了 760 亿行精选代码,8500 万开源代码仓,1300 余万篇技术文档。它内建了盘古大模型智能开发助手 CodeArts Snap,目标是一句话生成代码,一个案件生成测试用例,依次点击自动注释。我们的目标是让它称为每个开发者的 AI 助手,」张平安表示。

它有三大核心能力:智能生成代码,智能问答和智能协同。

在现场,华为展示了用 CodeArts Snap 开发一个未完成的应用。首先,我们用对话方式提出需求,把需求复制到代码注释位置,就可以命令 Snap 直接完成目标任务的开发。

我们可以让 Snap 解释代码的意义,生成测试用例,随后直接一句话就可以让它自动提交代码,进行流水线应用部署,AI 还自动生成了 Commit 提交信息。过去这些功能可能需要在不同软件上进行切换,现在在一个对话框里,这些任务就可以快速完成了。

在活动中,华为还介绍了数字内容生产工具 MetaStudio 的能力,拍摄一段 5 分钟的视频上传到华为云,一个小时后就可以构建出一个属于自己的数字人。

总结一下,盘古希望让每个开发者和企业都有自己的 AI 版专家助手。

看起来,这样的目标已经一定程度上实现了,未来我们将看到更多基于盘古大模型的应用。

相关文章
|
8月前
|
人工智能 运维 监控
别再熬夜调模型——从构想到落地,我们都管了!
本文将以 Qwen2.5 : 7B 为例进行演示,介绍如何通过人工智能平台 PAI实现AI 研发的全链路支持,覆盖了从数据标注、模型开发、训练、评估、部署和运维管控的整个AI研发生命周期。
1215 37
|
设计模式 前端开发 Java
DTO和VO的区别及使用场景详解
DTO和VO的区别及使用场景详解
6744 1
|
传感器 开发工具 IDE
【Arduino基础教程】MQ135空气质量检测模块
MQ135空气质量检测模块 MQ135主要用于检测空气中的二氧化碳、酒精、苯、氮氧化物、氨等气体的浓度。 本文将介绍MQ135的两种使用方法 不使用库文件 使用别人写好的库文件 1.
3910 0
|
8月前
|
负载均衡 容灾 Cloud Native
云原生应用网关进阶:阿里云网络ALB Ingress 全能增强
在过去半年,ALB Ingress Controller推出了多项高级特性,包括支持AScript自定义脚本、慢启动、连接优雅中断等功能,增强了产品的灵活性和用户体验。此外,还推出了ingress2Albconfig工具,方便用户从Nginx Ingress迁移到ALB Ingress,以及通过Webhook服务实现更智能的配置校验,减少错误配置带来的影响。在容灾部署方面,支持了多集群网关,提高了系统的高可用性和容灾能力。这些改进旨在为用户提供更强大、更安全的云原生网关解决方案。
1132 25
|
9月前
|
机器学习/深度学习 人工智能 搜索推荐
DeepSeek-V2.5-1210 在线开放使用!支持联网搜索,在各大领域的表现得到全面提升
DeepSeek-V2.5-1210 是 DeepSeek V2.5 系列的最终版微调模型,支持联网搜索功能,具备在数学、编程、写作和角色扮演等领域的能力提升。本文将详细介绍该模型的功能、技术原理及应用场景。
10211 19
DeepSeek-V2.5-1210 在线开放使用!支持联网搜索,在各大领域的表现得到全面提升
|
9月前
|
运维 监控 安全
天财商龙:云上卓越架构治理实践
天财商龙成立于1998年,专注于为餐饮企业提供信息化解决方案,涵盖点餐、收银、供应链和会员系统等。自2013年起逐步实现业务上云,与阿里云合作至今已十年。通过采用阿里云的WA体系,公司在账号管理、安全保障、监控体系和成本管控等方面进行了全面优化,提升了业务稳定性与安全性,并实现了显著的成本节约。未来,公司将持续探索智能化和全球化发展,进一步提升餐饮行业的数字化水平。
|
12月前
|
人工智能 关系型数据库 分布式数据库
用友X阿里云:加速AI in SaaS
在今年的云栖大会上,用友公司与阿里云共同宣布将进一步加深合作,推动用友BIP与阿里云深度融合,以SaaS模式为诸多大中型企业客户提供一体化解决方案。同时,通义大模型已作为底层基础大模型集成到用友企业服务大模型YonGPT,加速企业数智化转型。
318 7
|
存储 固态存储 Java
用软硬协同设计下的飞天盘古降低存储系统开销
历经 15 载,如今的飞天盘古系统已迭代至第三代,数千万行代码和 1,000 余项专利,从大规模、到高性能、到高效能的分布式存储系统的演进,更高效地让数据中心成为一台计算机。
140256 143
用软硬协同设计下的飞天盘古降低存储系统开销
|
前端开发 架构师 算法
技术一号位的方法论《个人篇》——人成长的本质以及如何构建个人成长路线图
不论你是职场新人还是35岁的职场“老人”,成长是每个职场人都绕不开的话题,同时也是贯穿每个人职业生涯的痛点。本文主要帮助读者建立起对个人成长的认知,然后在此认知的基础上让大家理解成长的本质,最终通过文章的引导,来帮助读者完成个人成长路线图的确定以及落地实践。
13773 3
技术一号位的方法论《个人篇》——人成长的本质以及如何构建个人成长路线图