26岁的“天才少年”,带队面壁打通高效大模型之路

简介: **曾国洋,26岁的面壁智能CTO,自幼编程,清华NLP实验室研究员,致力于高效大模型。他领导的面壁智能通过OpenBMB社区降低大模型使用门槛,推动大模型训练效率提升与成本控制。在与昇腾AI的合作中,实现大模型性能与国产化适配,目标是使AGI更高效、普及。尽管市场竞争激烈,曾国洋坚信AGI未来并持续推动技术创新。**

每一轮技术浪潮出现时,冲在最前面的都是朝气蓬勃的年轻人。

当大模型代表的人工智能浪潮席卷全球,作为移动互联网“原住民”的年轻开发者,可以说是最活跃的群体。他们的脸庞还有些稚嫩,但在技术和方向上有着自己的想法,在火热的AI赛道里加速狂奔,努力打下一片新天地。

面壁智能CTO曾国洋就是其中的佼佼者,26岁的年纪管理着清华系明星大模型创业公司的研发团队,坚定地踏上了AGI征途。

01 十多年开发经验的创业公司CTO
在许多人的印象中,24岁不过是研究生刚毕业的年纪,刚刚进入职场,扮演的还是“学徒”的角色。但在曾国洋的故事里,24岁已经作为CTO带领着面壁智能的核心技术团队,同时也是一位有着十多年经验的资深开发者。

和OpenAI的创始人Sam Altman一样,曾国洋在8岁就开始学编程。身边的朋友、老师、父母等潜移默化地告诉他:“会写代码”是一件很厉害的事。于是从Visual Basic开始,懵懵懂懂地开启了编程之路。

到了中学时,曾国洋已经系统性地接触了C/C++,喜欢在网上看一些国内外的资料,尝试写出更复杂的程序。因为“写代码”的爱好,曾国洋在高二时先后获得全国青少年信息学竞赛金牌和亚太地区信息学竞赛金牌,并因此被保送到清华,为日后的大模型创业埋下了伏笔。

没有高考压力的曾国洋,在2015年的冬令营上了解到旷视正在招实习生,抱着试一试的心态报了名,由此正式步入AI领域。

AlphaGo和李世石的围棋大战,点燃了深度学习的热潮,无数年轻人为之彻夜不眠,曾国洋也不例外。大二期间,在室友的引荐下,曾国洋加入了清华大学NLP实验室,误打误撞成为中国最早一批大模型研究员,并在后来成为悟道·文源中文预训练模型团队的骨干成员。

十多年的开发经验,培养了曾国洋的工程化思维和能力,大学毕业时不甘于做象牙塔里的学术派,毅然加入到了大模型浪潮中。

在OpenAI发布GPT-3的第二年,为了解决大模型“训练难、微调难、应用难”的挑战,曾国洋作为联合发起人创建了OpenBMB开源社区,旨在打造大规模预训练语言模型库与相关工具,加速百亿级以上大模型的训练、微调与推理,以降低大模型的使用门槛,实现大模型的标准化、普及化和实用化,让大模型能够飞入千家万户。

清华大学计算机系长聘副教授刘知远在2022年牵头创办面壁智能时,曾国洋果断放弃了手里的多个Offer,担纲这家大模型创业公司的技术1号位,完成了从一线开发者到大模型创业公司CTO的华丽转身。

02 “高效大模型就是面壁智能”
Scaling law,被看作是 OpenAI 的核心技术,简单来说,可以通过更复杂的模型、更大的数据量、更多的计算资源,提高模型的性能。前两年,国内外企业都在卷参数量,做到了千亿、万亿,甚至是十万亿,越到后面,但大家渐渐发现参数量更大,不代表模型效果更好。

在曾国洋看来:如果大模型作为实现AGI的关键路径,但成本却无比高昂,那么即使实现了AGI,但AGI比人还贵、那也没太大意义,所以要降低模型成本。对于大模型落地来说,效率是很个关键的问题,需要控制成本来达到更好的效果,这样才能去扩展大模型的应用边界。

不久前举办的鲲鹏昇腾开发者大会2024上,曾国洋在演讲中表示:“面壁智能持续引领高效大模型路线,推动大模型高效训练、快步应用落地,以更快速度,更低成本,提供最优智能实现方案。”

首先要解决的就是高效训练。

公开数据显示,OpenAI训练GPT-3的成本约为430万美元,到了GPT-4已经上涨到7800万美元,谷歌Gemini Ultra在计算上花费了1.91亿美元......比大模型能力更早指数性增长的,居然是大模型的训练成本。

该怎么提升大模型训练效率呢?

面壁智能在2024年初的一篇论文中提出了思路:如果大模型还未训练出来时就能预测性能大约在什么水平,可以先通过小模型做实验、调参数,再按照相同的数据配比、数调整等方法训练大模型。

其实在2023年,面壁智能就已经开始探索高效的Scaling Law,用小十倍参数模型预测大十倍参数模型的性能,并且取得了不错的成绩:

旗舰端侧基座模型MiniCPM用2.4B的参数量,在性能上越级超越Mistral-7B、Llama2-13B乃至更大的全球知名模型;旗舰端侧多模态模型MiniCPM-V刷新了开源模型最佳OCR 表现,部分能力比肩世界级多模态模型标杆 Gemini-Pro 与 GPT-4V。前两天发布的端侧最强多模态模型MiniCPM-Llama3-V 2.5 ,超越多模态巨无霸 Gemini Pro 、GPT-4V实现了「以最小参数,撬动最强性能」的最佳平衡点。“大”并非是唯一选项,小模型也可以实现同样的效果。

面壁智能的“高效”,不单单体现在训练环节。

在部署方面,面壁智能是模型厂商中最早提出“端云协同”的,通过协同推理的方式降低降低推理部署的成本、时延和能耗,让大模型可以跑在手机、电脑、汽车、音箱等低功耗的芯片。

以及大模型驱动的群体智能技术体系,包含智能体通用平台AgentVerse、技术协同同台、应用层面的多智能体协作开发框架ChatDev,帮助开发者打通大模型落地应用的最后一公里。

03 全流程加速大模型应用升级
基于丰厚原创技术底蕴,并匹配大模型这一系统工程的本质要求,面壁打造了一条从数据原材料、到模型制作过程中精湛训练与调校工艺环环相扣的全高效生产线。

譬如面壁智能独家的“沙盒实验”,让小模型验证大模型性能成为可能;Ultra对齐技术,可以有效大模型的综合表现;现代化数据工厂,形成从数据治理到多维评测的闭环;高效的Infra,为面壁智能的大模型训练打好了地基;训练框架BMTrain、推理框架BMINF、压缩框架BMCook和微调框架BMTune构成工具套件平台,可在降低90%的训练成本同时,将推理速度提升10倍。

在创立之初,面壁智能就开始将大模型和国产软硬件基础设施做适配,想要从全流程加速大模型应用升级。直接的例子就是面壁智能和昇腾AI在软硬件的深度合作。

比如面壁智能基于昇腾基础软硬件完成了CPM-BEE大模型和BMTrain加速框架的迁移,通过两个关键步骤实现了BMTrain和昇腾的适配,通过亲和融合算子替换实现了大模型的性能提升,最终让CPM、llama等模型的集群训练性能与业界持平。

再比如基于昇腾底座采用MindSpore框架开展了深入的创新研究。在微调方面,面壁智能实现了多个下游任务Sora在使用不超过1%的模型参数微调时,仍然能够超越其他微调方式;针对推理场景,面壁智能通过量化、蒸馏、剪枝等技术的灵活组合,在多项任务上压缩至1/3时,模型精度仍能保持99%。

国内的大模型团队中,同时从算力、数据、算法切入的团队并不多见,为何面壁智能选择和昇腾AI一起,全面系统地推进大模型上下游工程?

曾国洋曾在媒体采访中这样说道:“我们追求的是,在同样的时间、同等参数量的条件下,实现更优的Scaling Law。当模型的效率优化到一定程度的时候,如果要继续精进下去,就需要数据、算力与算法多者结合。”

这种不给自己设限的挑战精神,所带来的不单单是效率,还有通往AGI道路时的底气。

不少大模型团队为算力卡脖子问题焦虑的时候,曾国洋态度相当镇定:“对于比较早开展大模型研发的团队来说,国产化适配基本上都已经完成了,因为做的早嘛。其实国产化算力的差距没有想象的那么大,特别是像昇腾这些设备,目前已经达到了大规模商用的水平。”

和面壁智能一样,昇腾AI也在全流程使能大模型创新落地,从大模型的开发训练到推理部署。正是这些同道人的相向而行,让大模型开发不再是复杂的超级工程,每个开发者都能参与其中。

04 写在最后
大模型市场竞争激烈,技术迭代日新月异,但曾国洋连续几个月工作都不觉疲惫,用他自己的话说“因为我很相信 AGI 会实现。”

这正是年轻人的“可爱之处”,他们有挑战新事物的勇气,也有躬身入局的行动力,更重要的是,他们还是一群有理想的开发者。就像曾国洋在创办OpenBMB开源社区的初心:帮助千千万万的开发者降低门槛,让大模型飞入千家万户。面壁智能无疑是理想和初心的延续。

相关文章
|
2月前
|
机器学习/深度学习 安全 大数据
揭秘!企业级大模型如何安全高效私有化部署?全面解析最佳实践,助你打造智能业务新引擎!
【10月更文挑战第24天】本文详细探讨了企业级大模型私有化部署的最佳实践,涵盖数据隐私与安全、定制化配置、部署流程、性能优化及安全措施。通过私有化部署,企业能够完全控制数据,确保敏感信息的安全,同时根据自身需求进行优化,提升计算性能和处理效率。示例代码展示了如何利用Python和TensorFlow进行文本分类任务的模型训练。
127 6
|
1天前
|
存储 缓存 Serverless
使用云存储构建云上推理平台
本文介绍了大模型分布式推理的工作流、IO分析、存储需求及解决方案。通过分布式缓存和P2P能力,优化了大规模并发场景下的模型加载与分发效率,提升了推理性能。NAS文件存储和OSS加速器在高并发读取和小模型缓存中表现出色,支持秒级加载和高效数据处理。阿里云存储为开发者提供了稳定、高效的推理环境,助力AI应用快速落地。
|
1天前
|
人工智能 供应链 安全
面向高效大模型推理的软硬协同加速技术 多元化 AI 硬件引入评测体系
本文介绍了AI硬件评测体系的三大核心方面:统一评测标准、平台化与工具化、多维度数据消费链路。通过标准化评测流程,涵盖硬件性能、模型推理和训练性能,确保评测结果客观透明。平台化实现资源管理与任务调度,支持大规模周期性评测;工具化则应对紧急场景,快速适配并生成报告。最后,多维度数据消费链路将评测数据结构化保存,服务于综合通用、特定业务及专业性能分析等场景,帮助用户更好地理解和使用AI硬件。
|
3月前
|
存储 运维 物联网
长安汽车×云器Lakehouse一体化数据平台,成本降低50%,建立智能互联时代的领先优势
长安汽车智能化研究院致力于汽车智能化技术研究,通过构建基于云器科技Lakehouse一体化数据平台,解决了高并发、大规模车联网数据处理难题,实现了数据实时写入、高效分析和成本优化,助力汽车智能驾驶、网联和交通全面发展。
115 0
长安汽车×云器Lakehouse一体化数据平台,成本降低50%,建立智能互联时代的领先优势
|
3月前
|
运维 物联网 5G
5G网络的多接入技术融合:构建无缝通信未来
5G网络的多接入技术融合:构建无缝通信未来
230 4
|
3月前
|
数据采集 安全 数据管理
通信行业数据治理:如何实现高效、安全的数据管理?
在未来的发展中,通信行业的企业应加强数据治理意识,提高数据治理能力;同时,积极开展跨行业的合作创新,共同推动行业的繁荣与发展。相信在不久的将来,通信行业将迎来更加美好的明天。
|
7月前
|
存储 弹性计算 安全
构建高效企业应用架构:阿里云产品组合实践深度解析
该方案展现了阿里云产品组合的强大能力和灵活性,不仅满足了当前业务需求,也为未来的扩展打下了坚实的基础。希望本文的分享能为读者在设计自己的IT解决方案时提供一定的参考和启发。
375 1
|
8月前
|
运维 监控 持续交付
构建高效稳定的云基础设施:最佳实践与案例分析
【5月更文挑战第31天】本文旨在探讨如何通过采纳现代云基础设施的最佳实践,构建一个高效且稳定的运维环境。文章将详细讨论云计算资源管理、自动化工具的应用、持续集成/持续部署(CI/CD)流程的优化以及监控和日志分析的重要性。通过对具体案例的分析,我们展示了这些策略如何在实际环境中提升系统的可靠性和性能,同时减少潜在的风险和成本。
|
8月前
|
运维 负载均衡 安全
回归网络本质需求,提供普惠连接价值 持续打造简单易用的智能云网络
2023年11月25日,北京,在第六届SD-WAN&SASE大会暨云网络大会上,阿里云资深产品总监、阿里云网络产品管理负责人孙成浩受邀做了《打造简单易用的智能云网络——云网络持续演进之路》的主题分享,回顾云网络产业发展,阐释云网络未来演进方向,以及阿里云网络产品服务今年的能力演进。
447 9
|
8月前
|
分布式计算 大数据 数据处理
大数据开发企业级案例__某通信企业数据处理需求(建议收藏)
大数据开发企业级案例__某通信企业数据处理需求(建议收藏)
73 0