26岁的“天才少年”,带队面壁打通高效大模型之路

简介: **曾国洋,26岁的面壁智能CTO,自幼编程,清华NLP实验室研究员,致力于高效大模型。他领导的面壁智能通过OpenBMB社区降低大模型使用门槛,推动大模型训练效率提升与成本控制。在与昇腾AI的合作中,实现大模型性能与国产化适配,目标是使AGI更高效、普及。尽管市场竞争激烈,曾国洋坚信AGI未来并持续推动技术创新。**

每一轮技术浪潮出现时,冲在最前面的都是朝气蓬勃的年轻人。

当大模型代表的人工智能浪潮席卷全球,作为移动互联网“原住民”的年轻开发者,可以说是最活跃的群体。他们的脸庞还有些稚嫩,但在技术和方向上有着自己的想法,在火热的AI赛道里加速狂奔,努力打下一片新天地。

面壁智能CTO曾国洋就是其中的佼佼者,26岁的年纪管理着清华系明星大模型创业公司的研发团队,坚定地踏上了AGI征途。

01 十多年开发经验的创业公司CTO
在许多人的印象中,24岁不过是研究生刚毕业的年纪,刚刚进入职场,扮演的还是“学徒”的角色。但在曾国洋的故事里,24岁已经作为CTO带领着面壁智能的核心技术团队,同时也是一位有着十多年经验的资深开发者。

和OpenAI的创始人Sam Altman一样,曾国洋在8岁就开始学编程。身边的朋友、老师、父母等潜移默化地告诉他:“会写代码”是一件很厉害的事。于是从Visual Basic开始,懵懵懂懂地开启了编程之路。

到了中学时,曾国洋已经系统性地接触了C/C++,喜欢在网上看一些国内外的资料,尝试写出更复杂的程序。因为“写代码”的爱好,曾国洋在高二时先后获得全国青少年信息学竞赛金牌和亚太地区信息学竞赛金牌,并因此被保送到清华,为日后的大模型创业埋下了伏笔。

没有高考压力的曾国洋,在2015年的冬令营上了解到旷视正在招实习生,抱着试一试的心态报了名,由此正式步入AI领域。

AlphaGo和李世石的围棋大战,点燃了深度学习的热潮,无数年轻人为之彻夜不眠,曾国洋也不例外。大二期间,在室友的引荐下,曾国洋加入了清华大学NLP实验室,误打误撞成为中国最早一批大模型研究员,并在后来成为悟道·文源中文预训练模型团队的骨干成员。

十多年的开发经验,培养了曾国洋的工程化思维和能力,大学毕业时不甘于做象牙塔里的学术派,毅然加入到了大模型浪潮中。

在OpenAI发布GPT-3的第二年,为了解决大模型“训练难、微调难、应用难”的挑战,曾国洋作为联合发起人创建了OpenBMB开源社区,旨在打造大规模预训练语言模型库与相关工具,加速百亿级以上大模型的训练、微调与推理,以降低大模型的使用门槛,实现大模型的标准化、普及化和实用化,让大模型能够飞入千家万户。

清华大学计算机系长聘副教授刘知远在2022年牵头创办面壁智能时,曾国洋果断放弃了手里的多个Offer,担纲这家大模型创业公司的技术1号位,完成了从一线开发者到大模型创业公司CTO的华丽转身。

02 “高效大模型就是面壁智能”
Scaling law,被看作是 OpenAI 的核心技术,简单来说,可以通过更复杂的模型、更大的数据量、更多的计算资源,提高模型的性能。前两年,国内外企业都在卷参数量,做到了千亿、万亿,甚至是十万亿,越到后面,但大家渐渐发现参数量更大,不代表模型效果更好。

在曾国洋看来:如果大模型作为实现AGI的关键路径,但成本却无比高昂,那么即使实现了AGI,但AGI比人还贵、那也没太大意义,所以要降低模型成本。对于大模型落地来说,效率是很个关键的问题,需要控制成本来达到更好的效果,这样才能去扩展大模型的应用边界。

不久前举办的鲲鹏昇腾开发者大会2024上,曾国洋在演讲中表示:“面壁智能持续引领高效大模型路线,推动大模型高效训练、快步应用落地,以更快速度,更低成本,提供最优智能实现方案。”

首先要解决的就是高效训练。

公开数据显示,OpenAI训练GPT-3的成本约为430万美元,到了GPT-4已经上涨到7800万美元,谷歌Gemini Ultra在计算上花费了1.91亿美元......比大模型能力更早指数性增长的,居然是大模型的训练成本。

该怎么提升大模型训练效率呢?

面壁智能在2024年初的一篇论文中提出了思路:如果大模型还未训练出来时就能预测性能大约在什么水平,可以先通过小模型做实验、调参数,再按照相同的数据配比、数调整等方法训练大模型。

其实在2023年,面壁智能就已经开始探索高效的Scaling Law,用小十倍参数模型预测大十倍参数模型的性能,并且取得了不错的成绩:

旗舰端侧基座模型MiniCPM用2.4B的参数量,在性能上越级超越Mistral-7B、Llama2-13B乃至更大的全球知名模型;旗舰端侧多模态模型MiniCPM-V刷新了开源模型最佳OCR 表现,部分能力比肩世界级多模态模型标杆 Gemini-Pro 与 GPT-4V。前两天发布的端侧最强多模态模型MiniCPM-Llama3-V 2.5 ,超越多模态巨无霸 Gemini Pro 、GPT-4V实现了「以最小参数,撬动最强性能」的最佳平衡点。“大”并非是唯一选项,小模型也可以实现同样的效果。

面壁智能的“高效”,不单单体现在训练环节。

在部署方面,面壁智能是模型厂商中最早提出“端云协同”的,通过协同推理的方式降低降低推理部署的成本、时延和能耗,让大模型可以跑在手机、电脑、汽车、音箱等低功耗的芯片。

以及大模型驱动的群体智能技术体系,包含智能体通用平台AgentVerse、技术协同同台、应用层面的多智能体协作开发框架ChatDev,帮助开发者打通大模型落地应用的最后一公里。

03 全流程加速大模型应用升级
基于丰厚原创技术底蕴,并匹配大模型这一系统工程的本质要求,面壁打造了一条从数据原材料、到模型制作过程中精湛训练与调校工艺环环相扣的全高效生产线。

譬如面壁智能独家的“沙盒实验”,让小模型验证大模型性能成为可能;Ultra对齐技术,可以有效大模型的综合表现;现代化数据工厂,形成从数据治理到多维评测的闭环;高效的Infra,为面壁智能的大模型训练打好了地基;训练框架BMTrain、推理框架BMINF、压缩框架BMCook和微调框架BMTune构成工具套件平台,可在降低90%的训练成本同时,将推理速度提升10倍。

在创立之初,面壁智能就开始将大模型和国产软硬件基础设施做适配,想要从全流程加速大模型应用升级。直接的例子就是面壁智能和昇腾AI在软硬件的深度合作。

比如面壁智能基于昇腾基础软硬件完成了CPM-BEE大模型和BMTrain加速框架的迁移,通过两个关键步骤实现了BMTrain和昇腾的适配,通过亲和融合算子替换实现了大模型的性能提升,最终让CPM、llama等模型的集群训练性能与业界持平。

再比如基于昇腾底座采用MindSpore框架开展了深入的创新研究。在微调方面,面壁智能实现了多个下游任务Sora在使用不超过1%的模型参数微调时,仍然能够超越其他微调方式;针对推理场景,面壁智能通过量化、蒸馏、剪枝等技术的灵活组合,在多项任务上压缩至1/3时,模型精度仍能保持99%。

国内的大模型团队中,同时从算力、数据、算法切入的团队并不多见,为何面壁智能选择和昇腾AI一起,全面系统地推进大模型上下游工程?

曾国洋曾在媒体采访中这样说道:“我们追求的是,在同样的时间、同等参数量的条件下,实现更优的Scaling Law。当模型的效率优化到一定程度的时候,如果要继续精进下去,就需要数据、算力与算法多者结合。”

这种不给自己设限的挑战精神,所带来的不单单是效率,还有通往AGI道路时的底气。

不少大模型团队为算力卡脖子问题焦虑的时候,曾国洋态度相当镇定:“对于比较早开展大模型研发的团队来说,国产化适配基本上都已经完成了,因为做的早嘛。其实国产化算力的差距没有想象的那么大,特别是像昇腾这些设备,目前已经达到了大规模商用的水平。”

和面壁智能一样,昇腾AI也在全流程使能大模型创新落地,从大模型的开发训练到推理部署。正是这些同道人的相向而行,让大模型开发不再是复杂的超级工程,每个开发者都能参与其中。

04 写在最后
大模型市场竞争激烈,技术迭代日新月异,但曾国洋连续几个月工作都不觉疲惫,用他自己的话说“因为我很相信 AGI 会实现。”

这正是年轻人的“可爱之处”,他们有挑战新事物的勇气,也有躬身入局的行动力,更重要的是,他们还是一群有理想的开发者。就像曾国洋在创办OpenBMB开源社区的初心:帮助千千万万的开发者降低门槛,让大模型飞入千家万户。面壁智能无疑是理想和初心的延续。

相关文章
|
12天前
|
人工智能 知识图谱 Docker
KAG:增强 LLM 的专业能力!蚂蚁集团推出专业领域知识增强框架,支持逻辑推理和多跳问答
KAG 是蚂蚁集团推出的专业领域知识服务框架,通过知识增强提升大型语言模型在特定领域的问答性能,支持逻辑推理和多跳事实问答,显著提升推理和问答的准确性和效率。
243 46
KAG:增强 LLM 的专业能力!蚂蚁集团推出专业领域知识增强框架,支持逻辑推理和多跳问答
|
15天前
|
人工智能 自动驾驶 安全
《解锁数据新动能:数据标注工具与AI模型训练平台的无缝对接热潮》
在人工智能快速发展的今天,数据成为核心驱动力。数据标注工具与模型训练平台的集成,实现了数据无缝流转,犹如为AI发展装上双引擎。集成不仅提高了数据传输效率、减少了人工干预,还确保了数据准确性,提升了模型性能。统一的数据标准、高效的接口设计和严格的安全保障是实现无缝流转的关键要素。这种集成推动了医疗、自动驾驶等领域的快速发展,促进了数据驱动的创新,为企业和社会带来巨大价值。未来,这一趋势将更加高效智能,进一步推动AI技术的广泛应用。
|
14天前
|
存储 人工智能 运维
下一代研发大模型需要哪些关键能力?
CodeFuse 支持从设计到运维的整个软件开发生命周期。项目已开源多个项目,欢迎社区共建。其中Rodimus作为 CodeFuse 的重要组成部分,旨在降低推理复杂度,优化大模型性能,支持低资源设备上的高效运行。
23 6
|
18天前
|
人工智能 供应链 安全
面向高效大模型推理的软硬协同加速技术 多元化 AI 硬件引入评测体系
本文介绍了AI硬件评测体系的三大核心方面:统一评测标准、平台化与工具化、多维度数据消费链路。通过标准化评测流程,涵盖硬件性能、模型推理和训练性能,确保评测结果客观透明。平台化实现资源管理与任务调度,支持大规模周期性评测;工具化则应对紧急场景,快速适配并生成报告。最后,多维度数据消费链路将评测数据结构化保存,服务于综合通用、特定业务及专业性能分析等场景,帮助用户更好地理解和使用AI硬件。
|
4月前
|
存储 人工智能 数据格式
总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集
【9月更文挑战第18天】鹏城实验室提出的ARIO(All Robots In One)标准,为具身智能领域带来了统一的数据格式、丰富的感知模态及多样化的真实与模拟数据,显著提升了数据集的质量与规模,助力智能系统更好地与物理世界互动。基于此标准构建的大规模数据集包含约300万个片段,覆盖258个系列和321,064个任务,极大地推动了具身智能的研究与发展。然而,该数据集也面临着存储需求高、系统互操作性及应用场景适应性等挑战。论文详情见:http://arxiv.org/abs/2408.10899。
129 11
|
7月前
|
人工智能 运维 搜索推荐
《百炼成金-大金融模型新篇章》––07.问题5:“杀手级通用大模型vs百花齐放专属大模型”,企业级AI应用的价值自证?
百炼必定成金,新质生产力会催生新质劳动力,谨以此文抛砖引玉,希望与业内的各位朋友一同探讨如何积极拥抱并运用大模型技术,以应对和驾驭不断变化的市场环境,实现科技金融持续稳定的提质增效和创新发展,携手开启金融大模型未来新篇章。
131 1
|
8月前
|
机器学习/深度学习 人工智能 算法
高性价比发文典范——101种机器学习算法组合革新骨肉瘤预后模型
随着高通量测序技术的飞速发展和多组学分析的广泛应用,科研人员在探索生物学奥秘时经常遇到一个令人又爱又恼的问题:如何从浩如烟海的数据中挖掘出潜在的疾病关联靶点?又如何构建一个全面而有效的诊断或预后模型?只有通过优雅的数据挖掘、精致的结果展示、深入的讨论分析,并且辅以充分的湿实验验证,我们才能锻造出一篇兼具深度与广度的“干湿结合”佳作。
567 0
高性价比发文典范——101种机器学习算法组合革新骨肉瘤预后模型
|
8月前
|
人工智能 监控 数据处理
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
145 0
|
8月前
|
运维 负载均衡 安全
回归网络本质需求,提供普惠连接价值 持续打造简单易用的智能云网络
2023年11月25日,北京,在第六届SD-WAN&SASE大会暨云网络大会上,阿里云资深产品总监、阿里云网络产品管理负责人孙成浩受邀做了《打造简单易用的智能云网络——云网络持续演进之路》的主题分享,回顾云网络产业发展,阐释云网络未来演进方向,以及阿里云网络产品服务今年的能力演进。
457 9
|
机器学习/深度学习 数据采集
北大团队将色谱领域知识融入机器学习模型,辅助对映体色谱分离
北大团队将色谱领域知识融入机器学习模型,辅助对映体色谱分离
190 0
北大团队将色谱领域知识融入机器学习模型,辅助对映体色谱分离