被科技托举进入一个新时代时,习惯总让人变得后知后觉。
7 月 12 日,思必驰「东风生万物」DFM-2 大模型发布会后,我习惯性地询问工作人员是否提供大会速记,对方略微一愣,我才发觉这个问题已经过时。
「没有。但我们有这个。」她转给我一份「麦耳会记」做的「速记」。轻点一下「AI 摘要」功能键,还能自动生成摘要。有了 DFM-2 加持,AI 甚至还能帮忙拟稿、文字润色和整理待办事项等。
思必驰联合创始人、首席科学家俞凯
「其实,AIGC 大火跟我们没有那么大关系。」发布会后,思必驰联合创始人、首席科学家俞凯在接受机器之心采访时说道,「不是看到 AIGC 火了,才去做的大模型。」
某一项技术火的另一面,往往是概念的混乱,很多人将大模型、生成式人工智能、通用人工智能混在一起。与直接使用大模型三个字相比,俞凯更喜欢「通用人工智能」的表述。
思必驰不做大模型,他们一直在做的是通用智能,以语言计算为统领的通用人工智能,「语言计算要全链路,一定要以认知为核心主体去调用感知,我们一开始就是这样的架构。」他强调。十几年来,他们从统计对话系统时代、小模型神经网络时代,一直走到大模型时代。
如果说,思必驰趟过的是一条语言计算加大模型之路,那么,ChatGPT 走过的则是大模型加语言计算之道,「是专用大模型找到语言这个点,与语言计算的结合产生涌现能力,变成通用人工智能。」俞凯解释道,「这是两个不同的思路,但最后都是一样的目标和结果。」
一、等闲识得「东风」面
按照官方定义,「DFM-2 大模型是一个具备通用智能的行业语言大模型。」
在国内「百模大战」乱花渐欲迷人眼的当下,若要等闲识得「东风」面,还要进一步叩问定义里的关键词。
所谓「通用」,是指目前的语言大模型采用统一的生成式神经网络架构解决任意可以描述的任务。至于这个架构是纯 Decoder 架构还是 Encoder-Decoder 架构,大家会略有不同。从纯大模型角度来看,DFM-2 也是用统一生成式框架解决所有任务。
通用人工智能大模型有一个特点,就是当参数规模达到百亿量级以上时会涌现思维链、情境理解、指令学习等相对稳定的认知性能力,或者说具有通用认知能力和知识能力。
依参数规模不同,思必驰将大模型做了一个区分 —— 十亿左右(参数规模)是一个量级,百亿是一个量级,千亿是一个量级(比如 ChatGPT),未来可能会有万亿量级。
按照这个标准,拥有百亿参数规模的 DFM-2 位于第二个量级,属于「中等规模」的大模型。
那么,这个「中等规模」的大模型的通用智能水平如何呢?
在 C-EVAL、CMMLU、MMLU、AGIEval、Gaokao 等通识能力评测中,以及在 DialogZoo 对话理解及生成任务标准评测结果中,DFM-2 排名较为领先。
思必驰 DFM-2 在 C-EVAL 中的评测表现
俞凯也在现场展示了 DFM-2 的常识问答、内容生成、数学计算和代码生成等一些基本的通用智能能力。
现场,思必驰展示了 DFM-2 的常识问答、内容生成、数学计算和代码生成等通用智能能力
接下来,如何理解定义中的行业大模型?目前国内有几十个不同的行业大模型,DFM-2 和它们的主要区别在哪里?
大模型分为专用大模型和通用大模型。不少大模型,比如华为气象大模型、DeepMind 的 AlphaFold、Stable diffusion 图生文大模型等,其实都是面向特定任务进行特定优化的专用大模型。
很多专用大模型基本上都是几个亿的参数规模,大多数特定任务十几个亿参数规模就能做得很好,比如专用语音识别模型十亿量级就可以做的很好,图像模型也是如此。
通用大模型可以进一步分为全域大模型和垂域大模型。
ChatGPT 是典型的全域大模型,利用互联网公开的海量知识、各种行业领域知识数据以及较为广泛的人类评估数据做大模型预训练、指令学习以及对齐学习等。
垂域大模型主要是以行业知识、专家知识、企业和私域个人知识作为训练数据,在基座大模型基础上进行一系列预训练和微调等模型生产操作。DFM-2 属于垂域大模型。
由机器之心根据俞凯手绘草图制作
「但凡做非语音语言专业大模型的,大都跟我们没竞争关系。做通用大模型的话,如果做全域大模型,跟我们也没竞争关系。」俞凯解释道,「如果对方也是做垂域大模型,还要看做的什么专业方向。」
作为一家对话式人工智能平台型公司,思必驰的核心技术壁垒在于全链路智能语音及自然语言交互关键技术。「如果对方也是做人机交互、智能硬件,那和我们就有一定竞争关系。」
换句话说,DFM-2 具备通用智能和知识,但只是一些基础性能力,比如基本常识性推理、规划、沟通,真正强项在于完整的对话链路操控、智能硬件交互、领域知识等方面。
如果对方是做轨交、车载、政务服务、医疗、智能家居等垂域大模型,不同垂域模型就像具备不同专业知识能力的人(比如老师、工程师、研究者),彼此之间存在可以协作的部分,特别是当客户需要完整的对话链路操控能力时。
比如,轨交系统为乘客提供语音购票服务;消费类电子产品要为孩子朗读世界名著。
或者将语言大模型的内容生成能力用于材料科研中化学分子的设计。「我们不直接做化学领域的 Alphafold,我们也做不了。」
俞凯反复强调,以语言计算为统领的通用人工智能,不等于大模型,不止于大模型,有它自己独立的发展规律。
思必驰一直是这条线上的深耕者,也是思必驰的一个重要特点。
2017 年 Transformer 刚出来时,解决的也是诸如分类、命名实体识别、槽位提取等具体任务,这些任务都有特定的任务定义。包括后来自然语言领域的 Bert ,大都也用做基座,经过小幅改造后解决如分类等特定的自然语言处理任务,总体也属于专用大模型。
后来,思必驰采用了统一的任务描述语言框架,无论是判别还是生成,都统一描述成为纯生成式任务。
2021 年,思必驰提出面向通用对话理解的统一生成式建模框架,后来又扩展为集对话、生成、表征三大能力于一体的对话式通用语言大模型,也就是第一代 Dialogue Foundation Model(DFM),并在 2022 年进行了小规模产品应用。
DFM 的迭代图
除了大模型的线路,还有一条与之并行的技术路线 —— 小模型,包括针对具体问题的专用小模型 SOTA(state-of-the-art model ,是指在该项研究任务中,目前最好 / 最先进的模型)。
小模型之路主要适配一些小数据场景,在一些目标系统单一、聚焦的工业化场景中着眼于提升人工智能的工程能力。
不管大模型还是小模型之路,目前都处在突破和规模化推广期。未来,这两条路线也将一起为工业模型赋能。
二、赋能:DFM-2+DUI 1.0=DUI 2.0
发动机升级,接踵而来的问题是新功能通过什么样的管道传导给行业客户?
答案是 DUI —— 一个对话用户界面平台 Dialogue User Interface(DUI)。
相较于人工智能行业其他细分领域,智能语音行业场景高度碎片化、定制化程度更高,规模化速度相对较低,商业化落地速度也较慢,跨越「鸿沟」的难度相对更大。
为了尽可能弥合鸿沟,思必驰很早就打造了这个对话系统定制平台 —— 智能家电、智能汽车等领域的客户登录平台,即可享受全链路、超高度定制化的能力和自由。
DUI 由全链路对话技术中的所有模块组成,比如语音识别、合成、语义理解、对话管理、知识问答模块。升级到二代后也包括 DFM-2。
DFM-2 地位类似中控,俞凯解释说,平台基本东西还是这些,但原来的功能都增强了。
过去的模块做了一些升级和适配,之前不少很碎的模块,现在也和大模型做了融合。用户可以调用更丰富强大的能力进行定制。
例如,除了麦耳会记这样的会议办公软件有了重要技术升级,发布会上另一个让人印象深刻的能力展示就与命令控制有关。
发布会前的一个广告中,已有技术已经可以做到一次唤醒、20 秒内多轮连续对话。用户可以连珠炮似地给语音助手发出指令,不用理会语音助手是否把话说完,后者可以边听、边理解、边做,交互过程连贯流畅。
不过,这类命令控制也有其特点:短且清晰,而且都是单个,比如打开空调、播放音乐、调整座椅。
DUI 平台升级后,新增了具备逻辑推理能力的智能管家服务。在一则扫地机器人的演示中,我们对机器人的下达命令是这样的:
「我五点半回家,希望你能提前安排好打扫卧室,如果还有时间的话,顺便把客厅打扫了。」
几点打扫呢?为了合理制定计划,扫地机器人首先要准确洞察现在的时间(比如现在九点半),然后根据历史数据,比如卧室、客厅通常需要多长时间打扫干净,推断打扫需要的时间,继而规划什么时候开始工作。
这里既涉及对更加复杂口语的理解,也包含根据时间做几个简单规划,这就是大模型思维能力的一个体现。
原来的架构决定了命令控制必须清晰简短,单意图。更复杂一些的意图识别需要常识、涉及规划能力,做不了。
例如,前面的复杂表述就要变成「下午四点三十五分打扫卧室,五点整打扫客厅」之类的,机器才能听懂。
我们无法穷尽多意图组合,如果组合还带一些推理、规划的话,就没法弄了,因为可能性太多。俞凯解释道,穷举了一千,可能还有一万等着我们。
就上线流程而言,过去通常是先做一些基本更新,解决高频情况就发布。发布后,再依据不断出现的 badcase 修复长尾问题,过程耗时耗力,用户体验并不好。
有了大模型后,上线流程就变成先把大多数(不是全部)常用问题做到精准,再针对个别不准甚至高频的问题提供相应的配合手段。比如,模型联合统计驱动、数学驱动等办法,打组合拳。不仅效率提升很多,成本也降低。
除了命令控制,另一个新增能力展示引发了全场掌声。
现场,DFM-2 应要求做了一首五言绝句,然后适配了俞凯的数字人形象。数字人用俞凯的声音以普通话、英文甚至俞凯完全不会的粤语朗诵了这首诗,口型都能准确贴合。
背后的技术方案,有点像搭乐高 —— 大模型的认知技术,再加上思必驰做的语音识别、语音合成、数字人合成等技术,全链路系统联动构建出一个可自由交互个性化数字形象。
除了朗诵表演,这个数字人还可以在数字政府等场景下提供信息、知识查询等更多服务。
过去做语音助手,一般是先理解用户说什么,再去库里或者互联网搜索,最后生成一个答案给用户。这种检索式的做法很复杂,需要定制。
现在大模型可以实现海量文档之间的自由交互,还能辅以数字人形象,整个过程就会变得非常自然,结果也准确。
发布会上展示的俞凯数字人形象
在俞凯看来,语言计算远不是终点,真正的终点一定是实现端到端的用户体验。
「我们需要大模型和思必驰其他的全链路技术进行综合技术联动,包括我们的感知技术、扩散生成模型、数字人技术等。大模型的落地,与各种各样的技术联系在一起时,才会变得更加有趣。」
三、落地:仅有大模型还远远不够
探索大模型能力天花板是一回事,对于思必驰这样致力于技术产业化的公司来说,追求落地的使命终归要将技术拉回地表,直面商业的本质 —— 成本、营收、工程部署等无尽细节和琐碎。
以 ToC 为代表的新场景下,不计成本做大模型应用可能会有机会,但在已经拥有相对成熟的工业化系统的 ToB 生意里,再颠覆性的技术也只能采取渐进式道路。
摆在第一位的一定是性价比,第二位才是对于新技术的战略性尝试。俞凯强调说。
实用主义的客户依然会计算新技术的投入产出比 —— 和传统技术的投入产出比相比,是什么样的?小一点的模型不行吗?为什么要用千亿的模型?百亿的不行吗?十亿的呢?
所以,传统人工智能落地时遭遇的巨大挑战在大模型时代依然存在 —— 技术提供上所能够提供的通用性技术和 ToB 的厂商它的个性化需求。
「这事就是天然的矛盾。」俞凯说,「个性化需求当中,其中有一类就是成本需求,它不单单是说定制需求,它有一类就是成本需求。」
这就涉及大模型所带来的价值,哪些是最终端用户可付费的?技术供应商必须让大模型带来的价值高于训练和使用大模型的价值。而在满足最终用户要求的过程中,仅靠大模型是不够的,还要结合传统技术的联动,变成一个又快、成本又低、还好用的系统。
你不做这些工作,大模型注定就是水中花、镜中月。而只有拥有大量定制经验的人才能找到那个相对比较合理的触发点。俞凯举了一个有趣的例子。
现在所有大模型包括 ChatGPT 都有取巧的地方 —— 都是一个字一个字的出,等最后一个字出完了,机器才去执行。
这种方式在做展示时没问题,但在其他场景下,无异于让用户等十几秒,系统才反应完成,体验上受得了吗?
思必驰有一个技术叫流式语义理解,系统接收语音信息的同时进行思考,并实现动态的预估,以更快的速度进行回答。如果要让大模型做到边理解边执行,就要将原来不是流式的实现方式改成流式的,这就涉及大模型与后面的技术联动,也是产业落地的关键。
除了追求极致性价比,站在公司角度,大模型落地依旧需要做到可复制的、规模化的解耦式优化,而不是完全黑箱式优化。
本质上,ChatGPT 是一个从理解到知识的查询到最后的生成都融为一体的黑箱。对于一些很垂直、业务很单一的小公司来说,是否「黑箱」、「解耦」其实无所谓,体验效果最好就行。但不适合思必驰这类平台型的企业去做赋能。
将来大模型的部署一定是一个完整的系统,不会是单纯简单的 SaaS 调用。这也是全域的通用大模型和垂域的通用大模型的重要不同。俞凯认为。
垂域大模型一定要跟产业有比较深度的结合,一般而言,最后会是一个完整解决方案。
例如,通过插件功能,嵌入可信信源,降低 DFM-2 出现幻觉的比例。
通过结构化嵌入一些外部可信信息,或对独立领域单独建模,用相应的专业数据做微调,增强 DFM-2 的理解能力。
DFM-2 之所以可以进行化学分子的反应设计,就是用了专业化学数据以及化学数据库知识进行微调,进而能够读懂化学分子式,理解设计。
可以肯定的是,DFM-2 具备大模型的通用能力,但至少目前不是思必驰着重发力的方向。大模型将针对 ToB 行业,数据分配上更加倾向垂域数据;同时结合行业业务特征,加入所需的工具(插件),进而满足垂域定制可用、可信的需求。
四、未来:属于智能体系统
以认知作为核心,引导感知认知一体化 —— 以前,我们就是这么预期。俞凯说,这个预期确实被大模型加速实现了。
现在,站在对话式语言计算的角度远眺未来,技术发展的脉络也是清晰的。单从大模型角度去看,它的使用范式会经历三个阶段。
最开始是多模态专用大模型,它有可能是语言或者图像的,但都旨在解决专用任务,虽然也会彼此组合,但各个通道之间基本上彼此独立,不能两两交叉。这种使用方式早就存在。比如,给到系统一张图片,让它解释图片内容。但你无法直接通过语言让其更改图片细节。
第二阶段会实现不同模态大模型之间的跨模态应用,比如通过语言对话修改化学分子的设计,或者将大模型创作的故事通过合成声音甚至数字人讲述出来。
「多模态和跨模态是两个完全不同的概念。」俞凯说,「跨模态应用,总要有个东西引领它,这个引领的一定是认知语言模型。」
现在已经出现了通用单模态语言模型 ChatGPT,能够去做各种各样的理解,包括一些简单的技术联动,比如将声音放进去。未来一定会迈向跨模态,会出现一种单一的模型,既能读声音,又能读图片,然后还能彼此交叉。
第三个阶段涉及智能体系统。大模型自身具备通识,同时还会具备调用其他大模型的能力,调用方式可能是对话,另一个大模型也有回复的方式。「未来一定是以这种方式组合智能体。」
事实上,GPT-4 驱动的 Auto-GPT 已初见端倪。它不再是 ChatGPT ,因为它可以把 stable diffusion 这个文生图大模型和语言大模型结合起来,通过十分精巧的 prompt,生出很好的图片。
「它(Auto-GPT)由单个通用人工智能大模型,变成了一个可以指挥很多其他模型的智能体。」你可以认为,它就是一个比较完整的模型智能体,可以通过大模型去调用各种工具,包括其他大模型。
未来,会涌现出一堆这样的模型,每个都是智能体,可以自己学习。语言模型还是核心,但它可能会去指挥其他的语言模型、图像模型甚至多模态模型。
值得注意的是,虽然每个模型彼此独立进化但又因联系而构成系统,但并不存在大一统。