文心大模型升级3.5版本,有多强?我们帮你试了试

简介: 文心大模型升级3.5版本,有多强?我们帮你试了试

三个多月前,机器之心向刚刚诞生的文心一言提过一个问题:


「设有三个房间,每个房间都有⼀个开关,其中⼀个控制着同⼀楼层的⼀个电灯。你现在在开关所在的楼层,不能看到电灯所在的楼层。你只能上楼⼀次,然后必须确定哪个开关对应哪个电灯。请问如何推理以确定正确的开关?」

对于大部分人,这道逻辑推理题确实有点绕,对于当时的文心一言来说亦有难度。从结果中,我们可以看出文心一言进行了分析,有思维链,但忽略了「只能上楼一次」这个条件,所以最后给出的结果并不是完全正确的:

但今天,站在你面前的,是基于「文心大模型 3.5」的文心一言。

面对同一个问题,现在它的回答是这样的:

从三月中旬推出到现在,文心一言始终在悄悄努力变优秀。这种变化的背后,是文心大模型的不断进化、迭代。

上个月,百度文心大模型正式从 3.0 升级到 3.5,不仅实现了创作、问答、推理和代码能力上全面升级,安全性显著提升,训练和推理速度也大幅提升。

在今天开幕的世界人工智能大会上,作为国产大模型的代表之作,文心大模型 3.5 毫不意外地吸引了众人的目光。

WAIC 产业全体论坛上,百度首席技术官王海峰带来了文心大模型 3.5 的深入解读。


现场,王海峰展示了一组数据:通过各项算法和数据的优化,相比于 3.0 版本,文心大模型 3.5 的模型效果累计提升超过 50%,训练速度提升了 2 倍,推理速度提升了 30 倍。

对文心一言的所有个人及企业用户乃至全行业来说,这意味着一个新的阶段。

最新版文心一言,做了哪些改变?

作为百度自主研发的大模型体系,文心大模型的诞生要追溯到 2019 年 3 月,发展到现在文心的基础模型涵盖了 NLP、视觉、跨模态等多个领域,每个领域涵盖不同的能力模型,比如对话模型、代码生成模型、文图生成模型等。

到了 2021 年,文心 3.0 已是百亿级别的大模型。演变至今,文心大模型已从最初的自然语言理解大模型,发展成了跨语言、跨模态、跨任务、跨行业的能力完备的大模型平台。

在文心大模型 3.5 加持的文心一言中,问答、推理、代码、文生图等能力都向前迈了一步。这些变化,文心一言的用户们在对话过程中也能体会到。这里,我们通过几个例子感受一下:

「疯狂星期四是什么?」「为什么很多人都在说 V 我 50?」如果一位 2g 冲浪的网友抱有这个疑惑,去问 3.0 版本加持的文心一言,得到的回答可能是这样的:

而现在,3.5 版本加持的文心一言不仅能够给出正确答案,还能进一步解释「疯狂星期四」的名词来源、活动背景等信息,甚至还能指导你参与活动。而且对于「V 我 50」这个流行语,文心一言 3.5 还能找到最早的出处。

再试试代码能力。下面是「生成一个斐波那契数列」的对比:

最新生成的结果,额外解释了斐波那契数列的概念,并给出了简洁的 Python 代码:

同样的领悟能力提升还体现在「文生图」上,下面这张是机器之心在三月份的测试结果,从风格上说更偏 CG 绘画:

而最新生成的结果更加符合人们熟悉的二次元风格了:

此外,在最新版本的文心一言中,用户感受到的一大变化是引入了插件机制,目前提供了两个选项:

第一个是默认内置插件「百度搜索」,使得文心一言具备生成实时准确信息的能力。

我们知道,如果不接入互联网,对话式 AI 所提供的信息通常会受到训练数据输入时间的限制。但现在,你能问它许多「新鲜热乎」的问题了。

比如,向文心一言提问:「最近的热门电视剧有哪些?」

提问时间:2023 年 7 月 6 日

再比如,要求文心一言绘制出近日北京市的气温变化情况:

为了求证文心一言引用的数据是否准确,我们也用百度搜索了今天北京市的气温情况。唯一不够全面的点在于,7 月 6 日北京市气象台发布了高温红色预警信号,北京市部分地区最高气温可达 40℃以上。

第二个插件是「ChatFile」,可基于长文档进行问答和摘要。

比如,机器之心某天有一篇新的论文要读,字数很多,方法很前沿,这时文心一言就能助一臂之力:



目前,使用 ChatFile 插件的前提是文件基于 PDF 或 Doc 格式,暂不支持扫描件,大小需要在 10MB 之内。

王海峰表示:「插件机制的引入,将进一步扩展大模型能力的边界,也是构建大模型生态过程中非常重要的机制。」下一阶段,文心一言将发布更多优质的百度官方和第三方插件,让用户能够更好地应用文心大模型。同时,文心一言也将逐步开放插件生态给第三方开发者,帮助开发者基于文心大模型打造自己的应用。

技术创新的「叠加效应」

至此,我们已经直观地体会到了文心大模型 3.5 带来的变化。

而这些革新,又是如何实现的呢?

王海峰介绍说,文心一言 ERNIE Bot 是在 ERNIE 及 PLATO 系列模型的基础上研发的,其核心技术包括六个模块:知识增强、检索增强、对话增强、有监督精调、人类反馈的强化学习、提示。

其中,有监督精调、人类反馈的强化学习、提示是大语言模型的通用技术,而知识增强、检索增强、对话增强则属于百度的特有技术,也是文心一言不断进化的基础思路。

知识增强的意义十分关键,其实从英文名称「ERNIE」(Enhanced Representation from kNowledge IntEgration)就可以看出,文心大模型的成长与知识增强是密不可分的。知识增强的大语言模型不只能从原始数据中进行学习,还可以从知识和数据中进行融合学习,这也是提升大模型最终效果和效率的关键。

在知识增强方面,文心一言的知识增强主要是通过知识内化和知识外用两种方式。知识内化是从大规模知识和无标注数据中,基于语义单元学习,利用知识构造训练数据,将知识学习到模型参数中,知识外用是引入外部多源异构知识,做知识推理、提示构建等等。

在检索增强方面,文心一言的检索增强,来自以语义理解与语义匹配为核心技术的新一代搜索架构。通过引入搜索结果,可以为大模型提供时效性强、准确率高的参考信息,更好地满足用户需求。

在对话增强方面,基于对话技术和应用积累,文心一言具备记忆机制、上下文理解和对话规划能力,实现更好的对话连贯性、合理性和逻辑性。

在这次文心大模型 3.5 的打造过程中,百度团队围绕其进行的一系列创新和优化。


首先,文心大模型 3.5 在基础模型训练中采用了飞桨最先进的自适应混合并行训练技术及混合精度计算策略,采用多种策略优化数据源及数据分布,加快了模型的迭代速度,同时提升了模型效果和安全性。

其次,文心大模型 3.5 创新了多类型多阶段有监督精调、多层次多粒度奖励模型、多损失函数混合优化策略、双飞轮结合的模型优化等技术,使模型效果及场景适配能力进一步提升。随着真实用户的反馈越来越多,文心一言的效果会越来越好,能力越来越强。

此外,在知识增强和检索增强的基础上,百度团队进一步提出了「知识点增强技术」,首先是对用户输入的查询、问题等进行分析理解,并解析生成答案所需要的相关知识点,之后运用知识图谱和搜索引擎为这些知识点找到相应答案,最后用这些知识点构造输入给大模型的提示。知识点增强技术能为大模型注入更具体、更详细、更专业的知识点,显著提升大模型对世界知识的掌握和运用,使其完成各项任务的效果显著提升。

最后,在推理方面,通过大规模逻辑数据构建、逻辑知识建模、粗粒度与细粒度语义知识组合以及符号神经网络技术,显著提升文心大模型 3.5 在逻辑推理、数学计算及代码生成等任务上的表现。

找到大模型落地的正确打开方式

大模型的出现,已经改变了 IT 行业的整个技术栈架构。在人工智能时代之前,IT 技术栈通常是三层架构:芯片层、操作系统层、应用层。当人工智能时代来临之后,技术栈变为四层架构:芯片层、框架层、模型层、应用层。

百度从 2010 年开始全面布局人工智能,是全球为数不多、进行全栈布局的人工智能公司。目前,从芯片层的昆仑芯片、框架层的飞桨深度学习平台、模型层的文心大模型到应用层的搜索、小度、Apollo 等,百度在技术栈的各层都有领先业界的关键自研技术,实现了层与层反馈,端到端优化,大幅提升效率。

在现场,王海峰还透露了飞桨的一个最新数字。飞桨迄今已经凝聚 750 万名开发者,这是百度 2023 年以来首次对外披露飞桨生态最新数据。位于框架层的飞桨是国内首个自主研发的产业级深度学习开源开放平台,并在国内的深度学习平台综合市场份额上连续两年位居第一。


最新的文心大模型 3.5 同样经历了四层架构的端到端优化,尤其是框架和模型层的协同优化,让训练速度、模型效果加速提升。

大模型热潮已持续半年,却未有退潮的趋势,但在火热的技术进展和产品迭代之外,我们应该关心的下一步是:如何落地应用。

正如百度创始人、董事长兼首席执行官李彦宏所言:「新的国际竞争战略关键点,不是一个国家有多少个大模型,而是你的大模型上有多少原生的 AI 应用,这些个应用在多大程度上提升了生产效率。」

文心一言的实践,或许能够为行业提供一些可借鉴的经验。

面向 C 端用户,文心一言 App 的上线与插件机制的引入,能够帮助文心一言打造一个「终端 + 平台+生态」的完整系统,探索 ToC 商业化模式。

面向 B 端市场,一般的通用大模型往往缺乏具体、专业的场景支持,而文心一言正在积极应用到各种应用场景,比如智能办公、智能会议、智能编程、智能营销、智能媒体、智能教育、智能金融等。在文心一言之外,百度还拥有 11 个行业大模型,覆盖交通、能源等重点领域。

例如,百度「如流」已经基于文心一言的能力上线了「智能总结」、「超级助手」等多个新功能,不仅能帮助总结工作沟通要点,实时记录会议内容,形成会议议题、摘要及总结等关键信息,还可以通过各类插件完成指令任务,包括查询日程、创建会议、设置待办、申请休假等。

对于编程工作,百度的智能编码助手 Comate 能够根据自然语言的描述,生成对应的代码片段,还支持在代码编辑区内根据注释自动生成代码,提升开发效率:

当然,今天的大模型产业化其实还面临着很大的挑战,模型体积大、训练难度高、算力数据需求高…… 对于任何一家公司,不管是模型提供方还是模型使用方,这些挑战都是同样存在的且不容忽视的。

因此,想要在技术突破之后,走出产业化的关键一步,就必须将复杂的事情简单化,同时将落地的成本打下来。这也是以百度为代表的大模型生产厂商正在探索的道路:封装已有的、复杂的模型生产过程,并开放精调、推理、部署的各项工具,让用户能够「上手即用」。

在理想的状态下,未来的任何一家企业,都只需要提供业务需求和少量精调数据,就能在短时间内找到合适的模型并完成场景适配。借此,众多大模型才能真正释放的力量,有效支撑千行百业的应用。

相关文章
|
10天前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
21 1
|
8月前
|
人工智能 物联网 开发者
让你拥有专属且万能的AI摄影师+AI修图师——FaceChain迎来最大版本更新
自8月11日开源了第一版本证件照后,FaceChain迎来了最大版本的更新,不仅集中上线了一波非常有用的功能,在gradio界面上也做了大幅度优化
|
3天前
|
机器学习/深度学习 数据采集 存储
百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4
百川智能发布大语言模型Baichuan 3,参数超千亿,表现出色。在CMMLU、GAOKAO等中文任务评测中超越GPT-4,且在MATH、HumanEval等专项评测中证明其自然语言处理和代码生成实力。Baichuan 3在医疗领域,如MCMLE、MedExam等评测中成绩突出,成为中文医疗任务的最佳模型。此外,它通过“迭代式强化学习”提升语义理解和生成能力,诗词创作能力远超其他模型。Baichuan 3的推出标志着百川智能在大模型技术上的新里程碑。
9 0
|
2月前
|
人工智能 自然语言处理 前端开发
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
32 0
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
LLM的测试工具:LaVague平替成国内大模型
LaVague是一款使用LLM将自然语言转换为Selenium代码以实现自动化测试的工具。由于huggingface的某些模型需付费且访问不便,本文介绍了如何使用智谱的免费大模型作为替代。智谱提供免费的embedding模型和大量令牌。
78 1
|
7月前
|
人工智能 测试技术 API
2023年8月22日OpenAI推出了革命性更新:ChatGPT-3.5 Turbo微调和API更新,为您的业务量身打造AI模型
2023年8月22日OpenAI推出了革命性更新:ChatGPT-3.5 Turbo微调和API更新,为您的业务量身打造AI模型
160 0
2023年8月22日OpenAI推出了革命性更新:ChatGPT-3.5 Turbo微调和API更新,为您的业务量身打造AI模型
|
7月前
|
机器学习/深度学习 人工智能 编解码
用 AI 修复亚运珍贵史料——基于Stable Diffusion WebUI 体验AIGC加持的修复能力
2023年,正值亚运110周年,也是第19届杭州亚运会即将举办之际,阿里云与亚奥理事会合作,发起“历久弥新——用 AI 修复亚运会珍贵史料”活动(以下简称“本活动”),开发者使用阿里云的 AI 技术对亚运会历史老照片进行修复,重燃亚运经典,为亚运助威,并有机会入选“亚运史上第一个 AI 修复特展—— 1974 年德黑兰亚运会特展”。
1241 4
|
8月前
|
人工智能 Linux API
本地化搭建媲美ChatGPT的中国对话模型ChatGLM2-6B
本地化搭建媲美ChatGPT的中国对话模型ChatGLM2-6B
264 0
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?
GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?
137 0
|
12月前
|
机器学习/深度学习 人工智能 API
GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?(2)
GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?