智库观察丨让AI智能体释放大模型无限潜能

简介: 创新应用的潜力,在于从单体智能到群体智能的跨越,当具有固定交互模式的低智能单体达到一定数量以后,就会使群体涌现超越个体智能的现象。

云栖战略参考 2023版头_副本.png

《云栖战略参考》由阿里云与钛媒体联合策划,呈现云计算与人工智能领域的最新技术战略观点与业务实践探索,希望这些内容能让您有所启发。

文/ 李大海「面壁智能联合创始人、CEO」

当下,大模型的技术路线在整个产业界已经形成共识,但大模型变革到底是像web3 这样的技术浪潮还是十年为期的产业革命?我们认为,大模型是第四次技术革命,可以和工业革命、信息革命相提并论,这场革命将至少持续20-30 年。

大模型要用在真实生产环境里,最关键的能力是逻辑推理。面壁智能最新推出的千亿多模态大模型CPMCricket就着重在模型的逻辑推理能力方面进行了攻关和提升,可以对标GPT-3.5 的水平。

为了测试模型的逻辑推理表现,面壁智能给大模型做了公考行测考试,结果显示CPM 的总正确率达到63.76%,甚至超过GPT-4 的61.88%。在英文的GMAT 测试中,面壁智能大模型的分数是GPT-4 的93%,已经非常趋近。

然而,光有模型还不够。大模型就像是汽车引擎,但还需要转向系统、汽车底盘、内饰等各种配件组装起来,才能真正提供一个完整的汽车产品。所以结合智能体在大模型基础上叠加更多能力才能实现更多应用和想象空间。

智能体并非一个新概念,在大模型兴起之前就已经存在很长一段时间。但我们今天所讨论的智能体则是完全基于大模型的智能体。

目前的大模型虽然存在许多缺陷,但它只是一个发展不到一年的新技术。未来,我们还有很长的时间来不断改进这项技术,使其更加完善。而智能体就是一个非常重要的技术方向,它可以让模型变得更加易用和高效。

从单体智能到群体智能,挖掘AI应用潜力

AI 原生应用具有以下几个典型特征:第一,AI 原生应用的产品力依附于大模型,大模型本身是一个非常重要的变量,如果AI 不存在,产品核心能力就不存在。

第二,仅凭一个模型无法解决所有问题,模型需要与其他技术有机结合在一起,为上层业务价值提供助力。

第三,数据飞轮至关重要。因为模型是活跃的,场景中产生的数据对模型的演进非常重要,有了数据反馈,飞轮模型才不仅仅是一个纯输出的角色,而是能够随着场景的发展不断成长。

那如何建设智能体?我们认为从单体智能到群体智能是一个重要的发展方向。虽然群体智能并非唯一的发展路径,但它却是一个非常有潜力的演进场景。

所谓单体智能指的是大模型能够像人类一样生产、互动,并使用工具,而群体智能则是指大模型驱动的多个智能体通过协作完成复杂任务。

目前,我们可以通过基于大语言模型构建的单一智能体,观察到它具备6 个典型特性:智商、情商、人设、感知、价值观和成长性。尽管在成长性方面尚未达到智能的水平,但根据不同场景,我们可以通过工程和数据飞轮的方式来赋予其成长性。我们期待未来基于大模型的智能体能够自发地实现成长,这是我们要探索的目标。

而AI 创新应用的潜力,就在于从单体智能到群体智能的跨越。为什么群体智能具有价值?因为在复杂系统理论中,当具有固定交互模式的低智能单体达到一定数量以后,就会使群体涌现超越个体智能的现象。

在自然界中,一些社会性动物,如蚂蚁和蜜蜂就展现了这种特点。当蚁穴与食物的道路上出现障碍时,蚁群能够分头探索新路径,并最终采用最短路径。在AI 领域,我们也观察到了类似的现象。

大模型驱动的AI Agent“三驾马车”

当我们拥有一些出色的单体智能之后,将它们连接在一起,使它们能够相互交互和协同工作,我们已经能够看到一些有趣的应用出现。面壁智能在这一领域取得了三个创新成果,我们称之为AI Agent“三驾马车”。

第一个是AgentVerse, 这是一个由大模型驱动的智能体通用平台,是底层的多智能体框架;第二个是XAgent,它是一个单体超级智能的Agent 框架;第三个是ChatDev,它是一个基于AgentVerse 平台衍生出来的面向软件开发领域的定向产品,是多智能体在软件开发领域的一个特定应用。

AgentVerse 支持利用基础模型定制多智能体环境,创建多个具有不同能力与身份的智能体。比如我们可以设定非常多不同的AI 智能体,这些智能体一旦有了人设和技能设定,实际上它们就都是一个个独立的专家。

在给定一个用户的复杂任务时,我们可以根据任务的需求,动态地招募AI 专家,组成一个小团队来解决问题。这个招募过程是动态的,如果这个问题和数学相关,那我们招募来的专家可能都是数学能力很强的智能体。

一旦招募完成,这些专家就组成了一个临时小团队,他们相互讨论、协同分工,制定目标和流程,然后开始工作并执行。执行完毕后,它们会得到一个结果。这时,我们还可以进行迭代,即核对结果是否符合用户的期望,如果存在差距,则需要再做一次全新的讨论,同时对原有流程进行反思。

AgentVerse 提供了一种灵活的方式来应对复杂任务,利用多个AI 专家的协同工作,以产生最佳结果。这种动态招募和协作的模式为用户提供了更高效、定制化的解决方案,并不断迭代以达到用户期望。

而XAgent 则代表了另一种思路。我们认为,目前的大模型在进行一次一问一答时,主要依靠的是逻辑推理,这是一个快系统的过程。然而,仅仅依靠这种浅层的快系统往往是不够的。

因此,在XAgent 中,当用户提出一个任务后,它会进行整体规划,确定任务需要分解为几个步骤,并确定每个步骤所需的具体行动。一旦步骤确定,XAgent 会逐步执行这些行动。执行完毕后,它会回头检查之前设定的步骤是否正确,并根据需要进行动态调整。例如,完成第一步后,XAgent 可能会发现原先设定的四个步骤不足以完成整个任务,实际上需要五个步骤。这时候,XAgent 会进行调整,它会在这种动态调整中让大模型有更清晰的思考。

这就是我们有时候会说的“让思考慢下来”。如果你必须在3 秒内回答一个问题,很多时候你给出的答案都是断断续续的,这也是大模型产生幻觉的重要原因之一。因此,这种XAgent 的方式能够极大地改善大模型的幻觉问题。

ChatDev 作为大模型驱动的多智能体协作开发框架,具有专业角色协同、子任务交流链等特点。

在AgentVerse 中,我们的流程是非常动态的,但在软件开发中,流程是确定的。因此在ChatDev 中,我们定义了大约六七个角色,如CEO、CTO、CPO、Programmer、Designer、Tester 等。当用户提出需求后,CTO 会进行技术选型,决定使用何种语言,如Python、Java 或C 语言。CEO 则决定需求的复杂程度和方向。产品经理编写产品文档,程序员编写代码,测试员调用工具进行测试。这正是我们所说的Agent的一个重要特点,它会利用工具。

在这个过程中,首先我们有不同的角色,其次我们定义了开发流程,流程包括设计、编码、测试和撰写文档。因此,ChatDev 不仅会为用户提供一个完整的可运行软件,还会提供文档等内容。

同时,我们也非常关注用户对整个开发流程的参与,因为我们认为智能体的成长性需要人的参与。在ChatDev 中,我们有一种机制可以让用户查看智能体之间的对话和协作,让用户能够检查对话是否符合他们的设想。如果不符合,用户可以思考如何去改变它。通过这种方式,可以使整个智能体能够有更好的成长。

总结

从目前的实践情况来看,不论是大模型还是智能体,技术发展都尚处于早期阶段,还有很多实现路径仍待探索。尽管我们现在已经有一些能够实际应用的场景,但仍然存在许多问题需要解决,例如情感交互、推理成本控制和长期记忆能力等。这些问题都需要逐个攻克,我认为它们都会在不断发展的过程中得到解决。

短期来看,大模型和智能体的应用都面临一些挑战。但我相信随着模型能力的不断增强,随着我们在这个领域的不断探索,以及多方的共同努力,模型应用的落地将会越来越好。我相信明年将会是应用爆发的元年。

面壁智能的定位是将模型与智能体完美结合,为行业和用户提供优质的服务。我们相信未来是智能体的时代,一切都将成为智能体。我们所提到的在线应用将会是智能体,家里的电冰箱、电饭煲也将成为智能体,未来将会是一个Internet of Agents的时代。

相关文章
|
12天前
|
机器学习/深度学习 人工智能 计算机视觉
让AI真正"看懂"世界:多模态表征空间构建秘籍
本文深入解析多模态学习的两大核心难题:多模态对齐与多模态融合,探讨如何让AI理解并关联图像、文字、声音等异构数据,实现类似人类的综合认知能力。
78 6
|
11天前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
151 2
|
4天前
|
机器学习/深度学习 人工智能 机器人
AI Compass前沿速览:Nano Bananary、MCP Registry、通义DeepResearch 、VoxCPM、InternVLA·M1具身机器人
AI Compass前沿速览:Nano Bananary、MCP Registry、通义DeepResearch 、VoxCPM、InternVLA·M1具身机器人
|
2天前
|
人工智能 IDE 开发工具
CodeGPT AI代码狂潮来袭!个人完全免费使用谷歌Gemini大模型 超越DeepSeek几乎是地表最强
CodeGPT是一款基于AI的编程辅助插件,支持代码生成、优化、错误分析和单元测试,兼容多种大模型如Gemini 2.0和Qwen2.5 Coder。免费开放,适配PyCharm等IDE,助力开发者提升效率,新手友好,老手提效利器。(238字)
36 1
CodeGPT AI代码狂潮来袭!个人完全免费使用谷歌Gemini大模型 超越DeepSeek几乎是地表最强
|
1天前
|
存储 人工智能 监控
如何用RAG增强的动态能力与大模型结合打造企业AI产品?
客户的问题往往涉及最新的政策变化、复杂的业务规则,数据量越来越多,而大模型对这些私有知识和上下文信息的理解总是差强人意。
21 2
|
3天前
|
人工智能 自然语言处理 算法
现代AI工具深度解析:从GPT到多模态的技术革命与实战应用
蒋星熠Jaxonic,AI技术探索者,深耕代码生成、多模态AI与提示词工程。分享AI工具架构、实战应用与优化策略,助力开发者提升效率,共赴智能编程新纪元。
19 4
|
5天前
|
人工智能 数据可视化 前端开发
AI Ping:精准可靠的大模型服务性能评测平台
AI Ping是清华系团队推出的“大模型服务评测平台”,被誉为“AI界的大众点评”。汇聚230+模型服务,7×24小时监测性能数据,以吞吐量、延迟等硬指标助力开发者科学选型。界面简洁,数据可视化强,支持多模型对比,横向对标国内外主流平台,为AI应用落地提供权威参考。
84 1
|
5天前
|
人工智能 数据可视化 API
新手轻松上手:零基础搭建Qwen智能体指南
本文详细介绍了如何从零开始搭建Qwen-Agent智能体,涵盖环境配置、模型部署、工具调用及多Agent协作等关键步骤,帮助无AI经验的开发者快速上手,实现从环境准备到智能体运行的完整流程。
|
5天前
|
IDE 开发工具 Python
通义灵码+支付 MCP:30 分钟实现创作打赏智能体
本文介绍如何使用通义灵码智能体与 qwen3 和支付 MCP 编写创作打赏智能体,该智能体能够完成日常聊天、诗词创作和请求打赏并生成支付链接功能。
|
11天前
|
人工智能 数据可视化 API
从零开始搭建Qwen智能体:新手也能轻松上手指南
本文详细介绍了如何从零开始搭建Qwen-Agent智能体,涵盖环境配置、模型部署、RAG应用、工具调用、多Agent协作等内容,帮助开发者快速入门并构建自己的AI智能体。

热门文章

最新文章