3个实操案例,带你体验真正流畅可用的企业级通用智能体

简介: 本文探讨了企业级通用智能体的现状与应用,重点介绍了实在Agent。文章指出,当前通用AI Agent分为两类:一类是类似Manus的产品,采用大模型+API模式;另一类是在RPA基础上融合AI Agent架构的产品。实在Agent属于后者,具备低门槛、简单直白的操作方式和随心掌控的执行过程。文中通过豆瓣电影数据获取、多平台舆情分析及剪映图文成片自动化三个案例,展示了实在Agent的实际应用能力。此外,文章还强调了企业级智能体需具备可控、稳定和高效的特性,并总结了实在Agent满足商业化落地的核心能力,包括企业知识库、业务系统操作指南、模型接入支持及私有化部署等。

360截图20250325101410463.png


文/王吉伟

Manus的火爆,不仅带火了一批开源项目,也带来了一场通用智能体之辨。

至今大家还拿不到邀请码的Manus,以官网多个案例视频和有数的体验视频,让大家感受到了通用智能体的魅力。很多人在看完那些视频后,直言不讳那就是他们需要的智能体。另一方面,很多人在体验Manus同类项目之后非常失望,它们距离成为企业生产力还有不小的距离。

在技术圈和学术界,目前通用AI Agent(General AI Agent)被看作是一种能够自主执行任务、进行复杂决策并适应多种环境的高级人工智能系统。能够响应用户指令,主动规划和执行任务而无需频繁的人类干预。这种系统通常基于多个大型语言模型(LLM)和其他独立运行的软件组件,以实现更广泛的任务处理能力。

需要说明的是,目前不同公司对AI Agent的定义差异很大,从完全自主系统到预定义工作流的实现都有。因此通用AI Agent的“通用”程度,尚未有统一标准。

而真实的体验与应用反馈是,如果通用智能体是现在这种产品形态,还不如直接用RPA等工具去实现各种电脑应用自动化的操作。大模型与AI Agent技术架构比比皆是的当前,企业对于应用引入大模型和应用智能体的渴望是炽烈的,对于适合当前阶段的企业级智能体解决方案的需求自然也是强烈的。

面对通用智能体的热潮和企业级应用的需求,广大企业与组织对于真正可用的技术、产品及解决方案可以说是翘首以盼。

那么,在当前AI Agent应用早期阶段,到底什么样的智能体才算通用智能体?广大企业需要的企业级智能体又应该是怎样的?有没有体验更好、执行能力同时运行稳定的企业级智能体能胜任企业大量的复杂业务流程?

本文,基于王吉伟频道对类Manus产品与项目的了解,并对典型通用智能体实在Agent做了一些研究,希望能给大家一些参考和启发。

从通用智能体说起

从当前智能体产品形态来看,王吉伟频道把当前的通用智能体分为两类:

一类是被称为computer use Agent的类似Manus的产品,采用大模型(推理模型+多模态模型)+API模式,通过屏幕截图来识别屏幕元素,以API接口调用各种工具执行任务。

另一类是在RPA等流程自动化工具基础上融合AI Agent架构并把RPA当作超级工具的Agent,这类产品基于原有业务流程自动化技术的沉淀,适配大模型、RAG、屏幕识别等技术,实现智能体流畅操作电脑上各种应用。

受大模型能力、技术架构、工作模式等因素的影响,目前第一类通用AI Agent在体验上并不是很好,等待时间长,任务执行能力差,效果不可控。第二类通用AI Agent因为RPA本身就已经与PC、手机等终端有了很好的融合与适配,体验上比前者要好很多。

显然实在智能刚发布的新版实在Agent属于后者。实在智能CEO孙林君认为,一个面向各种场景、具备良好泛化能力且无所不能的通用智能体,至少应该具备两点:

首先应该突破基础模型所不具备的一些能力,在任务理解上要掌握足够多的知识;其次智能体在基础模型上所结合的工具,在底层能力上要具有完备性,对于操作系统内部应该是一个“无所不能”的状态。

为了让大家看懂两种Agent的区别,这里以实在Agent为例做了一个对比表格。

另一个角度,通用智能体的一大特点是能够自由操作电脑上的各种应用去执行各种任务。

其实从computer use或者GUI智能体的角度来看,实在 Agent脱胎于能够完美操作电脑端或者手机端的采用成熟技术的RPA,本身与电脑有着天然的亲和力。在当前智能体应用的初级阶段,这类智能体可以算是真正形成生产力的通用智能体。

来看几个真实案例

光说不练假把式。接下来实操几个实在Agent应用案例,让大家感受下第二类通用智能体的能力。

想要体验实在Agent,首先需要到实在官网下载客户端,网址如下:

https://www.ai-indeed.com/downloadCenter

安装以后打开软件,默认软件界面非常简单,只有一个指令输入框,可以按CTRL+SPACE组合快捷键随时关闭和打开。

点击左边的logo,打开软件完整界面。

先来试两个官方应用案例模版。

案例1:豆瓣电影数据获取

点击 数据分析 这个模版,指令“获取豆瓣电影排行榜数据(电影名、评分)”会出现在指令输入框。

点击输入框右边的右箭头或者按回车键,短暂的等待后,软件会把这个指令拆解为4个主要分析步骤步骤,点击 执行 按钮 或者按回车键,软件开始执行任务,默认使用内置的实在浏览器。

这里说一句,直接使用内置web程序这一步迭代非常好。不需要用户再去Chrome等浏览器安装插件,单是这个过程就困扰了很多小白用户。

执行任务过程中,鼠标会自动点击相应的网页元素,最终提取豆瓣电影相关的数据展示在软件内,可以自由到处表格为Excel表格。

全部任务执行过程,见下面的视频动图。

案例2:多平台舆情分析

实在Agent不仅支持流程创建,还支持调用智能体。点击关于雅诗兰黛市场反馈的 “数据分析”模版,指令会自动输入到指令输入框,可以看到这个案例实在与智能体 “舆情分析及时助理”对话。该智能体会在百度、知乎、微博等3个平台提取数据并汇总分析,使用这个模版前记得先登录知乎和微博。

回车进入任务执行页面,短暂的任务拆解之后,点击执行按钮,“舆情分析及时助理”就进入了它的工作流程,电脑会自动打开浏览器在3个平台进行数据提取,最后通过大语言模型生成舆情报告。下面,是全部操作流程的视频动图。

对于这样在多平台提取数据的应用,底层为RPA的实在Agent可以说是信手拈来。整个执行流程大概用了3分钟,如果用纯视觉靠屏幕截图识别定位GUI元素的CUA智能体,这个时间延长一倍,任务也执行不完。

这里尤其推荐它的“小窗执行”功能,可以在独立桌面环境运行,不干扰用户在电脑上的其他操作。在它执行任务的同时,你还可以做另外的事情,工作效率倍增。

这个案例调用的智能体是官方发布的。目前实在Agent已经上线了8个常用智能体,用户可以随时与这些智能体对话布置想要的任务。如果这些智能体无法满足你的个性化需求,还可以自己创建面向你业务应用的智能体。

实在Agent的智能体构建方面,“自由画布”比较有亲和感,拖拉拽都很流畅。与其他Agent构建平台不同的是,这里多了一个自动化板块,在构建智能体时可以直接调用已经构建好的流程和智能体,并支持接口调用和功能代码。

这个板块的增加,可以大大增强智能体与企业内部已有自动化流程的衔接,便于企业快速进行智能体的部署与应用。目前他们也上线了DeepSeek大模型,用户可以在构建基于DeepSeek构建推理能力更强的智能体。

案例3:剪映图文成片自动化

体验完官方案例模版,再来试试实际操作。

通用智能体其中的一个表现是可以操作流畅操作电脑上的各种应用。我们可以试着让实在Agent操作剪映,把一段文字剪成图文视频。

实现方式:首先在实在Agent调用DeepSeek,生成短视频脚本。新建对话,输入@ 在智能体列表中找到DeepSeek,输入指令:生成一段关于AI Agent的短视频脚本

然后需要把这段脚本放在剪映中自动生成视频。新建对话,输入指令:

打开剪映的 图文成片 功能,使用其中的 自由编辑文案 功能,把下面这段内容输入文本框,点击 生成视频 中的 智能匹配素材 ,生成视频

AI Agent,不仅是工具,更是你的智慧延伸。它能理解你的需求,学会你的习惯,帮助你高效完成任务。从日常生活到复杂工作,AI Agent都能成为你的得力助手。

实在Agent把任务拆解为5步,在具体执行中输入内容以及点击按钮有点错误,只需要把输入内容修改正确,重新拾取下按钮元素就可以正常运行了。具体操作视频如下。

这个流程,以后是可以复用的,也可以用于AI Agent的构建。比如这个案例,就可以把这两步结合起来构架一个用于剪映自动成片的智能体。

虽然这种自建流程还没有经过官方的强化训练,却证明了通过详细指令编写和简单的人工辅助,就能实现需要的功能,基本就是小白级的操作。没有经过强化训练就能做到这种程度,可见此类产品的巨大潜力。

实在Agent的不同之处

以上几个案例,主要还是个人使用体验。在B端企业应用上,RPA与AI Agent的融合,会因业务、客户、生态、技术路径等方面的不同,在产品形态上也会有所差异。比如实在Agent与Manus等产品就有了明显的差异化。

两者的主要区别,可以体现在技术架构、任务闭环能力、商业化成熟度、准确性、稳定性、操作体验、扩展能力以及用户认知门槛等多个方面,具体可以见下图。

通过以上几个案例,大家应该对实在Agent有些了解了,使用起来真的非常简单。之所以能有这样的应用体验,在于实在智能对于技术、用户及行业的多年沉淀、深度洞悉与深入理解。

在智能体的产品定义方面,实在智能下了很深的功夫,他们认为合格的智能体产品至少应该具备三点:使用门槛要低,使用方式要简单直白,执行过程欲随心掌控。这三点对于智能体产品的重新定义,极大地降低了智能体的使用门槛并提升了易用性,对普通用户极为友好。

最新发布的实在Agent开放了智能体搭建能力,用户可结合模型技能库和编排工具开发专属AI智能体,并获得完整使用生态。实现了RPA流程与AI工作流融合,升级为智能体画布,支持自然语言交互,融合大模型与RPA能力,适应复杂场景。并且RPA用户流程可一键转为智能体形态,客户端覆盖搭建到运行全环节,提升开发效率。搭建好的智能体可被自主调用,Tars大模型能学习并自动执行任务。

基于实在智能五年积累的近500+的RPA原子组件和业务流程,具备连接和执行能力,能解决跨系统操作和数据摆渡,帮助用户完成业务办理。其生成的RPA组件可重复利用,方便自定义智能体开发。还具备数据分析和文件处理能力,借助大模型推理和代码生成,支持API集成,可联网查询信息。Tars大模型作为决策中枢,能自主调动工具并匹配用户自定义智能体,持续提升上限。

这些,也正是实在Agent的独有特色与不同之处。


企业需要什么样的智能体?

前面实操的案例,更多是实在Agent在C端的能力体现。作为能够在复杂环境中运行的通用智能体,只有能够适用更多企业级的业务场景才能成为企业的生产力。

目前的通用智能体已经实现了使用电脑,但更多还是实验性的项目,无法更好地融入广大企业复杂的业务流程当中,难以实现企业级商业化应用。很多时候,企业引入智能体是一回事,应用起来却是另一回事。

最近有个读者跟我交流,他们想通过智能体替代员工在企业信息化系统中的重复性操作,正在寻找相应的技术路径和解决方案。事实上对于这类跨应用、跨系统的需求,目前大家所看到包括Manus、Ominiparser以及相关开源项目在内的CPU类项目都无法全部实现,或者说只能通过API链接包括现在火爆的MCP完成一部分轻量化的业务流程,对于深入到企业管理系统底层的复杂业务流程,涉及到大量没有API接口的数据连接,目前无法实现。


孙林君认为,大模型存在两种应用方式的局限。一是端到端大模型虽能解决多问题,但遇到幻觉时难以调优,优化成本高且不可控。二是大模型结合API的方式,受限于API开发依赖人工、成本高,且系统设计原则要求低耦合,接口数量不宜过多。大模型加人工的方式,并非更合理选择。未来,大模型应能直接驱动工具操作软件界面完成工作,软件界面本身也是一种协议,这种方式更具潜力。

API不是万能的,API无法连接一切,但企业运营却需要最大化的连接系统与应用。目前来看,至少现阶段这个需求还是要落到基于大模型等技术的RPA类自动化Agent解决方案的身上,或是通过AI+RPA+Agent的解决方案来提升企业对于Agent的应用能力。

那么,企业到底需要什么样的智能体呢?融合RPA和Agent的企业级智能体又应用有哪些终极考核标准或者说成为企业的优质增长杠杆呢?

广大企业所需要的智能体,必然是能够落地并满足业务需求的智能体,而智能体想要真正落地必需做到可控、稳定和高效。可控即过程清晰、结果准确率高,稳定是指多次运行成功率高且结果稳定,高效则是构建效率高。这三点,正是实在Agent满足商业化落地的三大核心能力。

基于这三大核心能力,经过众多客户案例的实践,实在智能总结了企业级智能体落地至少需要具备以下四个方面的能力或服务:

首先,要有专属的企业知识库。企业在生产经营中积累了大量文档和数据,这些是企业独有的宝贵资产,也是员工真正需要的知识。通用大模型无法涵盖这些内容,因此企业需要沉淀自己的知识库并具备数据分析能力,以实现落地应用。

其次,要有专属的业务系统操作指南。经过30多年的信息化建设,企业内部已有多套系统,每套系统都有独特的业务特性和操作流程。智能体要实现自动化业务办理,必须理解这些系统的操作规范,根据企业的业务流程来指导其操作。

第三,要支持模型的接入。大模型能力不断进化,企业需要根据自身业务特性选择并接入适合的大模型。一些企业可能需要对模型进行微调,微调后的模型也必须能够灵活接入智能体平台,以发挥其最大效能。

最后,要支持私有化部署。出于数据安全、风控和监管等因素,大型企业更倾向于私有化部署方案。实在Agent支持多种环境的私有化部署和国产化适配,满足企业在合规基础上的智能化升级需求。

这四点,很好地总结了企业级Agent的特点,当然也把真正的通用智能体门槛提升了几个Level。从这几点而言,在原有企业级平台及解决方案的基础上打造的智能体,先一步成为了企业级通用智能体,这也是我之前一直在说的TO B类的企业会优先吃上智能体红利的一个主要原因。

图:实在Agent的终极价值与核心能力

除了这几点,实在智能将智能体的落地经验总结为成本可控、安全可用、灵活接入,非常形象的概括了企业级智能体解决方案的特色,当然也体现了广大企业的痛点所在。实在智能对于企业级智能体的定义,给行业树立了一个标杆。

后记:与AI共舞,掌控万物

在企业生产环境下,通用大模型基本不太可用,“大模型+API”模式的通用智能体则在夸系统跨应用方面捉襟见肘。因此想要在现阶段更好的应用大模型和智能体,就需要企业根据自身的应用生态和技术路径选择相应的解决方案。

这其中,新兴的大模型、知识库等技术与企业已经实施的RPA、BI、OA、BPA等应用的连接与融合都是绕不开的选择。企业唯一需要考虑的,就是如何让新旧技术融合到一起让不同阶段投资的系统流畅运行以快速、高效、低成本地支撑业务更好地运营。

所以,全方位考虑企业需求并且包容各种技术与应用元素的解决方案才是企业应用智能体等技术的最优解,而RPA Agent解决方案也成了企业管理经营的必然考虑因素。

当下企业采购智能体技术,目光越发指向供应商生态。生态多元化是企业技术选型的一个重要指标,在这方面供应商们都在与时俱进积极拓展。比如实在智能联合华为推出了较通用服务器性能提升40%的 “实在Agent+昇腾芯片” 一体机,联合惠普(HP)推出真正的“AI PC”,在开放API与技能开发工具包后推出了最高给与优秀开发者10万元奖励的开发者激励。

当然实在智能并不局限于PC屏幕,目前推出满1年的实在Agent手机端已实现流程市场、任务调度云端控制等功能。除此之前,实在也会逐步开放Agent在人形机器人、机器狗、车机、智能家居、VR 眼镜等各类智能硬件上的使用功能。待实在 Agent 将全方位融入生活工作,也意味着可以用AI掌控万物。


这次发布会的主题是“与AI共舞,掌控万物”,八个字隐含了两层意思:

“与AI共舞”意味着人机协同,是当下人工智能发展的合理选择。“掌控万物”则强调智能体的核心能力,它能在虚拟环境中代替人操作软件系统内的所有事物。

孙林君如此解释。

这,应该也是实在智能面对未来人工智能星辰大海的终极愿景。


王吉伟频道新书《一本书读懂AI Agent:技术、应用与商业》已出版,轻松读懂系统掌握AI Agent技术原理、行业应用、商业价值及创业机会,欢迎大家关注。

【王吉伟频道,关注AIGC与IoT,专注数字化转型、业务流程自动化与AI Agent,欢迎关注与交流。】

目录
打赏
0
8
8
0
19
分享
相关文章
玩转通义星尘:体验定制化多样角色能力
在杭州云栖大会上,阿里云对外展示了一款个性化角色创作平台——**通义星尘**,其基于大规模高质量个性化对话数据,采用分阶段的个性化训练策略,使得模型在保持通用能力的基础上,延伸出拟人、具有情感、鲜明语言风格的能力,在角色的个性、风格遵循上具有更强的指令遵循能力。那么其能力展现到底如何?我们又能玩出哪些花样呢?今天开始测试通义星尘,争取年前把8个垂直模型都测试一遍,,加油!本文为原创,未经许可请勿搬运。
玩转通义星尘:体验定制化多样角色能力
DeepClaude:结合 DeepSeek R1 和 Claude AI 各自优势开发的 AI 应用平台,支持 API 调用和零延迟的即时响应
DeepClaude 是一个开源的 AI 应用开发平台,结合了 DeepSeek R1 和 Claude 模型的优势,提供即时响应、端到端加密和高度可配置的功能。
327 4
DeepClaude:结合 DeepSeek R1 和 Claude AI 各自优势开发的 AI 应用平台,支持 API 调用和零延迟的即时响应
部署与体验分析
本报告回顾了阿里云文档处理与体验分析的全过程,涵盖文档清洗、内容向量化、问答召回及特定Prompt应用等环节。系统表现出高效、准确、灵活的特点,显著提升了企业知识库的利用效率。同时,提出了优化冷启动、加强多语言支持等改进建议,以期进一步提升服务质量。
《AI强化学习:元应用中用户行为引导的智能引擎》
在科技飞速发展的当下,元应用通过沉浸式虚拟社交和高度仿真的工作模拟,构建丰富多彩的虚拟世界。人工智能的强化学习技术作为智能决策基石,通过精准的行为引导和合理的激励机制设计,重塑用户与虚拟环境的交互体验。它不仅帮助用户量身定制成长路径,还能在用户流失节点进行干预,激发用户的内在动力。尽管面临数据和计算资源等挑战,未来随着硬件技术和算法优化,强化学习将为元应用带来更加精彩、智能的虚拟世界。
在部署《主动式智能导购 AI 助手构建》解决方案的过程中,整体体验还是相对顺畅的,但确实遇到了一些问题,文档提供的引导也有所不足,以下是详细的体验评估
在部署《主动式智能导购 AI 助手构建》解决方案的过程中,整体体验还是相对顺畅的,但确实遇到了一些问题,文档提供的引导也有所不足,以下是详细的体验评估
云端问道11期方案教学-创建专属AI助手-阿里云百炼产品能力分享
阿里云百炼产品能力分享旨在帮助用户深入了解百炼的核心功能,并快速将大模型与系统结合。主要内容包括:1. 百炼的产品定位和能力简介,涵盖模型推理、应用搭建等;2. 知识检索RAG智能体的应用能力和优势,介绍其高效构建知识库的步骤及常见问题;3. 最佳落地案例实践,如宠物行业AI助手和产业分析类互联网企业的Copilot机器人。通过这些内容,用户可以全面掌握百炼在实际业务中的应用方法和效果。
115 0
阿里云文档智能解析——大模型版能力最佳实践与体验评测
阿里云文档智能解析(大模型版)在处理非结构化数据方面表现优异,尤其是在性能和可扩展性上具有明显优势。虽然存在一些待完善之处,但其强大的基础能力和广泛的适用场景使其成为企业数字转型过程中的有力助手。随着技术的不断进步和完善,相信它会在更多领域展现出更大的价值。
470 6
阿里云文档智能解析——大模型版能力最佳实践与体验评测
阅读了《文档智能 & RAG让AI大模型更懂业务》的解决方案后对解决方案的实践原理的理解
阅读《文档智能 & RAG让AI大模型更懂业务》后,我对文档智能处理与RAG技术结合的实践原理有了清晰理解。部署过程中,文档帮助详尽,但建议增加常见错误处理指南。体验LLM知识库后,模型在处理业务文档时效率和准确性显著提升,但在知识库自动化管理和文档适应能力方面仍有改进空间。解决方案适用于多种业务场景,但在特定场景下的集成和定制化方面仍需提升。
函数计算驱动多媒体文件处理解决方案体验评测
从整体解读到部署体验,多方位带你了解如何利用函数计算驱动多媒体文件处理,告别资源瓶颈。
10503 14
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等