智能体进化发展了一年,现在的RPA Agent迭代到什么程度了?

简介: 智能体技术在过去一年迅速发展,RPA Agent已成为连接多种应用系统的关键工具。实在智能推出的实在Agent 7.0,通过自然语言处理和屏幕识别技术,实现了从需求输入到任务执行的全流程自动化,大幅降低了智能体构建门槛。该平台不仅能在企业级应用中提供专业服务,还能满足个人用户的多样化需求,真正实现了端到端的自动化解决方案。

  • 智能体进化发展了一年,现在的RPA Agent迭代到什么程度了?
  • 抓取豆瓣信息、自己制作PPT,这款AI Agent真的实现了流程全自动化
  • AI Agent构建到执行全自动化,持续进化RPA Agent再次降低智能体应用门槛
  • C端AI Agent构建与应用实现端到端,这个智能体构建平台真的不一般


文/王吉伟


智能体的爆发,意味着大语言模型的快速落地与应用。所以它一经提出便如泄洪之水一发而不可收,直至现在如火如荼。

尤其是在智能体工作流(Agentic Workflow)的加持下,智能体表现出了更强的易用性和适应性。除了解决简单工作流的自动化,也在积极融合进入更多的传统业务流程和应用场景。

王吉伟频道在《Agentic Workflow新范式,基于大语言模型的工作流、业务流程、智能体大融合》一文中提到过,广义上的Agentic Workflow是包含传统软件(工具、解决方案)、大语言模型、AI Agent等在内的新型业务流程的集合,其中用RPA等超自动化工具将轻量化LLM工作流与传统工作流相连接的工作流,将会成为企业业务流程的重要形式。

当前的AI Agent构建平台所构建的AI Agent通过各种插件和工作流已经可以做到较长的流程,但仍然无法操作没有API接口和没有开放API的大型以及遗留的企业级应用程序,并且API接口也不能保障绝对的稳定。

因此在智能体的应用上,用RPA来连接多种应用系统以保障数据的流通是不可或缺的,这对于已将RPA应用于企业运营人机交互层的组织来说则更加重要。

在企业级智能体的解决方案上,基于RPA构建的或者以RPA为tools的RPA Agent越发受到广大组织重视,原因正是它能够弥补单纯的API类智能体的不足,可以通过“API+UI”双重自动化极大提升智能体的应用潜力。RPA已经成为智能体的重要技术,也是实现基于LLM的智能自动化的必要技术之一。

从去年LLM爆发以来,RPA\超自动化厂商们也都在持续进化,完成了RPA Agent的产品化进阶。那么它们进化到什么程度了?在王吉伟频道写这个选题期间,恰好实在智能发布了最新产品实在Agent 7.0。这篇文章,我们就以这款产品为例,透视国产RPA Agent产品的发展情况。

先来看两个例子

在详细介绍实在Agent之前,先来看几个实际操作案例。

案例1:采集豆瓣新片排行榜发送给同事

这是一个娱乐类的案例。如果你想为同事推荐最新的十部电影,过去需要打开豆瓣电影的新品排行榜,逐个复制电影名称,通过微信或者钉钉发送给朋友。现在使用实在Agent,只需要打开软件,输入 「采集豆瓣电影片排行榜前十(电影名、评分)」,它就能自动分析你的需求并拆解成执行步骤,然后点一下 执行 ,它就会自动采集相关数据并把数据填入到钉钉,发送给你的同事。

案例2:在腾讯文档制做年终汇报幻灯片

这是一个办公应用的案例。按照正常步骤操作这个业务流程,需要打开腾讯文档,搜索相关文档,再制作成PPT。使用实在Agent智能体,只需要告诉它 「明天要去汇报,去腾讯文档里做一个叫年中汇报的幻灯片 」,它就会把你的需求拆解成相应的执行步骤,然后点击 执行 按钮,几分钟后就能在腾讯文档走出一个幻灯片。

除了这两个案例,实在智能还给王吉伟频道展示了获取百度贴吧前10个热门贴吧相关信息、京东关注商品降价通知发送、京东购物车商品结算等案例。

王吉伟频道还实际测试了12306查询车次、给微信好友添加标签及发送信息等应用案例,都能一一完成。实在Agent智能体预制了很多代表性案例,感兴趣的朋友可以亲自尝试。

据悉,目前实在Agent已经能够对钉钉、微信、企业微信等集成办公软件进行精确操作,并能通过屏幕识别技术对淘宝、京东、携程及12306等网站进行精确识别。

实在智能正在对更多的软件系统进行适配,以后大家需要操作的工作、生活及学习等业务流程,都能通过使用自然语言与实在Agent智能体交流实现相应业务流程的自动化,且这些Agent流程都是可以复用的,一次创建多次使用。

实在Agent 7.0.0有什么特点?

以上两个实操案例,来自于实在Agent 7.0。新版Agent 7.0具备以下几个特点:

  • 自然对话交互:“All in One”式助理工作体验;
  • 意图理解、流程规划:更为强大的意图理解+流程精准拆解规划能力;
  • 多代产品能力集成:实现一代RPA、二代IPA数字员工元素拾取、组件、流程编排等全部能力集成;
  • 软件界面精准操作:Agent多模态屏幕语义理解,屏幕扫描识别,界面精准操作;

实在智能千亿参数训练的底层TRAS大模型也再次进化,训练参数量更大,支持自然语言沟通工作、科普知识,高效执行任务完成工作,对话工作两不误。

在智能问答方面,基于实在智能文档系统(IDP),能够给实现文件的精确问答及处理。


此外,该公司已经继续深入探索企业大模型、数字员工运营管理平台、RAG和Agentic Workflow等技术和产品整合研究,实在智能创始人孙林君曾在2024年世界人工智能大会上提到“企业大脑”解决方案。

目前它们正在逐步推出企业知识库定制训练服务,通过RAG让Agent能够回答企业内部专属的知识内容和流程内容,让知识和流程资产创新价值。

之所以能做到这些,在于其对于技术和产品研发的执着,并且产研投入量极大。此次版本大更新花费近一年时间,深入更新迭代了底层较多技术架构、功能架构、RPA组件等。

实在智能在RPA有6年技术沉淀,在AI有6年能力、人才等的积累,多年的技术沉淀、对市场需求的准确把握以及对技术走向的前瞻性预判,使得他们能够在LLM与AI Agent爆发之后先一步扛起RPA Agent的行业大旗。

作为国内首家发布明确意义上的AI Agent智能体的公司,实在智能的系列产品已经先一步实现依据个人诉求生成工作流程、识别工作环境(浏览器、网页、通讯软件、工作软件等)、自主执行任务及流程,在保证智能体能够在B端为广大组织提供企业级服务的同时,也用标准化、易用化的产品进入C端市场服务更多个人用户。

与Coze等Agent平台有什么区别?

看了上面两个案例,是不是感觉使用实在Agent超级简单?

没错,使用实在Agent智能体的全部流程仅是 「输入需求-点击执行-收到结果」 这么简单,完全不用考虑其他操作,实现了软件使用上的端到端。理论上,随着软件的不断迭代,这种端到端的方式可以做到任何业务流程的自动化创建和自动化执行。

提及智能体,目前大家更熟悉的可能是Coze、Dify、GPTs等平台上用户所创建的各种智能体。从上面的案例大家应该能够体会到,实在Agent与它们最大的区别是在智能体构建上几乎不需要人为参与(流程中断时需要人为干预),都由实在Agent自行完成。

其他平台的Agent构建方式是:人力构建智能体,智能体自动化执行任务。实在Agent的构建方式则是:自动化构建智能体,智能体自动化执行任务。这种方式,实现了从构建到执行的全自动化。

所以,在使用实在Agent智能体时,用户不用再像在Coze等平台一样通过输入提示词、选择插件、搭建工作流等操作去构建一个智能体,极大地节省了用户构建应用的时间(自动化构建可以让用户忙其他事情),并进一步降低了智能体的构建门槛,真正实现了一句话构建智能体,所想即所得。

此外,想要在智能体平台构建能够深度操作钉钉、微信等智能体,没有相应的API接口是无法实现的,且平台生态之间的API还存在着一定的连接安全性、限制性等问题,通过RPA模仿人类操作的形式则完成杜绝了此类问题的发生。

端到端这个术语经常应用于B端企业级技术解决方案,主要强调技术、方案、流程及系统的完整性,也更强调产品应用的易用性和广泛性。

实在智能的端到端,一方面可以理解为从B端到C端。因为实在智能要做的,不仅是能在B端为企业提供专业级的Agent数字员工解决方案,更要在C端为个人用户带来解决长尾低频自动化需求的智能助理。从全新的实在Agent 7.0来看,他们做到了。

另一方面,还可以理解为C端的技术实现。实在Agent把“端到端”的技术特点和便捷特性赋予了智能体的C端构建与应用,把“RPA人人可用”的愿景进一步拓展为”Agent人人可用”。在LLM的加持下,这个愿景将会快速变为现实。

2023年8月,随着实在Agent智能体的面世,实在智能成为国内首家发布AI Agent智能体的AI科技公司。2024年8月,实在Agent 7.0发布后,实在智能再次成为RPA业界首家推出Agent产品形态的AI科技企业。

而这个进程,仅用了1年。

【王吉伟频道,关注AIGC与IoT,专注数字化转型、业务流程自动化与AI Agent,欢迎关注与交流。】


相关实践学习
基于阿里云短信服务的防机器人验证
基于阿里云相关产品和服务实现一个手机验证码登录的功能,防止机器人批量注册,服务端采用阿里云ECS服务器,程序语言选用JAVA,服务器软件选用Tomcat,应用服务采用阿里云短信服务,
目录
相关文章
|
3月前
|
存储 API
LangChain与智能Agent构建问题之MetaGPT中工程师智能体代码错误如何解决
LangChain与智能Agent构建问题之MetaGPT中工程师智能体代码错误如何解决
47 1
|
2天前
|
机器学习/深度学习 人工智能 算法
Agent Q:具备自我学习、评估的智能体
近年来,人工智能领域取得了显著进步,特别是智能体技术备受瞩目。智能体作为AI系统核心,能自主学习、决策和执行任务,应用广泛。Agent Q作为一种具备自我学习和评估能力的智能体,通过强化学习算法,能自动优化行为策略,适应复杂环境,无需人工干预。此外,它还能根据评估指标调整策略,持续提升任务完成质量。尽管存在复杂环境适应性和计算资源消耗等挑战,Agent Q仍为智能机器人、自动驾驶等领域的应用提供了新思路,推动了AI技术的发展。论文详细内容可在此处获取:https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf
13 1
|
2月前
|
人工智能 自然语言处理 算法
可自主进化的Agent?首个端到端智能体符号化训练框架开源了
【8月更文挑战第13天】近年来,AI领域在构建能自主完成复杂任务的智能体方面取得重大突破。这些智能体通常基于大型语言模型,可通过学习适应环境。为简化设计流程,AIWaves Inc.提出智能体符号化学习框架,使智能体能在数据中心模式下自我优化,以推进通向通用人工智能的道路。该框架将智能体视作符号网络,利用提示、工具及其组合方式定义可学习的权重,并采用自然语言模拟反向传播和梯度下降等学习过程,指导智能体的自我改进。实验显示,此框架能有效促进智能体的自主进化。尽管如此,该框架仍面临高质量提示设计及计算资源需求高等挑战。论文详情参见:https://arxiv.org/pdf/2406.18532。
149 58
|
29天前
|
存储 机器学习/深度学习 人工智能
深入浅出 AI 智能体(AI Agent)|技术干货
随着人工智能技术的发展,智能体(AI Agents)逐渐成为人与大模型交互的主要方式。智能体能执行任务、解决问题,并提供个性化服务。其关键组成部分包括规划、记忆和工具使用,使交互更加高效、自然。智能体的应用涵盖专业领域问答、资讯整理、角色扮演等场景,极大地提升了用户体验与工作效率。借助智能体开发平台,用户可以轻松打造定制化AI应用,推动AI技术在各领域的广泛应用与深度融合。
437 0
|
2月前
|
设计模式 存储 人工智能
基于阿里云通义星尘实现多智能体(Multi-agent)协同工作的构想与尝试
近年来,大规模预训练模型(大模型)快速发展,其能力显著增强,尤其是在语言理解和生成方面取得了突破。然而,尽管大模型强大,但仍需被动响应指令,为此,研究转向了更具自主性的新范式——智能体(AI agent)。不同于仅执行命令的大模型,智能体不仅能理解复杂指令,还能规划行动步骤并在特定领域自我学习与改进。为进一步提高处理复杂任务的能力,多智能体(Multi-Agent)系统应运而生,多个智能体通过协作、交流信息和共享资源,共同完成更为复杂精细的任务。本文探讨了如何利用阿里云的通义星尘实现基础的多智能体协同工作,介绍了智能体的概念、优势及局限性,并通过具体案例展示了如何构建协作型多智能体系统。
|
2月前
|
存储 弹性计算 前端开发
阿里云服务领域Agent智能体:从概念到落地的思考、设计与实践
本文讲述了作者团队在阿里云的服务领域Agent是如何设计与实践的,以及到目前为止的一些阶段性成果,作者做出了总结和整理。
|
3月前
|
Web App开发 机器学习/深度学习 人工智能
AI Agent满级进化!骑马种田、办公修图,样样精通,昆仑万维等发布通用Agent新框架
【7月更文挑战第23天】AI Agent技术迎来突破,昆仑万维联合顶尖学府发布Cradle框架,赋能智能体通用控制能力。Cradle结合大型语言模型与六大核心模块,实现跨场景灵活操控,从游戏到办公软件,无师自通。实验验证其在《荒野大镖客2》等游戏及Chrome、Outlook上的卓越表现。框架开源,促进AI社区进步,但仍需面对实际应用的挑战与安全性考量。[论文](https://arxiv.org/abs/2403.03186)详述创新细节。
102 3
|
3月前
|
人工智能 开发框架 自然语言处理
基于 Qwen-Agent 与 OpenVINO™ 构建本地 AI 智能体
Qwen2 是阿里巴巴集团 Qwen 团队研发的大语言模型和大型多模态模型系列。Qwen2 具备自然语言理解、文本生成、视觉理解、音频理解、工具使用、角色扮演、作为 AI Agent 进行互动等多种能力。
|
3月前
|
机器学习/深度学习 算法 Python
强化学习(Reinforcement Learning, RL)** 是一种机器学习技术,其中智能体(Agent)通过与环境(Environment)交互来学习如何执行决策以最大化累积奖励。
强化学习(Reinforcement Learning, RL)** 是一种机器学习技术,其中智能体(Agent)通过与环境(Environment)交互来学习如何执行决策以最大化累积奖励。
|
2月前
|
存储 人工智能