AutoGLM的一小步,人机交互进化的一大步

简介: 55年前,阿姆斯特朗登月时说:“这是个人的一小步,却是人类的一大步。”如今,这句话被用来形容智谱的AutoGLM。11月29日,智谱发布了AutoGLM Web、GLM-PC等产品,标志着AI从对话机器人进化为能自主执行复杂任务的智能体。AutoGLM能跨应用操作、执行超长任务,甚至支持“无人驾驶”上网,预示着人机交互新时代的到来。

55年前,左脚刚刚踏上月球的阿姆斯特朗,说了一句简单的话:“这是个人的一小步,却是人类的一大步。”

过去几十年里,很多人曾引用过这句话,用来定格某个历史性时刻。今天,我们想把这句话套用到智谱的AutoGLM上。

11月29日的智谱Agent OpenDay上,对外公测或内测了三个产品——浏览器插件AutoGLM Web、电脑智能体大模型GLM-PC,以及一个多月前“剧透”过的AutoGLM,也是智谱第一个产品化的智能体Agent。

短短一个月的时间,AutoGLM的能力不再局限于点外卖、朋友圈点赞,带来了多个新进展:

AutoGLM 可以自主执行超过 50 步的长步骤操作,也可以跨App执行任务;
AutoGLM开启“全自动”上网新体验,支持等数十个网站的无人驾驶;
像人一样操作计算机的GLM-PC启动内测,基于视觉多模态模型实现通用Agent的技术探索。
同时AutoGLM 启动了大规模内测,将尽快上线成为面向 C 端用户的产品,并宣布启动“10个亿级 APP 免费 Auto 升级”的计划。

01 AutoGLM可以做什么?
看到这里,可能不少人会疑问:什么是AutoGLM?

单从名字上看,很容易让人联想到自动驾驶,毕竟几乎每辆汽车的中控区都有一个AUTO按钮,表示该功能或设置为自动模式。

顾名思义,AutoGLM的场景正是用AI控制手机,只需要一句语音指令,AutoGLM即可模拟人类操作手机来完整任务。AI从只有对话功能的Chatbot,正在进化为“有手、有脑、有眼睛”的自主Agent。

为了方便大家理解,我们提前做了一波测试。

对于不方便看视频的小伙伴,这里大致说一下我们测试的四个场景:分别是到小红书查找周末出行攻略、给小红书博主的最新内容评论、到拼多多上买一箱涌泉蜜桔、订一张从宁波到北京的机票。

直接说结果,AutoGLM都准确完成了工作,几个涉及到购买的场景,只需要我们最后付款即可。稍有不足的是,遇到弹窗或需要人工确认的环节,目前AutoGLM还无法处理,需要人为操作后才能继续后面的流程。

由于时间的原因,我们的测试没有太深入,对于AutoGLM的能力升级,可以参考智谱Agent OpenDay上传递出的信息:

超长任务:理解超长指令,执行超长任务。例如,在采购火锅食材的例子中,AutoGLM 自主执行了 54步无打断操作。并且,在这种多步、循环任务中,AutoGLM 的速度表现超过人手动操作。

跨 App :AutoGLM 支持跨 App 来执行任务。用户将习惯于 AI 自动处理,而不是在多个 APP 间来回切换。由于目前 AutoGLM 形态更像是用户和应用间的APP执行的调度层,因此跨 App 能力是里面非常关键的一步。

短口令:AutoGLM 能够支持长任务的自定义短语。今天,你不用再给AutoGLM说:“帮我买一杯瑞幸咖啡,生椰拿铁,五道口店,大杯、热、微糖” 这类超长指令,只需要说“点咖啡”。

随便模式:我们都会陷入选择恐惧,AutoGLM 今天可以主动帮你做出决策。随便模式下所有步骤都让 AI 决策,带来有抽盲盒式的惊喜。想不想尝尝AI为你点的咖啡口味?

以此类推,AutoGLM Web和GLM-PC的能力和AutoGLM相似,面向的场景分别是浏览器和电脑端,并且有一些智能手机上做不到的功能。

比如AutoGLM Web能够理解用户的指令,自动为用户在网页上站内检索、多链接总结,甚至进一步实现生成arXiv日报,搭建Github仓库,在微博超话签到等个性化功能。

再比如远程手机发指令,GLM-PC可以自主完成电脑操作,可以设定一个未来时间,在开机状态下定时执行任务。

想象一下:即使你在摸鱼、喝咖啡或者上厕所,你的电脑依然在工作,丝毫不会影响工作的进度。

02 人机交互进入AI时代
当然,让我们印象深刻的,并非是AutoGLM所实现的能力,而是对人机交互模式的巨大冲击,基于自然语言的人机交互已经是现在进行时。

小时候上“微机课”,老师经常挂在嘴边的一句话就是:“你们要学会用电脑。”

之所以会出现一个“学”字,因为操作电脑必须要学会使用键盘和鼠标、必须学会输入法、必须要去适应每一个应用的复杂界面,想要编写程序还需要从0开始学一门编程语言。尽管这些工具在不断进步,人与机器的协作依然是一件高门槛的事,特别是一些专业软件,想要完成某个任务需要很多个步骤,过程中充斥着机械性的重复劳动。

AutoGLM目前的功能还很基础,却拉开了人机交互进化的序幕:借助于大模型的强大能力,只需要一句话,AI就能自动帮我们处理复杂的任务,人机协作的门槛进一步降低。

不再是人被动适应机器,而是让机器理解人类。

试图打破人机交互僵局的,不只是国内的智谱,苹果的Apple lnteligence、Anthropic的Computer Use、谷歌的Jarvis,以及OpenAI即将发布的Operator,都在朝同样的方向进行创新。

问题来了,大模型距离重塑人机交互范式还有多远呢?

自动驾驶领域有L1—L5的能力划分,OpenAI、智谱等企业也提出了类似的技术阶段:L1是语言能力、L2是逻辑能力(多模态能力)、L3是使用工具的能力、L4是自我学习能力,最终做到像人一样理解界面、规划任务、使用工具、完成任务。

“坏消息”在于,目前大模型能力还处于初级阶段。按照智谱 CEO 张鹏的说法,“Agent 将极大地提升 L3 使用工具能力,同时开启对 L4 自我学习能力的探索。”

“好消息”则是,在智谱Agent OpenDay上,荣耀、华硕、小鹏、高通、英特尔等,分别从不同的场景出发,分享了他们对智能终端的实践及展望。

也就是说,大模型重塑人机交互范式,绝非是大模型企业的愿景,而是包含终端厂商、芯片厂商在内的产业上下游的共识。随着AutoGLM能力的提升,将能调用越来越多的应用,适配越来越多的系统,实现越来越复杂的连贯自主操作。

另一个不应该忽略的信息是:端侧算力正在持续提升,智谱顺势推出了为AI原生设备适配的模型和端云同源的协同架构,意味着Agent不仅将在应用上实现用户体验变革,还能将推广到各类智能设备上,手机+AI、PC+AI、汽车+AI等将不断涌现。

03 写在最后
在大模型的概念刚走红时,就有人将其比作是“操作系统”。

至少从AutoGLM的表现来看,即便只是在用户和应用之间增加一个智能调度层,已经有了GLM-OS(以大模型为中心的通用计算系统)的雏形。倘若能够进一步实现原生的人与机器交互,将从根本上改变人机交互模式,所有人都可以用自然语言操作手机、电脑、汽车、眼镜等等。

值得期待的是,著名调研机构Gartner已经将agentic AI列为2025年十大技术趋势之一,预测2028年至少有 15%的日常工作决策将由agentic AI自主完成。

相关文章
|
消息中间件 存储 缓存
RabbitMq如何防止消息被重复消费
RabbitMq如何防止消息被重复消费
1980 0
|
4月前
|
前端开发 小程序 JavaScript
A2UI 规范与 AG-UI 协议:打造高效协同的界面开发体系
A2UI规范与AG-UI协议构建“设计-开发”协同闭环:前者统一视觉与交互标准,后者定义组件通信与跨平台适配,二者融合提升协作效率、保障体验一致,推动界面开发向标准化、可复用、高效能演进。
2536 0
|
7月前
|
存储 Kubernetes 微服务
Dapr:用于构建分布式应用程序的便携式事件驱动运行时
Dapr 是一个可移植、事件驱动的运行时,简化了分布式应用程序的开发。它支持多语言、多框架,适用于云和边缘计算环境,提供服务调用、状态管理、消息发布/订阅等构建模块。通过 sidecar 模式,Dapr 帮助开发者轻松应对微服务架构的复杂性,实现弹性、可扩展的应用部署。
482 9
Dapr:用于构建分布式应用程序的便携式事件驱动运行时
|
4月前
|
Shell Linux 开发工具
Linux Shell别名配置(轻松提升你的终端操作效率)
本文介绍了Linux Shell别名(alias)的使用方法,帮助用户通过设置快捷命令提升终端操作效率。内容涵盖临时与永久别名配置、常用命令示例、查看删除方式及命名建议,适用于Bash和Zsh环境,是提高工作效率的实用技巧。(238字)
|
人工智能 算法 测试技术
自动化测试项目实战笔记(二):解决验证码识别问题
这篇文章介绍了三种自动化测试中验证码识别的方法:使用Python的pytesseract和PIL模块、利用第三方API如万维易源,以及使用开源的ddddocr库,还提到了一些注意事项,比如如何获取验证码区域的截图。
677 2
|
11月前
|
人工智能 Java API
MCP客户端调用看这一篇就够了(Java版)
本文详细介绍了MCP(Model Context Protocol)客户端的开发方法,包括在没有MCP时的痛点、MCP的作用以及如何通过Spring-AI框架和原生SDK调用MCP服务。文章首先分析了MCP协议的必要性,接着分别讲解了Spring-AI框架和自研SDK的使用方式,涵盖配置LLM接口、工具注入、动态封装工具等步骤,并提供了代码示例。此外,还记录了开发过程中遇到的问题及解决办法,如版本冲突、服务连接超时等。最后,文章探讨了框架与原生SDK的选择,认为框架适合快速构建应用,而原生SDK更适合平台级开发,强调了两者结合使用的价值。
13727 33
MCP客户端调用看这一篇就够了(Java版)
|
人工智能 算法 机器人
开源极客桌面机器人 Desk-Emoji
Desk-Emoji 是一款开源的实体 AI 桌面陪伴机器人,具备酷炫外观、流畅 Emoji 表情、双自由度云台及大模型语音聊天功能,支持手势识别和情绪反馈,适合 DIY 和二次开发,是性价比极高的桌面机器人。
3616 1
开源极客桌面机器人 Desk-Emoji
|
XML 人工智能 文字识别
Mobile-Agent:通过视觉感知实现自动化手机操作,支持多应用跨平台
Mobile-Agent 是一款基于多模态大语言模型的智能代理,能够通过视觉感知自主完成复杂的移动设备操作任务,支持跨应用操作和纯视觉解决方案。
6119 10
Mobile-Agent:通过视觉感知实现自动化手机操作,支持多应用跨平台
|
人工智能 自然语言处理 搜索推荐
GLM-Realtime:智谱推出多模态交互AI模型,融入清唱功能,支持视频和语音交互
GLM-Realtime 是智谱推出的端到端多模态模型,具备低延迟的视频理解与语音交互能力,支持清唱功能、2分钟内容记忆及灵活调用外部工具,适用于多种智能场景。
769 4
GLM-Realtime:智谱推出多模态交互AI模型,融入清唱功能,支持视频和语音交互
|
Web App开发 5G Linux
FFmpeg开发笔记(四十四)毕业设计可做的几个拉满颜值的音视频APP
一年一度的毕业季来临,计算机专业的毕业设计尤为重要,不仅关乎学业评价还积累实战经验。选择紧跟5G技术趋势的音视频APP作为课题极具吸引力。这里推荐三类应用:一是融合WebRTC技术实现视频通话的即时通信APP;二是具备在线直播功能的短视频分享平台,涉及RTMP/SRT等直播技术;三是具有自定义动画特效及卡拉OK歌词字幕功能的视频剪辑工具。这些项目不仅技术含量高,也符合市场需求,是毕业设计的理想选择。
436 6
FFmpeg开发笔记(四十四)毕业设计可做的几个拉满颜值的音视频APP

热门文章

最新文章

下一篇
开通oss服务