🤔 Manus值得追捧吗?通过开源方案实测引发的思考

简介: Manus是一款号称能自动完成知识工作的AI助手,近期因其“AI打工人”的形象在中文互联网上引发热议。为验证其实际表现,作者通过开源项目OWL进行测试。结果显示,Manus的核心技术依赖虚拟工作环境、知识库调用、数据源连接等环节,但实际任务执行效果差强人意,耗时较长且未能精准完成简单任务。作者认为,Manus的技术路线主要在于封装工作流(workflow),而这一模式可能随着模型迭代逐渐内化,商业化前景尚不明朗。

引子

继DeepSeek在春节期间引爆大模型领域后,近期Manus又以"AI打工人"之称成功"破圈"。在中文互联网上,随处可见关于它的话题,从某鱼上卖到上万元的邀请码,到科技圈内外的热烈讨论。技术爱好者、内容创作者乃至普通用户都在争相体验这款号称能自动完成知识工作的AI助手。然而热潮之下,其真实能力与技术壁垒几何?作为技术从业者,我决定绕过高昂门槛,通过开源方案验证Manus的实际表现,希望提供一个基于实践的理性参考。

图片1.png

图片2.png

Manus的实现分析

从技术角度分析,Manus的核心功能架构并不神秘,它主要依赖以下几个关键环节构建AI助手的工作能力:

  1. 虚拟工作环境:Manus创建了一个类似Ubuntu的虚拟环境,相当于给AI一个"电脑",让它能在一个标准化的系统中工作
  2. 知识库调用:AI需要记住并调用之前学习的相关知识,这类似于人类回忆过去经验来解决当前问题
  3. 数据源连接:系统可以连接各种外部数据,包括常见的网盘、数据库和云存储,使AI能获取到所需信息
  4. 数据整合处理:将收集到的数据导入虚拟环境,让AI能直接访问和处理这些信息
  5. 任务规划:AI会自动生成任务清单和执行计划,类似于人类写下待办事项,确保工作有条不紊
  6. 工具链使用:结合系统内置工具和外部应用,AI可以执行从数据分析到内容创作的完整工作流程

这个架构听起来确实十分严谨——它让AI不只是能对话,而是能够像真正的助手一样,规划并执行复杂任务。但关键问题是:这样的系统在实际应用中表现如何?技术难点是否真如传言般高不可攀?下面我们通过开源方案来实测一番。

开源方案实测

基于上述的实现分析,目前OpenManusOWL都可以作为选择,二者的技术实现都差不多,任选一个即可。我这里选择OWL作为本次测试的开源方案,也没什么偏好,单纯觉得这个做的更早一些,使用效果应该更好。

Github地址: https://github.com/camel-ai/owl

图片3.png

项目的readme文档里关于运行步骤写得很详细,只需要把项目clone下来,按照步骤一步一步执行就可以运行起来。(Ps:个人建议采用conda的方式安装,可以把它理解成python的环境和包管理工具,对新手更友好!)

图片4.png

这个项目更新的速度还是很快的,笔者在上周五测试跑了一下,这周记录写这篇文章的时候发现最新的readme在配置这里已经更简化了,甚至一个最小化的实例只需要配置LLM的密钥即可运行,并且模型选择上还支持了QwenDeepSeek

图片5.png

笔者这里测试使用的版本不是最新的,所以在配置方法上略有不同,大家看到这篇文章的时候最好也去项目的github上看一下,以前以最新的文档为准。我们看下我测试时的配置:

图片6.png

除了模型的API KEY,还需要配置一些要用的工具的API KEY。配置文件里很贴心地附上了链接,大家直接访问去创建即可。(友情提示:部分工具的API KEY是付费的)。

完成了安装配置后,我们执行一个任务测试看下效果,我想让它找到我的博客首页看看我写的文章,但是执行效果只能说差强人意。为了展示运行的客观情况,这个GIF我没做任何剪辑处理,左侧可以看到AI的思考过程,右侧可以看到执行过程。这个任务本身并不复杂,但是它花了近5分钟的时间找,还并没定位到首页,这件事人用搜索引擎做可能20秒内就搞定了。

图片7-4.56.gif

现状分析

其实这个技术路线笼统地讲就是针对workflow的封装。我个人认为模型能力在这个环节里反而不是最核心的点,相关工具和生态的构建才是这个落地的关键。如果选择这个路线去构建垂直领域的应用,其实核心还是做workflow,场景覆盖得越多,效果自然也就越好。

图片8.png

小结

目前来看,个人认为这项技术离商业化的距离还不小,而且我本人对workflow这个路线不是很看好(补充说明:不管是人封装还是AI自己创建)。这个就像早期模型能力还不强的时候,需要写提示词,还诞生出了一批套壳应用,但现在推理模型的出现,让提示词就被淘汰了。所以,我更倾向于workflow这种模式将来也会随着模型的迭代而内化成为模型自身的能力。

目录
相关文章
|
7月前
|
人工智能 API 决策智能
还在蹲Manus的邀请码?别等了!开源版Manus为你快速创建AI工位,给AI一台电脑,然后你就玩去吧!
OpenManus 是 MetaGPT 的开源 AI 平台,支持多语言模型和工具链,执行代码、处理文件等任务,具备实时反馈。OWL 基于 CAMEL-AI,支持角色分配、任务分解和记忆功能,实现高效任务自动化。
974 22
还在蹲Manus的邀请码?别等了!开源版Manus为你快速创建AI工位,给AI一台电脑,然后你就玩去吧!
|
7月前
|
人工智能 自然语言处理 安全
Anus:公开整活!完全用 Manus 复刻 Manus 功能的开源 AI 智能体项目
Anus 是一个开源 AI 智能体项目,复刻了 Manus 的部分功能,支持自然语言指令执行、多代理协作、多模态输入处理等功能,旨在为开发者提供强大且灵活的工具。
753 1
Anus:公开整活!完全用 Manus 复刻 Manus 功能的开源 AI 智能体项目
|
7月前
|
人工智能 自然语言处理 API
AI双轨革命:DeepSeek与Manus
DeepSeek与Manus是当前人工智能领域的两款明星产品,技术定位和核心能力各有千秋。DeepSeek基于混合专家模型,参数达6710亿,擅长知识推理与文本生成,提供高性价比的企业级应用;Manus采用多智能体协作架构,实现任务全流程自动化,支持跨平台工具调用。两者并非直接竞争,而是互补,共同推动AI向智慧化和实用化发展。
247 2
|
7月前
|
人工智能 API 开发者
无需邀请码!MetaGPT 开源AI助手 OpenManus,实时反馈+模块化设计,开发者福音
OpenManus 是 MetaGPT 团队推出的开源 AI Agent 复刻版,支持多种语言模型和工具链,能够执行代码、处理文件、搜索网络信息等复杂任务,具备实时反馈机制和灵活的配置选项。
515 17
无需邀请码!MetaGPT 开源AI助手 OpenManus,实时反馈+模块化设计,开发者福音
|
7月前
|
人工智能 算法
DeepSeek过时了?全网刷屏的Manus到底是什么?这样写申请秒过审核
Manus(官网:[https://manus.im/](https://manus.im/))是一个通用AI智能体,能够理解用户需求并主动完成任务,如筛选简历、研究房产和分析股票等复杂工作。其独特之处在于“知行合一”,不仅能思考还能交付成果。目前处于内测阶段,邀请码稀缺,申请需详细说明使用目的和技术背景。通过官方审核后,用户可登录体验这一创新工具。
296 5
|
6月前
|
人工智能 数据可视化 数据挖掘
手撕“开源版Manus”
Manus作为一款引发热议的AI智能体产品吸引了大量的关注。OpenManus作为一个开源项目,尝试复现了Manus的部分功能,可以作为一种“平替”来体验类似的技术。
|
7月前
|
人工智能 安全 搜索推荐
Manus:AI 领域的又一次 "DeepSeek 时刻"?
Manus是由Monica.im团队推出的一款全球首款通用型AI Agent,具备自主规划、分析和执行复杂任务的能力,不仅限于对话式AI。它在GAIA基准测试中超越了GPT-4等主流模型,能够自动完成市场调研、代码开发、文件处理等任务,被誉为AI领域的“DeepSeek时刻”。目前Manus处于内测阶段,邀请码供不应求,甚至在灰色市场上被炒至高价。其技术突破和稀缺性营销引发了市场的广泛关注,可能引领AI进入全新的“代理时代”。
347 91
Manus:AI 领域的又一次 "DeepSeek 时刻"?
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
QwQ-32B为襄阳职业技术学院拥抱强化学习的AI力量
信息技术学院大数据专业学生团队与UNHub平台合作,利用QwQ-32B模型开启AI教育新范式。通过强化学习驱动,构建职业教育智能化实践平台,支持从算法开发到应用的全链路教学。QwQ-32B具备320亿参数,优化数学、编程及复杂逻辑任务处理能力,提供智能教学助手、科研加速器和产教融合桥梁等应用场景,推动职业教育模式创新。项目已进入关键训练阶段,计划于2025年夏季上线公测。
230 10
QwQ-32B为襄阳职业技术学院拥抱强化学习的AI力量
|
7月前
|
语音技术 网络架构 开发者
HumanOmni:首个专注人类中心场景的多模态大模型,视觉与听觉融合的突破!
HumanOmni是业内首个理解以人为中心的场景,可以同时处理视觉信息、音频信息的多模态大模型。
366 9
HumanOmni:首个专注人类中心场景的多模态大模型,视觉与听觉融合的突破!
|
7月前
|
Web App开发 人工智能 JavaScript
Nanobrowser:开源版OpenAI Operator!AI自动操控浏览器,复杂网页任务一键搞定
Nanobrowser 是一款开源的 Chrome 扩展工具,基于多智能体系统实现复杂的网页任务自动化,支持多种大型语言模型,完全免费且注重隐私保护。
811 1