Agent TARS：一键让AI托管电脑！字节开源PC端多模态AI助手，无缝集成浏览器与系统操作

2025-03-23 5507

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Agent TARS 是一款开源的多模态AI助手，能够通过视觉解析网页并无缝集成命令行和文件系统，帮助用户高效完成复杂任务。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🎙 「打工人救星！这个AI能同时操作浏览器+命令行，复杂工作流一键托管」

大家好，我是蚝油菜花。你是否也经历过这些崩溃瞬间——

👉 写报告时要不停切换浏览器/文档/终端，窗口切到眼花
👉 重复性操作浪费生命：下载文件→重命名→编辑内容→上传服务器...
👉 多任务并行时像个八爪鱼，还总漏掉关键步骤

今天要重磅介绍的 Agent TARS ，用三大黑科技终结低效噩梦：

✅ 全自动任务流水线：从网页爬取到文件处理自动完成
✅ 多模态无缝衔接：同时操控浏览器/命令行/文档，像指挥交响乐团
✅ 执行过程全透明：实时可视化每个操作步骤，随时介入调整

已有开发者用它1小时搞定全天工作，接下来带你玩转这个开源神器，解锁「躺着干活」的新姿势！

🚀 快速阅读

Agent TARS 是一款开源的多模态AI助手，专为提升浏览器操作和任务执行效率而设计。

核心功能：支持浏览器操作、命令行集成、文件编辑等复杂任务。
技术原理：基于先进的代理框架和模型上下文协议（MCP），实现任务规划与执行的无缝衔接。

Agent TARS 是什么

Agent-TARS-demo

Agent TARS 是一款开源的多模态AI助手，旨在通过视觉解析网页并无缝集成命令行和文件系统，帮助用户高效完成复杂任务。它能够执行深度研究、文件编辑、任务规划与执行等操作，极大地提升了工作效率。

Agent TARS 的核心在于其强大的代理框架，能够通过事件流与UI无缝连接，实现任务的自动化执行。无论是浏览网页、探索链接，还是整合信息生成最终输出，Agent TARS 都能轻松应对。

Agent TARS 的主要功能

任务规划与执行：通过代理框架实现任务的自动化规划与执行，支持搜索、浏览、探索链接等操作。
多工具集成：无缝集成浏览器、命令行、文件编辑等多种工具，支持复杂工作流的处理。
实时输出展示：提供直观的流式用户界面，展示浏览器、文档等多模态输出结果。
人机交互：支持“人在回路”模式，用户可以在任务执行过程中实时干预和调整方向。
任务分享：支持将任务线程打包为HTML文件或上传至远程服务器，方便与他人分享。

Agent TARS 的技术原理

代理框架：通过先进的代理框架实现任务的自动化规划与执行，确保任务的高效完成。
模型上下文协议（MCP）：利用MCP协议无缝集成多种工具，支持复杂工作流的处理。
事件流：通过事件流与UI无缝连接，实现任务的实时监控与调整。
多模态输出：支持浏览器、文档等多模态输出结果的实时展示，提升用户体验。

如何运行 Agent TARS

下面将详细介绍如何安装、配置和运行 Agent TARS，以及如何进行简单的操作入门。

免责声明：Agent TARS 目前仍处于技术预览阶段，尚未稳定，不建议用于生产环境。

安装

访问Releases页面下载最新版本的桌面程序包。目前，Agent TARS 仅支持 macOS，其他平台的支持正在开发中。

Releases：https://github.com/bytedance/UI-TARS-desktop/releases?q=Agent+Tars&expanded=true

Github Releases

配置

首次打开应用程序时，你需要进入左下角的 设置 页面，并完成必要的配置：

Agent-TARS-setting-icon

1. 模型配置

在设置页面中，你可以配置模型提供方和 API Key：

model-config

如果使用 Azure OpenAI，你还可以设置更多参数，包括 apiVersion、deploymentName 和 endpoint。

2. 搜索配置

在搜索设置中，你可以配置搜索引擎提供方和 API Key：

search-settings

开始你的首次任务

完成配置后，你可以通过输入框与 Agent TARS 进行交互。输入你的问题并按下回车键即可发送请求。例如：

first-journey

人机交互模式

Agent TARS 支持 人机交互模式，这意味着你可以在任务运行过程中通过输入框干预任务方向。如果需要调整任务方向，可以在顶部的特殊输入框中输入你的想法并按下回车键。例如：

human-in-the-loop

分享你的任务

你可以通过顶部菜单的分享按钮将任务分享给他人。Agent TARS 提供了两种分享模式：

1. 本地分享模式

点击分享按钮后，选择 Local Html，Agent TARS 将你的任务打包为一个 HTML 文件，方便你与他人分享。

local-share

2. 远程分享模式

在远程分享模式下，你需要在分享弹窗中设置远程服务器的 URL：

remote-share

Agent TARS 将向远程服务器发送请求，上传 HTML 文件，并生成一个可分享的 URL。具体请求信息如下：

方法：POST

请求体：

file: HTML 文件（类型：multipart/form-data）

响应：

data: { url: string }

资源

项目主页：https://agent-tars.com/
GitHub 仓库：https://github.com/bytedance/UI-TARS-desktop