用自然语言控制电脑,字节跳动开源 UI-TARS 的桌面版应用!内附详细的安装和配置教程

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: UI-TARS Desktop 是一款基于视觉语言模型的 GUI 代理应用,支持通过自然语言控制电脑操作,提供跨平台支持、实时反馈和精准的鼠标键盘控制。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持通过自然语言控制电脑,提供跨平台支持。
  2. 部署:支持云端和本地部署,推荐使用 HuggingFace 或 vLLM 进行快速部署。
  3. 运行:提供详细的安装和配置教程,支持 Windows 和 MacOS 系统。

正文(附运行示例)

UI-TARS Desktop 是什么

UI-TARS Desktop

UI-TARS Desktop 是一款基于视觉语言模型(Vision-Language Model)的 GUI 代理应用,允许用户通过自然语言控制电脑操作。它结合了视觉识别和自然语言处理技术,能够理解用户的指令并执行相应的操作。

该应用支持跨平台运行,适用于 Windows 和 MacOS 系统。通过实时反馈和状态显示,用户可以直观地看到指令的执行情况,确保操作的精准性和高效性。

UI-TARS Desktop 的主要功能

  • 自然语言控制:通过自然语言指令控制电脑操作,简化用户交互。
  • 视觉识别支持:支持截图和视觉识别功能,能够识别屏幕内容并执行相应操作。
  • 精准控制:提供精确的鼠标和键盘控制,确保操作的准确性。
  • 跨平台支持:支持 Windows 和 MacOS 系统,满足不同用户的需求。
  • 实时反馈:提供实时反馈和状态显示,帮助用户了解指令执行情况。

UI-TARS Desktop 演示示例

  • Prompt:Get the current weather in SF using the web browser
  • 使用网页浏览器获取旧金山的当前天气

🥦 微信公众号|搜一搜:蚝油菜花|查看原文演示示例 🥦

  • Prompt:Send a twitter with the content "hello world"
  • 发送一条包含内容“hello world”的推特推文

🥦 微信公众号|搜一搜:蚝油菜花|查看原文演示示例 🥦

如何运行 UI-TARS Desktop

1. 下载

你可以从 GitHub 仓库下载最新版本的 UI-TARS Desktop。

https://github.com/bytedance/UI-TARS-desktop/releases/latest

2. 安装(MacOS)

2.1. 将 UI TARS 应用程序拖拽到 Applications 文件夹中。

UI-TARS Desktop mac_install

注意:如果应用损坏,您可以在终端中使用以下命令来修复它。

sudo xattr -dr com.apple.quarantine /Applications/UI\ TARS.app

UI-TARS Desktop mac_broken

2.2. 在 MacOS 中启用 UI TARS 的权限:

  • 系统设置 -> 隐私与安全 -> 辅助功能
  • 系统设置 -> 隐私与安全 -> 屏幕录制

UI-TARS Desktop mac_permission

2.3. 打开 UI TARS 应用程序,你将看到以下界面:

UI-TARS Desktop mac_app

3. 安装(Windows)

UI-TARS Desktop windows_install

3. 部署

3.1 云端部署

我们推荐使用 HuggingFace Inference Endpoints 进行快速部署。你可以参考以下两个官方文档:

3.2 本地部署 [vLLM]

推荐使用 vLLM 进行快速部署和推理。你需要安装 vllm>=0.6.1

pip install -U transformers
VLLM_VERSION=0.6.6
CUDA_VERSION=cu124
pip install vllm==${VLLM_VERSION} --extra-index-url https://download.pytorch.org/whl/${CUDA_VERSION}

3.2.1 下载模型

这里提供了三种模型大小:2B7B72B。为了获得最佳性能,推荐使用 7B-DPO72B-DPO 模型:

3.2.2 启动 OpenAI API 服务

运行以下命令启动 OpenAI 兼容的 API 服务:

python -m vllm.entrypoints.openai.api_server --served-model-name ui-tars --model <path to your model>

3.2.3 输入 API 信息

在设置中输入你的 API 信息:

UI-TARS Desktop settings_model

注意:VLM 基础 URL 是与 OpenAI 兼容的 API 端点(有关更多详细信息,请参阅 OpenAI API 协议文档)。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
29天前
|
存储 人工智能 自然语言处理
Pandas数据应用:自然语言处理
本文介绍Pandas在自然语言处理(NLP)中的应用,涵盖数据准备、文本预处理、分词、去除停用词等常见任务,并通过代码示例详细解释。同时,针对常见的报错如`MemoryError`、`ValueError`和`KeyError`提供了解决方案。适合初学者逐步掌握Pandas与NLP结合的技巧。
63 20
|
2天前
|
前端开发 安全 开发工具
【11】flutter进行了聊天页面的开发-增加了即时通讯聊天的整体页面和组件-切换-朋友-陌生人-vip开通详细页面-即时通讯sdk准备-直播sdk准备-即时通讯有无UI集成的区别介绍-开发完整的社交APP-前端客户端开发+数据联调|以优雅草商业项目为例做开发-flutter开发-全流程-商业应用级实战开发-优雅草Alex
【11】flutter进行了聊天页面的开发-增加了即时通讯聊天的整体页面和组件-切换-朋友-陌生人-vip开通详细页面-即时通讯sdk准备-直播sdk准备-即时通讯有无UI集成的区别介绍-开发完整的社交APP-前端客户端开发+数据联调|以优雅草商业项目为例做开发-flutter开发-全流程-商业应用级实战开发-优雅草Alex
120 89
【11】flutter进行了聊天页面的开发-增加了即时通讯聊天的整体页面和组件-切换-朋友-陌生人-vip开通详细页面-即时通讯sdk准备-直播sdk准备-即时通讯有无UI集成的区别介绍-开发完整的社交APP-前端客户端开发+数据联调|以优雅草商业项目为例做开发-flutter开发-全流程-商业应用级实战开发-优雅草Alex
|
1月前
「Mac畅玩鸿蒙与硬件51」UI互动应用篇28 - 模拟记账应用
本篇教程将介绍如何创建一个模拟记账应用,通过账单输入、动态列表展示和实时统计功能,学习接口定义和组件间的数据交互。
163 68
|
2月前
|
流计算 UED
「Mac畅玩鸿蒙与硬件48」UI互动应用篇25 - 简易购物车功能实现
本篇教程将带你实现一个简易购物车功能。通过使用接口定义商品结构,我们将创建一个动态购物车,支持商品的添加、移除以及实时总价计算。
136 69
|
1月前
|
数据安全/隐私保护 开发者
产品经理-桌面端UI名词
AxureMost 提供了一套完整的桌面端 UI 组件库,涵盖通用、布局、导航、数据录入、数据展示、反馈及其他组件。每个组件都具备详细的设计规范和资源,帮助设计师和开发者快速构建功能丰富的用户界面。组件库包括按钮、表单、表格、对话框等,全面支持各类应用场景。
产品经理-桌面端UI名词
|
2月前
|
前端开发
「Mac畅玩鸿蒙与硬件49」UI互动应用篇26 - 数字填色游戏
本篇教程将带你实现一个数字填色小游戏,通过简单的交互逻辑,学习如何使用鸿蒙开发组件创建趣味性强的应用。
71 20
|
1月前
|
UED
「Mac畅玩鸿蒙与硬件52」UI互动应用篇29 - 模拟火车票查询系统
本篇教程将实现一个模拟火车票查询系统,通过输入条件筛选车次信息,并展示动态筛选结果,学习事件处理、状态管理和界面展示的综合开发技巧。
62 13
|
1月前
「Mac畅玩鸿蒙与硬件53」UI互动应用篇30 - 打卡提醒小应用
本篇教程将实现一个打卡提醒小应用,通过用户输入时间进行提醒设置,并展示实时提醒状态,实现提醒设置和取消等功能。
64 10
|
2月前
|
前端开发 UED
「Mac畅玩鸿蒙与硬件50」UI互动应用篇27 - 水果掉落小游戏
本篇教程将带你实现一个水果掉落小游戏,掌握基本的动态交互逻辑和鸿蒙组件的使用,进一步了解事件处理与状态管理。
55 14
|
2月前
|
人工智能 自然语言处理 Java
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
FastExcel 是一款基于 Java 的高性能 Excel 处理工具,专注于优化大规模数据处理,提供简洁易用的 API 和流式操作能力,支持从 EasyExcel 无缝迁移。
172 9
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel

热门文章

最新文章