Lux 上手指南:让 AI 直接操作你的电脑

在线体验各类最新模型,更有模型 免费Token 额度领取!
立即体验
简介: Lux 是一款能直接操作计算机的AI基础模型,通过视觉理解与动作预测,实现自然语言指令下的自动化任务。它无需依赖API,可像真人一样点击、输入、滚动,完成浏览器操作等复杂工作,准确率超越主流模型,是迈向“意图即执行”的重要突破。(238字)

Lux 要是一个专门用于计算机操作的基础模型。和那些只会生成文字的 AI 不同,Lux 能看懂屏幕内容并理解自然语言描述的任务目标,然后实时操控计算机完成工作。

比如说你对电脑说"打开浏览器,访问 xxx",然后它就真的执行了:鼠标移动、图标点击、网址输入、页面滚动,整个过程和真人操作没什么区别。

Lux 的技术实现

Lux 不依赖 API 接口所以能在任何应用中工作:浏览器、编辑器、邮件客户端、表格软件都行。它的核心技术是计算机视觉配合动作预测

  • 捕获屏幕截图
  • 解析 UI 组件
  • 预测下一步操作(点击、输入、滚动)
  • 循环执行直到任务结束

在 300 个实际场景的测试中,Lux 的表现超过了 Google Gemini CUA、OpenAI Operator 和 Anthropic Claude。

工作机制

Lux 运行在一个持续的动作-观察循环里:

 目标 → 视觉分析 → 执行动作 → 获取反馈 → 循环

用户用自然语言下达指令,比如:"打开浏览器并打开 xxx",然后Lux 会截取当前屏幕画面并根据截图内容判断下一步该做什么:

  • 点击某个按钮
  • 输入文字
  • 移动光标
  • 滚动页面
  • 触发快捷键

然后执行相应的动作并捕获新的屏幕状态。

这个循环会一直跑下去直到任务完成,可以把它想象成一个坐在你电脑前干活的 AI 助手。

环境配置

在使用 Lux 之前需要完成安装和权限设置。

步骤 1:权限授予

Lux 需要的权限和普通自动化工具一样:屏幕录制权限辅助功能权限

执行命令:

 oagi agent permission

macOS 系统系统会弹出权限请求:

  • 辅助功能
  • 屏幕录制

系统设置 — 隐私与安全 里批准这些权限,完成后重启终端。

步骤 2:API 认证

打开 agiopen生成新的 API 密钥。新注册用户有 $10 免费额度,够跑几十次代理任务了。

配置环境变量

 export OAGI_API_KEY=sk-...  
 export OAGI_BASE_URL=https://api.agiopen.org

步骤 3:桌面环境准备

Lux 直接读取屏幕内容,所以工作区越干净UI 元素识别就越准确。

推荐配置如下

  • 单个大窗口的浏览器
  • 空白起始页
  • 桌面整洁
  • 背景简洁

不推荐的配置

  • 窗口又小又乱
  • 多个程序互相遮挡
  • 复杂的桌面壁纸

环境混乱的话Lux 可能会重试操作或者点错位置。

步骤 4:第一次运行

 oagi agent run "Go to https://agiopen.org" --model "lux-actor-1"

你会看到鼠标自己动、键盘自己敲字,整个过程完全自动化。

实际案例

假设要让 Lux 完成这样一个任务:

启动浏览器,搜索 "OpenAGI Lux model documentation" 浏览搜索结果

命令是:

 oagi agent run "Open a browser, search for OpenAGI Lux model documentation, and scroll through the results." --model "lux-actor-1"

Lux 会依次:

  1. 识别浏览器图标
  2. 点击启动
  3. 找到搜索框
  4. 输入关键词
  5. 按回车
  6. 检测页面可滚动区域
  7. 逐步向下翻页

全程靠视觉理解和动作预测完成。

总结

Lux 不只是个模型,它代表了一个方向:让计算机能直接响应人的意图,而不是通过一系列点击来间接表达。

如果你曾经希望电脑能"替你把事情做了"Lux 把这个想法变成了现实。

https://avoid.overfit.cn/post/084c91d2d2df493f8daa93b25268a6c8

作者:Civil Learning

目录
相关文章
|
8月前
|
人工智能 JSON 机器人
从零开始:用Python和Gemini 3四步搭建你自己的AI Agent
AI Agent并非玄学,核心仅为“循环 + 大模型 + 工具函数”。本文教你用Gemini 3从零搭建能读写文件、执行指令的命令行助手,拆解其“观察-思考-行动”循环机制,揭示智能体背后的简洁本质。
1586 17
从零开始:用Python和Gemini 3四步搭建你自己的AI Agent
|
6月前
|
机器学习/深度学习 人工智能 并行计算
DeepSeek 开年王炸:mHC 架构用流形约束重构 ResNet 残差连接
大过节DeepSeek在arXiv发布mHC新论文,挑战Transformer残差连接范式。通过流形约束(谱范数+双重随机矩阵),在保持高带宽信息通路的同时恢复恒等映射稳定性,解决深层网络梯度传播难题,理论扎实且兼顾系统效率,或成“后Transformer时代”架构新方向。
669 7
DeepSeek 开年王炸:mHC 架构用流形约束重构 ResNet 残差连接
|
5月前
|
人工智能 数据可视化 搜索推荐
AI智能体实战指南:6大工具构建你的自动化工作流引擎
本文介绍2024年六大AI智能体工具:测试自动化(Playwright/Appium)、代码生成(Cursor/OpenCode)、AI工作流(ClawdBot/Dify/n8n)、短视频创作(FFmpeg/MoviePy)等,助开发者构建端到端自动化工作流,释放创造力。
|
6月前
|
机器学习/深度学习 Java
为什么所有主流LLM都使用SwiGLU?
本文解析现代大语言模型为何用SwiGLU替代ReLU。SwiGLU结合Swish与门控机制,通过乘法交互实现特征组合,增强表达能力;其平滑性与非饱和梯度利于优化,相较ReLU更具优势。
407 8
为什么所有主流LLM都使用SwiGLU?
|
5月前
|
人工智能 运维 机器人
过完年AI世界全变了!老金帮你5分钟看完春节13个重磅发布
春节20天,国产AI密集发布13款重磅产品:GLM-5编程能力逼近Claude、豆包2.0价格低至0.6元/百万Token、可灵/Seedance让AI视频迈入生产级,元宝DAU破5000万——中国AI正集体超车。(239字)
|
5月前
|
人工智能 自然语言处理 监控
2026年智能体来了,智能体职业教育的学习路线阶段解析
国家“人工智能+”行动下,2026职场核心竞争力转向构建AI智能体。本路线图分两阶段:“AIGC工具工程”夯实提示词、多模态与知识库能力;“智能体工程实战”深耕Coze、Dify、n8n等平台,打造可落地的数字员工与多智能体系统,培养AI时代的“超级个体”。
|
5月前
|
存储 人工智能 安全
2026年OpenClaw实战指南:点击部署+10大核心能力+50个Skill整合,搭建一人公司AI操作系统
2026年春节过后,AI领域迎来“执行革命”——OpenClaw(原Clawdbot、Moltbot)以“72小时狂揽60,000+ GitHub Stars”的爆发力爆红,如今星标数已突破180,000+,不仅带动Mac Mini全球售罄,更重塑了“一人公司”的运营模式。它不再是单纯的聊天机器人,而是能通过自然语言指令完成跨平台操作、自动化执行、数据管理的“全能数字员工”,真正实现“聊天框里办大事”。
2913 3

热门文章

最新文章