❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦
🚀 「网页操作解放双手!开源视觉模型3B参数逆袭:浏览器自动抓取+填表,低配GPU也能跑」
大家好,我是蚝油菜花。你是否也经历过——
- 👉 凌晨3点还在写爬虫,反爬机制让你头秃
- 👉 重复点击/填表操作,浪费50%开发时间
- 👉 想用AI自动化,但动辄百亿参数模型根本跑不动...
今天带来的 Proxy Lite 彻底打破困局!这个仅3B参数的开源视觉语言模型,能像真人一样操作浏览器:
- ✅ 所见即所得:通过屏幕截图理解网页结构,精准定位按钮
- ✅ 智能决策链:观察→思考→动作三步闭环,处理验证码也不慌
- ✅ 低配神器:3090显卡就能流畅运行,成本直降90%
已有开发者用它自动处理电商订单、抓取科研论文数据,甚至搭建24小时在线的舆情监控系统——点击视频,看如何用5行代码开启你的自动化革命!
🚀 快速阅读
Proxy Lite 是一款开源的轻量级视觉语言模型,支持自动化网页任务。
- 核心功能:支持网页自动化操作、数据抓取、智能任务助手等,显著降低自动化成本。
- 技术原理:结合视觉感知和自然语言处理能力,通过“观察-思考-工具调用”的三步决策机制完成任务。
Proxy Lite 是什么
Proxy Lite 是一款开源的轻量级视觉语言模型(VLM),参数量为3B,支持自动化网页任务。它能够像人类一样操作浏览器,完成网页交互、数据抓取、表单填写等重复性工作,显著降低自动化成本。
Proxy Lite 采用“观察-思考-工具调用”的三步决策机制,具备强大的泛化能力和低资源占用,支持在消费级GPU上高效运行。它提供完整的浏览器交互框架,适合开发者快速部署和使用。
Proxy Lite 的主要功能
- 网页自动化操作:自动完成浏览器中的各种操作,如点击按钮、填写表单、滚动页面、处理弹窗等。
- 网页数据抓取:解析网页内容,提取结构化数据,支持新闻、社交媒体、电商平台等多类型网页的数据抓取。
- AI驱动的交互式Web代理:结合视觉感知能力,实现UI自动化测试和前端行为分析。
- 智能任务助手:帮助用户搜索、筛选和总结信息,提升网页导航体验。
- 低资源占用:仅3B参数,支持在消费级GPU上高效运行,无需依赖大型云计算资源。
Proxy Lite 的技术原理
- 视觉语言模型(VLM):结合视觉感知(图像识别)和自然语言处理能力,理解和操作网页内容。
- 三步决策机制:
- 观察:评估上一操作是否成功,并获取当前网页的状态信息。
- 思考:根据当前页面状态进行推理,决定下一步操作。
- 工具调用:基于浏览器API进行交互,如点击、输入、滚动等。
- 浏览器交互框架:内置完整的浏览器交互控制框架,用Playwright库驱动浏览器操作,支持无头模式(Headless)和隐身模式(Stealth)以降低被反爬风险。
- 执行反馈机制:借鉴DeepSeek R1等模型的反馈机制,在任务执行中不断优化决策流程,提升执行准确性。
如何运行 Proxy Lite
1. 安装
克隆仓库:
git clone https://github.com/convergence-ai/proxy-lite.git
设置环境:
make proxy
或手动安装:
pip install uv
uv venv --python 3.11 --python-preference managed
uv sync
uv pip install -e .
playwright install
2. 使用
运行任务:
proxy "Find some markets near Kings Cross and tell me their ratings."
启动本地Web UI:
make app
3. 本地部署
使用vLLM部署本地端点:
vllm serve convergence-ai/proxy-lite-3b \
--trust-remote-code \
--enable-auto-tool-choice \
--tool-call-parser hermes \
--port 8008 \
设置API端点:
export PROXY_LITE_API_BASE=http://localhost:8008/v1
4. Python 集成
使用 Runner
类在Python中运行模型:
import asyncio
from proxy_lite import Runner, RunnerConfig
config = RunnerConfig.from_dict(
{
"environment": {
"name": "webbrowser",
"homepage": "https://www.google.com",
"headless": True,
},
"solver": {
"name": "simple",
"agent": {
"name": "proxy_lite",
"client": {
"name": "convergence",
"model_id": "convergence-ai/proxy-lite-3b",
"api_base": "https://convergence-ai-demo-api.hf.space/v1",
},
},
},
"max_steps": 50,
"action_timeout": 1800,
"environment_timeout": 1800,
"task_timeout": 18000,
"logger_level": "DEBUG",
},
)
proxy = Runner(config=config)
result = asyncio.run(
proxy.run("Book a table for 2 at an Italian restaurant in Kings Cross tonight at 7pm.")
)
资源
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦