Proxy Lite:仅3B参数的开源视觉模型!快速实现网页自动化,支持在消费级GPU上运行

简介: Proxy Lite 是一款开源的轻量级视觉语言模型,支持自动化网页任务,能够像人类一样操作浏览器,完成网页交互、数据抓取、表单填写等重复性工作,显著降低自动化成本。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🚀 「网页操作解放双手!开源视觉模型3B参数逆袭:浏览器自动抓取+填表,低配GPU也能跑」
大家好,我是蚝油菜花。你是否也经历过——

  • 👉 凌晨3点还在写爬虫,反爬机制让你头秃
  • 👉 重复点击/填表操作,浪费50%开发时间
  • 👉 想用AI自动化,但动辄百亿参数模型根本跑不动...

今天带来的 Proxy Lite 彻底打破困局!这个仅3B参数的开源视觉语言模型,能像真人一样操作浏览器:

  • ✅ 所见即所得:通过屏幕截图理解网页结构,精准定位按钮
  • ✅ 智能决策链:观察→思考→动作三步闭环,处理验证码也不慌
  • ✅ 低配神器:3090显卡就能流畅运行,成本直降90%

已有开发者用它自动处理电商订单、抓取科研论文数据,甚至搭建24小时在线的舆情监控系统——点击视频,看如何用5行代码开启你的自动化革命!

🚀 快速阅读

Proxy Lite 是一款开源的轻量级视觉语言模型,支持自动化网页任务。

  1. 核心功能:支持网页自动化操作、数据抓取、智能任务助手等,显著降低自动化成本。
  2. 技术原理:结合视觉感知和自然语言处理能力,通过“观察-思考-工具调用”的三步决策机制完成任务。

Proxy Lite 是什么

proxy-lite-cover

Proxy Lite 是一款开源的轻量级视觉语言模型(VLM),参数量为3B,支持自动化网页任务。它能够像人类一样操作浏览器,完成网页交互、数据抓取、表单填写等重复性工作,显著降低自动化成本。

Proxy Lite 采用“观察-思考-工具调用”的三步决策机制,具备强大的泛化能力和低资源占用,支持在消费级GPU上高效运行。它提供完整的浏览器交互框架,适合开发者快速部署和使用。

Proxy Lite 的主要功能

  • 网页自动化操作:自动完成浏览器中的各种操作,如点击按钮、填写表单、滚动页面、处理弹窗等。
  • 网页数据抓取:解析网页内容,提取结构化数据,支持新闻、社交媒体、电商平台等多类型网页的数据抓取。
  • AI驱动的交互式Web代理:结合视觉感知能力,实现UI自动化测试和前端行为分析。
  • 智能任务助手:帮助用户搜索、筛选和总结信息,提升网页导航体验。
  • 低资源占用:仅3B参数,支持在消费级GPU上高效运行,无需依赖大型云计算资源。

Proxy Lite 的技术原理

proxy-lite-loop

  • 视觉语言模型(VLM):结合视觉感知(图像识别)和自然语言处理能力,理解和操作网页内容。
  • 三步决策机制
    • 观察:评估上一操作是否成功,并获取当前网页的状态信息。
    • 思考:根据当前页面状态进行推理,决定下一步操作。
    • 工具调用:基于浏览器API进行交互,如点击、输入、滚动等。
  • 浏览器交互框架:内置完整的浏览器交互控制框架,用Playwright库驱动浏览器操作,支持无头模式(Headless)和隐身模式(Stealth)以降低被反爬风险。
  • 执行反馈机制:借鉴DeepSeek R1等模型的反馈机制,在任务执行中不断优化决策流程,提升执行准确性。

如何运行 Proxy Lite

1. 安装

克隆仓库:

git clone https://github.com/convergence-ai/proxy-lite.git

设置环境:

make proxy

或手动安装:

pip install uv
uv venv --python 3.11 --python-preference managed
uv sync
uv pip install -e .
playwright install

2. 使用

运行任务:

proxy "Find some markets near Kings Cross and tell me their ratings."

启动本地Web UI:

make app

3. 本地部署

使用vLLM部署本地端点:

vllm serve convergence-ai/proxy-lite-3b \
    --trust-remote-code \
    --enable-auto-tool-choice \
    --tool-call-parser hermes \
    --port 8008 \

设置API端点:

export PROXY_LITE_API_BASE=http://localhost:8008/v1

4. Python 集成

使用 Runner 类在Python中运行模型:

import asyncio
from proxy_lite import Runner, RunnerConfig

config = RunnerConfig.from_dict(
    {
   
        "environment": {
   
            "name": "webbrowser",
            "homepage": "https://www.google.com",
            "headless": True,
        },
        "solver": {
   
            "name": "simple",
            "agent": {
   
                "name": "proxy_lite",
                "client": {
   
                    "name": "convergence",
                    "model_id": "convergence-ai/proxy-lite-3b",
                    "api_base": "https://convergence-ai-demo-api.hf.space/v1",
                },
            },
        },
        "max_steps": 50,
        "action_timeout": 1800,
        "environment_timeout": 1800,
        "task_timeout": 18000,
        "logger_level": "DEBUG",
    },
)

proxy = Runner(config=config)
result = asyncio.run(
    proxy.run("Book a table for 2 at an Italian restaurant in Kings Cross tonight at 7pm.")
)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
4月前
|
人工智能 中间件 数据库
沐曦 GPU 融入龙蜥,共筑开源 AI 基础设施新底座
沐曦自加入社区以来,一直与龙蜥社区在推动 AIDC OS 的开源社区建设等方面保持合作。
|
10月前
|
人工智能 Linux API
119K star!无需GPU轻松本地部署多款大模型,DeepSeek支持!这个开源神器绝了
"只需一行命令就能在本地运行Llama 3、DeepSeek-R1等前沿大模型,支持Windows/Mac/Linux全平台,这个开源项目让AI开发从未如此简单!"
631 0
|
11月前
|
存储 测试技术 对象存储
容器计算服务ACS单张GPU即可快速搭建QwQ-32B推理模型
阿里云最新发布的QwQ-32B模型拥有320亿参数,通过强化学习大幅度提升了模型推理能力,其性能与DeepSeek-R1 671B媲美,本文介绍如何使用ACS算力部署生产可用的QwQ-32B模型推理服务。
|
10月前
|
人工智能 自然语言处理 API
8.6K star!完全免费+本地运行+无需GPU,这款AI搜索聚合神器绝了!
FreeAskInternet是一款革命性的开源项目,它完美结合了多引擎搜索和智能语言模型,让你在不联网、不花钱、不暴露隐私的情况下,获得媲美ChatGPT的智能问答体验。这个项目最近在GitHub上狂揽8600+星,被开发者称为"本地版Perplexity"。
480 2
|
11月前
|
人工智能 自然语言处理 数据可视化
autoMate:无需视觉模型!用DeepSeek-V3/R1就能实现自动化操作电脑,支持任何可视化界面
autoMate是一款基于AI和RPA的本地自动化工具,通过自然语言实现复杂任务的自动化操作,支持本地部署,确保数据安全和隐私,适合需要高效处理重复性工作的用户。
755 1
autoMate:无需视觉模型!用DeepSeek-V3/R1就能实现自动化操作电脑,支持任何可视化界面
|
11月前
|
存储 人工智能 固态存储
轻量级AI革命:无需GPU就能运算的DeepSeek-R1-1.5B模型及其低配部署指南
随着AI技术发展,大语言模型成为产业智能化的关键工具。DeepSeek系列模型以其创新架构和高效性能备受关注,其中R1-1.5B作为参数量最小的版本,适合资源受限场景。其部署仅需4核CPU、8GB RAM及15GB SSD,适用于移动对话、智能助手等任务。相比参数更大的R1-35B与R1-67B+,R1-1.5B成本低、效率高,支持数学计算、代码生成等多领域应用,是个人开发者和初创企业的理想选择。未来,DeepSeek有望推出更多小型化模型,拓展低资源设备的AI生态。
2341 8
|
11月前
|
人工智能 负载均衡 调度
COMET:字节跳动开源MoE训练加速神器,单层1.96倍性能提升,节省百万GPU小时
COMET是字节跳动推出的针对Mixture-of-Experts(MoE)模型的优化系统,通过细粒度的计算-通信重叠技术,显著提升分布式训练效率,支持多种并行策略和大规模集群部署。
644 9
|
4月前
|
数据采集 运维 监控
爬虫与自动化技术深度解析:从数据采集到智能运维的完整实战指南
本文系统解析爬虫与自动化核心技术,涵盖HTTP请求、数据解析、分布式架构及反爬策略,结合Scrapy、Selenium等框架实战,助力构建高效、稳定、合规的数据采集系统。
爬虫与自动化技术深度解析:从数据采集到智能运维的完整实战指南
|
5月前
|
运维 Linux 网络安全
自动化真能省钱?聊聊运维自动化如何帮企业优化IT成本
自动化真能省钱?聊聊运维自动化如何帮企业优化IT成本
178 4

热门文章

最新文章