Proxy Lite:仅3B参数的开源视觉模型!快速实现网页自动化,支持在消费级GPU上运行

简介: Proxy Lite 是一款开源的轻量级视觉语言模型,支持自动化网页任务,能够像人类一样操作浏览器,完成网页交互、数据抓取、表单填写等重复性工作,显著降低自动化成本。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🚀 「网页操作解放双手!开源视觉模型3B参数逆袭:浏览器自动抓取+填表,低配GPU也能跑」
大家好,我是蚝油菜花。你是否也经历过——

  • 👉 凌晨3点还在写爬虫,反爬机制让你头秃
  • 👉 重复点击/填表操作,浪费50%开发时间
  • 👉 想用AI自动化,但动辄百亿参数模型根本跑不动...

今天带来的 Proxy Lite 彻底打破困局!这个仅3B参数的开源视觉语言模型,能像真人一样操作浏览器:

  • ✅ 所见即所得:通过屏幕截图理解网页结构,精准定位按钮
  • ✅ 智能决策链:观察→思考→动作三步闭环,处理验证码也不慌
  • ✅ 低配神器:3090显卡就能流畅运行,成本直降90%

已有开发者用它自动处理电商订单、抓取科研论文数据,甚至搭建24小时在线的舆情监控系统——点击视频,看如何用5行代码开启你的自动化革命!

🚀 快速阅读

Proxy Lite 是一款开源的轻量级视觉语言模型,支持自动化网页任务。

  1. 核心功能:支持网页自动化操作、数据抓取、智能任务助手等,显著降低自动化成本。
  2. 技术原理:结合视觉感知和自然语言处理能力,通过“观察-思考-工具调用”的三步决策机制完成任务。

Proxy Lite 是什么

proxy-lite-cover

Proxy Lite 是一款开源的轻量级视觉语言模型(VLM),参数量为3B,支持自动化网页任务。它能够像人类一样操作浏览器,完成网页交互、数据抓取、表单填写等重复性工作,显著降低自动化成本。

Proxy Lite 采用“观察-思考-工具调用”的三步决策机制,具备强大的泛化能力和低资源占用,支持在消费级GPU上高效运行。它提供完整的浏览器交互框架,适合开发者快速部署和使用。

Proxy Lite 的主要功能

  • 网页自动化操作:自动完成浏览器中的各种操作,如点击按钮、填写表单、滚动页面、处理弹窗等。
  • 网页数据抓取:解析网页内容,提取结构化数据,支持新闻、社交媒体、电商平台等多类型网页的数据抓取。
  • AI驱动的交互式Web代理:结合视觉感知能力,实现UI自动化测试和前端行为分析。
  • 智能任务助手:帮助用户搜索、筛选和总结信息,提升网页导航体验。
  • 低资源占用:仅3B参数,支持在消费级GPU上高效运行,无需依赖大型云计算资源。

Proxy Lite 的技术原理

proxy-lite-loop

  • 视觉语言模型(VLM):结合视觉感知(图像识别)和自然语言处理能力,理解和操作网页内容。
  • 三步决策机制
    • 观察:评估上一操作是否成功,并获取当前网页的状态信息。
    • 思考:根据当前页面状态进行推理,决定下一步操作。
    • 工具调用:基于浏览器API进行交互,如点击、输入、滚动等。
  • 浏览器交互框架:内置完整的浏览器交互控制框架,用Playwright库驱动浏览器操作,支持无头模式(Headless)和隐身模式(Stealth)以降低被反爬风险。
  • 执行反馈机制:借鉴DeepSeek R1等模型的反馈机制,在任务执行中不断优化决策流程,提升执行准确性。

如何运行 Proxy Lite

1. 安装

克隆仓库:

git clone https://github.com/convergence-ai/proxy-lite.git

设置环境:

make proxy

或手动安装:

pip install uv
uv venv --python 3.11 --python-preference managed
uv sync
uv pip install -e .
playwright install

2. 使用

运行任务:

proxy "Find some markets near Kings Cross and tell me their ratings."

启动本地Web UI:

make app

3. 本地部署

使用vLLM部署本地端点:

vllm serve convergence-ai/proxy-lite-3b \
    --trust-remote-code \
    --enable-auto-tool-choice \
    --tool-call-parser hermes \
    --port 8008 \

设置API端点:

export PROXY_LITE_API_BASE=http://localhost:8008/v1

4. Python 集成

使用 Runner 类在Python中运行模型:

import asyncio
from proxy_lite import Runner, RunnerConfig

config = RunnerConfig.from_dict(
    {
   
        "environment": {
   
            "name": "webbrowser",
            "homepage": "https://www.google.com",
            "headless": True,
        },
        "solver": {
   
            "name": "simple",
            "agent": {
   
                "name": "proxy_lite",
                "client": {
   
                    "name": "convergence",
                    "model_id": "convergence-ai/proxy-lite-3b",
                    "api_base": "https://convergence-ai-demo-api.hf.space/v1",
                },
            },
        },
        "max_steps": 50,
        "action_timeout": 1800,
        "environment_timeout": 1800,
        "task_timeout": 18000,
        "logger_level": "DEBUG",
    },
)

proxy = Runner(config=config)
result = asyncio.run(
    proxy.run("Book a table for 2 at an Italian restaurant in Kings Cross tonight at 7pm.")
)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
8月前
|
人工智能 中间件 数据库
沐曦 GPU 融入龙蜥,共筑开源 AI 基础设施新底座
沐曦自加入社区以来,一直与龙蜥社区在推动 AIDC OS 的开源社区建设等方面保持合作。
|
人工智能 Kubernetes jenkins
容器化AI模型的持续集成与持续交付(CI/CD):自动化模型更新与部署
在前几篇文章中,我们探讨了容器化AI模型的部署、监控、弹性伸缩及安全防护。为加速模型迭代以适应新数据和业务需求,需实现容器化AI模型的持续集成与持续交付(CI/CD)。CI/CD通过自动化构建、测试和部署流程,提高模型更新速度和质量,降低部署风险,增强团队协作。使用Jenkins和Kubernetes可构建高效CI/CD流水线,自动化模型开发和部署,确保环境一致性并提升整体效率。
|
人工智能 Linux API
119K star!无需GPU轻松本地部署多款大模型,DeepSeek支持!这个开源神器绝了
"只需一行命令就能在本地运行Llama 3、DeepSeek-R1等前沿大模型,支持Windows/Mac/Linux全平台,这个开源项目让AI开发从未如此简单!"
868 0
|
机器学习/深度学习 人工智能 物联网
MiniMind:2小时训练出你的专属AI!开源轻量级语言模型,个人GPU轻松搞定
MiniMind 是一个开源的超小型语言模型项目,帮助开发者以极低成本从零开始训练自己的语言模型,最小版本仅需25.8M参数,适合在普通个人GPU上快速训练。
2926 10
MiniMind:2小时训练出你的专属AI!开源轻量级语言模型,个人GPU轻松搞定
|
人工智能 自然语言处理 数据可视化
autoMate:无需视觉模型!用DeepSeek-V3/R1就能实现自动化操作电脑,支持任何可视化界面
autoMate是一款基于AI和RPA的本地自动化工具,通过自然语言实现复杂任务的自动化操作,支持本地部署,确保数据安全和隐私,适合需要高效处理重复性工作的用户。
1077 1
autoMate:无需视觉模型!用DeepSeek-V3/R1就能实现自动化操作电脑,支持任何可视化界面
|
人工智能 自然语言处理 API
8.6K star!完全免费+本地运行+无需GPU,这款AI搜索聚合神器绝了!
FreeAskInternet是一款革命性的开源项目,它完美结合了多引擎搜索和智能语言模型,让你在不联网、不花钱、不暴露隐私的情况下,获得媲美ChatGPT的智能问答体验。这个项目最近在GitHub上狂揽8600+星,被开发者称为"本地版Perplexity"。
760 2
|
人工智能 负载均衡 调度
COMET:字节跳动开源MoE训练加速神器,单层1.96倍性能提升,节省百万GPU小时
COMET是字节跳动推出的针对Mixture-of-Experts(MoE)模型的优化系统,通过细粒度的计算-通信重叠技术,显著提升分布式训练效率,支持多种并行策略和大规模集群部署。
968 9
|
8月前
|
人工智能 算法 调度
阿里云ACK托管集群Pro版共享GPU调度操作指南
本文介绍在阿里云ACK托管集群Pro版中,如何通过共享GPU调度实现显存与算力的精细化分配,涵盖前提条件、使用限制、节点池配置及任务部署全流程,提升GPU资源利用率,适用于AI训练与推理场景。
673 1
|
8月前
|
人工智能 城市大脑 运维
喜讯!阿里云国产异构GPU云平台技术荣获“2025算力中国·年度重大成果”
2025年8月23日,在工业和信息化部新闻宣传中心、中国信息通信研究院主办的2025中国算力大会上,阿里云与浙江大学联合研发的“国产异构GPU云平台关键技术与系统”荣获「算力中国·年度重大成果」。该评选旨在选拔出算力产业具有全局性突破价值的重大成果,是业内公认的技术创新“风向标”。
845 0
|
存储 机器学习/深度学习 数据库
阿里云服务器X86/ARM/GPU/裸金属/超算五大架构技术特点、场景适配参考
在云计算技术飞速发展的当下,云计算已经渗透到各个行业,成为企业数字化转型的关键驱动力。选择合适的云服务器架构对于提升业务效率、降低成本至关重要。阿里云提供了多样化的云服务器架构选择,包括X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器以及高性能计算等。本文将深入解析这些架构的特点、优势及适用场景,以供大家了解和选择参考。
1580 61

热门文章

最新文章