介绍一款新发现的开源AI模型部署工具(Doo AI),工具亮点,不用再自己做开源模型相关的部署和功能开发。它的操作很简单:下载模型,扫描模型,点击“加载”,大概十几秒就能部署就绪。不用再花大量时间去调试环境、编写函数,也不用反复排查层出不穷的错误提示。对于想省去繁琐部署开发工作的开源AI爱好者来说,这工具很不错。
软件最大的优点就是简洁易用。就算你是开源模型新手,那么同样几分钟就能上手。纯桌面前端,本地运行,数据本地化、不上传,做了隐私和安全机制。支持完整的文本交互和多模态图像识别功能,支持通义千问3、通义千问3 VL(多模态)、Gemma2、LLaMA3.1、Mistral等热门模型。就我的使用体验而言,通义千问3 VL的适配性最好的,推荐大家试试。如果感兴趣,也可以从魔塔或者huggingface下载其他模型进行加载和推理测试。需要注意的是,目前它只支持HF格式(后缀为.safetensors)的文本及多模态模型,暂不支持图像生成类模型。它基于Transformers 4.57.3和Torch 2.6.0+cu124运行,理论上所有适配这套依赖、无特殊技术栈要求的模型都能正常使用。设置页面有不同模型系列的预设适配,但尚未经过全面测试,建议默认保持“自动”模式,避免出现问题。
加载时支持半精度(fp16)和int4量化加载,还有KV Cache、FA2、torch compile和显存优化技术。从扫描到加载完成效率很高。支持api接入网络AI功能,实测内置的网络模型配置都能正常使用,只是偶尔会因网络问题出现小故障。现在软件虽然是BETA版,但运行起来很稳定,几乎没什么bug。标题栏设有全局推理停止按钮和显卡进程重启按钮,加载或使用模型时遇到突发错误,重启进程就能解决,对于喜欢测试不同模型的人来说很方便。
软件开发了完善的对话和对话记忆等配套功能,右键菜单可快速调用AI翻译、关键内容提取、文本添加至输入框、关键词拓展、总结生成等实用功能。加载通义千问3 VL模型后,可直接将图片拖拽到聊天框发送,工具会自动识别图像内容并生成描述。我用的是3080Ti显卡,日常文本聊天和图像推理(尤其是简单内容)速度都很快,流式生成功能边推理边输出内容,对话体验不错。对于尺寸不大、不算复杂的图像,设置适中的max token,图像识别耗时约10秒左右。单显卡本地运行能有这样的表现已经很不错了。我觉得40系列显卡的表现会更出色;50系列显卡目前因架构、驱动及技术栈问题存在兼容性问题,希望后续更新能解决这个问题。
它还有一些实用的附加功能:RAG知识库、角色提示词管理,以及内置文档编辑器。在编辑器中,AI可直接生成、修改、解读和翻译文本。还自带基础的SVG图像生成功能,能制作简单的表情符号或图标,生成效果取决于加载的模型,但满足日常办公需求完全足够。如果本地模型精度不足,网络大模型可弥补精度上的不足。你也可以在设置页面调整模型参数,优化生成效果。整体来看,软件能覆盖文本类模型的所有核心需求,只是多模态功能目前仅支持图像识别。
有兴趣或需要的话,这款工具可在微软应用商店获取。给大家参考下系统要求:处理器不低于英特尔i5九代性能水平的cpu,内存至少12GB,安装占用约10GB硬盘空间,存储模型需额外预留20GB以上空间。目前仅支持英伟达30系列和40系列显卡,50系列显卡用户请谨慎使用。总的来说,Doo AI虽然不是功能最全面的工具,但是日常使用也足够了,对于想轻松使用开源AI模型、重视隐私安全的人来说确实省事很多,也能够保障基本的隐私需要。安装简单,日常使用稳定可靠。期待它后续的更新,希望能尽快加入更多功能。