仅3B激活参数,更强的多模态理解与推理能力,百度文心 ERNIE-4.5-VL-28B-A3B-Thinking正式开源!

简介: 11月11日,百度开源文心ERNIE-4.5-VL-28B-A3B-Thinking多模态模型,仅3B激活参数,性能媲美顶级大模型。具备强大视觉语言理解、跨模态推理与“图像思考”等创新功能,支持工具调用与视频分析,适用于复杂图文任务,全面开放商用。

11月11日,百度文心多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking正式开源。本模型仅3B激活参数,媲美顶级大模型性能!

ERNIE-4.5-VL-28B-A3B-Thinking是在ERNIE-4.5-VL-28B-A3B基础上训练的深度思考模型,在视觉语言多模态理解能力上实现了显著提升。模型具备领先的文档与图表理解能力,在理科与文科综合推理、通用视觉推理等任务中表现优异,展现出更强的跨模态推理与问题解决能力。同时,结合空间定位与工具调用,该模型推出“图像思考”等创新功能,为多模态思维与交互应用带来更丰富的可能。

文心4.5系列开源模型全景

ERNIE-4.5-VL-28B-A3B-Thinking模型以Apache License 2.0协议开源,允许商业使用。该模型的预训练权重、推理代码和项目均已开源发布,FastDeploy、vLLM、Transformers等开源工具已经实现了对该模型的支持,可以直接加载模型并使用。

Github:

https://github.com/PaddlePaddle/ERNIE
https://github.com/PaddlePaddle/FastDeploy

Model:

https://www.modelscope.cn/models/PaddlePaddle/ERNIE-4.5-VL-28B-A3B-Thinking

飞桨星河社区:
https://aistudio.baidu.com/modelsdetail/39280/intro

文心大模型技术Blog:
https://yiyan.baidu.com/blog/ernie4.5


01核心亮点速递

基于强大的ERNIE-4.5-VL-28B-A3B架构,全新升级的ERNIE-4.5-VL-28B-A3B-Thinking在大规模多模态学习领域实现了实质性跃升。在中期训练(Mid-Training)阶段,模型引入了海量高质量视觉-语言数据,这显著增强了模型的表征能力与跨模态语义对齐能力从而显著提升了视觉文本推理性能。

同时,ERNIE-4.5-VL-28B-A3B-Thinking在可验证的任务上采用大规模多模态强化学习,它利用GSPO和IcePop策略来稳定基于MoE的RL训练,结合了动态难度采样机制,提升强化学习的有效率。

研究团队注意到,社区开发者对模型的定位能力有着显著需求。为此,进一步强化了该能力,并提升了模型的指令遵循性。当用户需要时,可更便捷地触发视觉定位功能。

此外,研究团队引入了“图像思考”创新能力,让本模型兼备图片放大和图片搜索等工具调用能力,因此本模型与环境交互的能力显著提升,能够有效帮助开发者们构建多模态智能体。

ERNIE-4.5-VL-28B-A3B-Thinking作为激活仅3B的轻量级模型,在各项测试中的表现紧咬业界顶级旗舰模型,以轻量级规模实现了接近SOTA的视觉表现。

小模型,大能量

视觉推理

通过大规模强化学习策略,模型在复杂视觉任务中展现卓越的多步推理、图表解析与因果推理能力。

复杂图表解析,避开高峰时段

学科计算

凭借强大视觉能力,模型在拍照解题等学科推理中实现飞跃式提升,复杂题目也能轻松搞定!

解决物理学科电阻问题 📝


视觉定位(Grounding)

定位更精准,指令执行更灵活,轻松触发复杂工业场景下的定位功能,效率直线上升!

快速识别穿西服戴礼帽人物数量及定位🎩

模型Grounding输出结果的可视化——图中边界框对应模型生成的 “穿西装的人” 的bbox_2d坐标。


图像思考(Thinking with Images)

如同真人般思考,模型可对图片自由放大缩小,把控每个细节,洞察每一处信息!

支持图片自由放大,识别图片细节信息 🔍


工具调用

具备强大的工具调用能力,模型可即时调用图片搜索等功能,轻松识别长尾知识,实现全方位信息获取!



工具调用认识更多热门IP🙌


视频理解

模型具备卓越的时间感知与事件定位能力,能够精准识别视频中不同时间段的内容变化,让视频分析更智能、更高效!

0bc37ebj4aacz4aaobqqbnuvf6odt34qfhqa.f10002.mp4

卓越定位广告片不同时段内容变化、分析更智能📹

卓越定位广告片不同时段内容变化、分析更智能📹

同时,为方便社区开发者适配和拓展应用场景,官方提供了涵盖Transformers、vLLM、大模型高效部署套件FastDeploy、文心大模型开发套件ERNIEKit等开箱即用的工具和全流程的支持。共邀广大开发者即刻启动,反馈真实需求和使用体验。接下来官方将陆续推出详尽、实用的技术教程与最佳实践,与全球开发者携手共进,推动大模型技术在更多领域落地。


模型链接:https://modelscope.cn/models/PaddlePaddle/ERNIE-4.5-VL-28B-A3B-Thinking


目录
相关文章
|
1月前
|
自然语言处理 语音技术 Apache
阶跃星辰发布首个开源 LLM 级音频编辑大模型 Step-Audio-EditX
阶跃星辰发布全球首个开源LLM级音频编辑大模型Step-Audio-EditX,支持零样本TTS、多语言方言及情感、风格、副语言特征精准控制,采用统一LLM框架,实现文本驱动音频创作。
531 88
|
1月前
|
JavaScript 搜索推荐 开发者
ChatPPT+魔搭社区:MCP 2.0全面升级!
ChatPPT MCP2.0正式发布,联合魔搭ModelScope推出云端智能体服务,支持生成、编辑、演讲、动画等全链路功能,开放Streamable HTTP协议与本地Stdio双模式,已接入20+平台,服务300+开发者。
532 11
ChatPPT+魔搭社区:MCP 2.0全面升级!
|
28天前
|
数据采集 文字识别 算法
腾讯混元&清华开源15M高质量多模态训练数据,全面开放MLLM迎来质变时刻
腾讯混元与清华推出Bee项目,首创“以数据为中心”的全栈开源方案,通过Honey-Data-15M高质量数据集、HoneyPipe数据增强管线及Bee-8B模型,显著提升全开源多模态大模型性能,缩小与闭源模型差距。
302 4
|
1月前
|
机器学习/深度学习 算法 物联网
Mcore Bridge:迈向Megatron训练"零门槛"时代
魔搭社区推出Mcore-Bridge与Megatron-SWIFT,显著降低大模型训练门槛。支持safetensors格式、一键启动、无需权重转换,兼容MoE等架构,实现高性能与易用性统一,让Megatron训练开箱即用。
421 10
|
安全 JavaScript Docker
Agent Skills技术协议与开源实现,让大模型拥有“即插即用”技能
Anthropic推出Agent Skills协议,通过模块化技能封装提升大模型智能体的专业能力。ModelScope开源项目MS-Agent已实现该协议,支持技能的动态加载、自主执行与安全沙箱运行,推动智能体能力的可组合与可扩展发展。
563 28
|
2月前
|
编解码 调度 图形学
腾讯混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成_魔搭ModelScope社区-ModelScope魔搭社区
混元世界模型1.1(WorldMirror)发布,支持多视图、视频输入,单卡秒级生成3D场景。兼容CG管线,开源可部署,实现点云、深度、相机等多任务统一预测,性能领先。
305 1
|
2月前
|
传感器 人工智能 API
仅100多元,他给视障人群装上AI“眼睛”
上海两名开发者为验证AI助盲实效,亲手打造百元AI眼镜,蒙眼实测过马路、识盲道,并开源项目鼓励更多人参与。技术导航,人心照亮。
815 6
仅100多元,他给视障人群装上AI“眼睛”
刚刚参加了一个MCP赛事,奖金还可以,搭友们可以去试试看
社区8月比赛未获奖有点失落,但发现通义灵码×蚂蚁百宝箱MCP赛事正火热进行!参赛即有机会赢取丰厚奖金,激励满满,令人眼前一亮。已跃跃欲试,搭友们快来一起冲榜夺奖吧!https://tianchi.aliyun.com/competition/entrance/532442
|
19天前
|
机器学习/深度学习 编解码 自然语言处理
腾讯混元 HunyuanVideo 1.5 开源!
腾讯混元团队开源HunyuanVideo 1.5,一款8.3B参数的轻量级视频生成模型,基于DiT架构,支持文生视频、图生视频,可在14G显存设备运行,生成5-10秒高清视频,具备强指令响应、流畅动作与电影级画质。
367 10
腾讯混元 HunyuanVideo 1.5 开源!