算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家

简介: BlueLM-V-3B是由vivo与香港中文大学共同研发的多模态大型语言模型,专为移动设备优化。它通过算法和系统协同优化,实现了高效部署和快速生成速度(24.4 token/s),并在OpenCompass基准测试中取得优异成绩(66.1分)。模型小巧,语言部分含27亿参数,视觉编码器含4000万参数,适合移动设备使用。尽管如此,低端设备可能仍面临资源压力,实际应用效果需进一步验证。论文链接:https://arxiv.org/abs/2411.10640。

在人工智能领域,多模态大型语言模型(MLLMs)正以其强大的潜力和广泛的应用前景备受瞩目。这些模型能够处理和理解多种形式的数据,如文本、图像和音频,从而为我们的日常生活带来诸多便利。然而,将这些庞大的模型部署到移动设备上却面临诸多挑战,如内存限制和计算能力不足等问题。为了解决这些难题,vivo与香港中文大学的研究人员共同推出了BlueLM-V-3B,一种专为移动设备设计的算法和系统协同优化方法。

BlueLM-V-3B的核心理念是通过算法和系统的共同优化,实现MLLMs在移动设备上的高效部署。具体而言,研究团队对主流MLLMs采用的动态分辨率方案进行了重新设计,并针对硬件感知的部署进行了系统优化,以提升模型在移动设备上的推理性能。这种协同优化的方法使得BlueLM-V-3B在保持较小模型尺寸的同时,实现了快速的生成速度和强大的性能表现。

首先,BlueLM-V-3B的模型尺寸相对较小,其中语言模型拥有2.7B个参数,而视觉编码器则拥有400M个参数。这种小巧的模型设计使得BlueLM-V-3B能够在移动设备上实现更高效的部署和运行,从而为用户提供更流畅的体验。

其次,BlueLM-V-3B在生成速度方面表现出色。在MediaTek Dimensity 9300处理器上,通过4位LLM权重量化,BlueLM-V-3B实现了24.4 token/s的生成速度。这一速度的提升使得BlueLM-V-3B能够更快速地响应用户的输入和需求,从而提供更实时的交互体验。

最后,BlueLM-V-3B在性能方面也取得了显著的突破。在OpenCompass基准测试中,BlueLM-V-3B以66.1的平均分成为参数量小于等于4B的模型中表现最佳的模型之一,甚至超越了一些参数量更大的模型,如MiniCPM-V-2.6和InternVL2-8B。这一成绩的取得充分证明了BlueLM-V-3B在多模态任务中的强大能力。

然而,尽管BlueLM-V-3B在多个方面都取得了显著的进展,但我们也需要看到其可能面临的一些挑战和限制。首先,尽管BlueLM-V-3B的模型尺寸相对较小,但在移动设备上部署和运行时,仍然需要占用一定的内存和计算资源。这可能会对一些低端或老旧的移动设备造成一定的压力。其次,尽管BlueLM-V-3B在生成速度和性能方面表现出色,但在实际应用中,其性能可能会受到网络环境、数据质量等多种因素的影响。最后,尽管BlueLM-V-3B在OpenCompass基准测试中取得了优异的成绩,但在实际应用中,其性能可能需要进一步的验证和评估。

论文地址:https://arxiv.org/abs/2411.10640

目录
相关文章
|
5天前
|
人工智能 数据可视化 数据挖掘
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
The AI Scientist-v2 是由 Sakana AI 等机构开发的端到端自主科研系统,通过树搜索算法与视觉语言模型反馈实现科学假设生成、实验执行及论文撰写全流程自动化,其生成论文已通过国际顶会同行评审。
93 34
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
|
5天前
|
人工智能 算法 API
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
上海人工智能实验室开源的InternVL3系列多模态大语言模型,通过原生多模态预训练方法实现文本、图像、视频的统一处理,支持从1B到78B共7种参数规模。
111 6
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
|
9天前
|
存储 人工智能 Java
Spring AI与DeepSeek实战四:系统API调用
在AI应用开发中,工具调用是增强大模型能力的核心技术,通过让模型与外部API或工具交互,可实现实时信息检索(如天气查询、新闻获取)、系统操作(如创建任务、发送邮件)等功能;本文结合Spring AI与大模型,演示如何通过Tool Calling实现系统API调用,同时处理多轮对话中的会话记忆。
212 57
|
5天前
|
机器学习/深度学习 人工智能 算法
医学AI推理新突破!MedReason:这个AI把医学论文变「会诊专家」,8B模型登顶临床问答基准
MedReason是由多国顶尖学术机构联合开发的医学推理框架,通过知识图谱增强大模型在医疗领域的逻辑推理能力,其8B参数模型在复杂临床场景中达到最先进水平。
88 18
医学AI推理新突破!MedReason:这个AI把医学论文变「会诊专家」,8B模型登顶临床问答基准
|
19天前
|
机器学习/深度学习 人工智能 JSON
OPPO联合港科大推出多模态推理优化框架 OThink-MR1:让AI学会『举一反三』,几何推理准确率暴增
OThink-MR1是OPPO与港科大联合研发的多模态优化框架,通过动态KL散度策略和奖励模型显著提升模型在视觉计数等复杂任务中的泛化能力。
71 20
OPPO联合港科大推出多模态推理优化框架 OThink-MR1:让AI学会『举一反三』,几何推理准确率暴增
|
22天前
|
人工智能 物联网 Android开发
【03】优雅草星云物联网AI智控系统从0开发鸿蒙端适配-deveco studio-在lib目录新建自定义库UtilsLibrary,ComponentLibrary,CommonConstLibrary完成设置SettingsView.ets初始公共类书写-优雅草卓伊凡
【03】优雅草星云物联网AI智控系统从0开发鸿蒙端适配-deveco studio-在lib目录新建自定义库UtilsLibrary,ComponentLibrary,CommonConstLibrary完成设置SettingsView.ets初始公共类书写-优雅草卓伊凡
65 23
【03】优雅草星云物联网AI智控系统从0开发鸿蒙端适配-deveco studio-在lib目录新建自定义库UtilsLibrary,ComponentLibrary,CommonConstLibrary完成设置SettingsView.ets初始公共类书写-优雅草卓伊凡
|
1月前
|
人工智能 监控 数据可视化
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
Agent TARS 是一款开源的多模态AI助手,能够通过视觉解析网页并无缝集成命令行和文件系统,帮助用户高效完成复杂任务。
2757 13
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
|
21天前
|
机器学习/深度学习 人工智能 搜索推荐
AutoGLM沉思:智谱AI推出首个能"边想边干"的自主智能体!深度研究+多模态交互,颠覆传统AI工作模式
AutoGLM沉思是由智谱AI推出的一款开创性AI智能体,它突破性地将深度研究能力与实际操作能力融为一体,实现了AI从被动响应到主动执行的跨越式发展。
166 16
AutoGLM沉思:智谱AI推出首个能"边想边干"的自主智能体!深度研究+多模态交互,颠覆传统AI工作模式
|
15天前
|
人工智能 算法 安全
OpenRouter 推出百万 token 上下文 AI 模型!Quasar Alpha:提供完全免费的 API 服务,同时支持联网搜索和多模态交互
Quasar Alpha 是 OpenRouter 推出的预发布 AI 模型,具备百万级 token 上下文处理能力,在代码生成、指令遵循和低延迟响应方面表现卓越,同时支持联网搜索和多模态交互。
131 1
OpenRouter 推出百万 token 上下文 AI 模型!Quasar Alpha:提供完全免费的 API 服务,同时支持联网搜索和多模态交互
|
25天前
|
机器学习/深度学习 人工智能 自然语言处理
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
近年来,多模态表示学习在人工智能领域取得显著进展,CLIP和SigLIP成为里程碑式模型。CLIP由OpenAI提出,通过对比学习对齐图像与文本嵌入空间,具备强大零样本学习能力;SigLIP由Google开发,采用sigmoid损失函数优化训练效率与可扩展性。两者推动了多模态大型语言模型(MLLMs)的发展,如LLaVA、BLIP-2和Flamingo等,实现了视觉问答、图像描述生成等复杂任务。这些模型不仅拓展了理论边界,还为医疗、教育等领域释放技术潜力,标志着多模态智能系统的重要进步。
137 13
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展