全方位支持任务数据集模型,Salesforce开源一站式视觉语言学习框架LAVIS

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 全方位支持任务数据集模型,Salesforce开源一站式视觉语言学习框架LAVIS

视觉语言模型在内容推荐、电子商务里有广泛应用,例如图像描述生成、文本图像检索以及多模态内容分类。依托于海量互联网数据,多模型模型近期得到长足发展,其性能在下游任务上得到了广泛的验证。


尽管如此,现阶段的视觉语言方向的发展也存在其局限性。例如,由于语言视觉任务的多样性和复杂性,特别是对于初学者或者其他领域的工程研究人员,训练和评估现有视觉语言模型并不容易, 其较陡的学习曲线让很多新接触视觉语言方向的人望而却步。究其原因,这些障碍主要是模型、数据集和任务评估的接口不一致所致。另外,视觉语言预训练微调实验所需的实验环境搭建相对比较繁复,例如下载组织各个任务数据集、实验环境搭建等环节,不利于快速方法迭代,也容易产生疏漏。

现存的视觉语言框架往往只支持较少一部分任务和数据集,模型往往也不够新。例如,MMF 主要支持性能较弱的下游任务微调模型;X-modaler 支持非常有限的任务和数据集,对预训练模型的支持也不足。另外一些工作例如 torchmultimodal 和 unilm 尚在开发初期,不支持开源训练或推理。此外,这些库的接口设计并不统一,不利于访问数据集或是模型,这为想要利用视觉语言模型能力的用户提供了诸多不便。最后,这些库中的大多数不提供微调的模型检查点或基准测试结果。这对复现模型性能制造了额外的困难。


为了使得更广泛的工程研究人员更好地利用视觉语言多模态模型能力,推动其在生产场景里的应用,以及减少重复开发的负担,Salesforce 亚洲研究院推出了开源框架 LAVIS (LAnguage-VISion 的简称)。




LAVIS 框架全方位支持 10+ 视觉语言任务,20+ 数据集,并提供 SOTA 模型性能和可复现预训练及微调实验配置。LAVIS 一大特点是统一和模块化的接口设计,极大降低训练、推理和开发的难度,致力于让研究和工程人员快速利用到近期多模态发展成果。



图 1: 随 LAVIS 一起开源的 GUI demo,展示丰富的视觉语言应用场景。


LAVIS: 一站式视觉语言框架,任务数据集模型全方位支持


LAVIS 最大的特点是提供统一模块化接口,极大简化模型训练评测,实现模型和数据集开箱即用,并且最小化重复开发成本。LAVIS 力求为工程研究人员提供一站式视觉语言方案,助力视觉语言社区发展,从而扩大多模态模型研究的实际影响力。



LAVIS 是当前对视觉语言方向支持最全面的开源框架,其包含超过 10 种视觉语言任务,包括图片描述生成(image captioning)、 图像文本检索 (image-text retrieval)、视频文本检索 (video-text retrieval)、图像问答 (visual question answering)、视频问答 (video question answering)、多模态分类、多模态图像、视频对话、视觉语言推理、多模态预训练等实用任务,和多模态特征提取等功能;20 余标准数据集及评测结果,包括 COCO, Visual Genome, Flickr30k, NoCaps, NLVR, OK-VQA, A-OKVQA, MSRVTT, MSVD, DiDeMo, SBU, Conceptual Captions 等;以及 SOTA 的预训练和微调模型,开箱即用。上图展示了 LAVIS 和现有的多模态库的对比,突出 LAVIS 对视觉语言任务、数据集、模型的全方位支持。



LAVIS 主要支持四种领先的基础视觉语言模型架构,包括 ALBEF (NeurIPS 21’ Spotlight)、BLIP(ICML 22’)、CLIP 和 ALPRO(CVPR 22’)。其中 ALBEF,CLIP 主要支持图像文本任务,ALPRO 支持视频文本任务,BLIP 对图像文本、视频文本任务均提供支持。各个模型对任务和数据集支持的详细信息见下表。



统一模块化接口设计,一键模型数据加载,轻松拓展定制


LAVIS 的最大特点是提供了简单且统一的接口以训练评测模型、加载模型数据,以及便于未来拓展新的任务、数据集、模型。例如,用户可以利用 LAVIS 提供的 load_model(), load_dataset() 一键加载所需模型和数据集。下图描述了 LAVIS 模块之间的依赖关系。更多模型数据集加载实例可见于官方文档。此外,LAVIS 可以实现数据到训练高定制化,给予开发者充分空间研究新模型、新多模态能力、新引用场景。


丰富的配套资源工具


除了框架本身,LAVIS 还附带了丰富的开源资源和工具。包括模型预训练和在下游任务上微调的 checkpoint、用于可视化的图形界面 GUI Demo (图 1)、以及一键式下载公开数据集的脚本工具,全方位促进视觉语言方案复现、研发周期和成本。


LAVIS 将持续更新维护,在未来会支持更多更强大的视觉语言预训练模型,和更多的视觉语言任务,比如文本图像生成。同时作者也期待和欢迎开源社区对于 LAVIS 的反馈和贡献。

相关文章
|
4天前
|
人工智能 算法 自动驾驶
新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE
**Moirai-MoE:时间序列预测的新突破** Salesforce Research团队提出了Moirai-MoE模型,通过稀疏混合专家(MoE)技术,解决了传统时间序列预测方法中存在的频率不可靠和非平稳性问题。该模型在39个数据集上的实验结果表明,其性能优于现有基础模型,具有更高的创新性和泛化能力。论文地址:https://arxiv.org/abs/2410.10469
20 4
|
机器学习/深度学习 数据可视化 测试技术
全方位支持任务数据集模型,Salesforce开源一站式视觉语言学习框架LAVIS
全方位支持任务数据集模型,Salesforce开源一站式视觉语言学习框架LAVIS
281 0
|
10天前
|
人工智能 开发者
中国CRM市场竞争格局分析:谁能与Salesforce比肩?
在全球CRM市场,Salesforce始终占据领导地位,但中国本土CRM厂商正迅速崛起。销售易在技术创新和产品深度上接近Salesforce,纷享销客聚焦中小企业市场,明源云在房地产行业表现出色。尽管与Salesforce存在技术架构、产品功能和生态系统等方面的差距,但本土厂商在本地化和响应速度上具备优势,未来有望在特定领域逐步缩小差距。
|
4月前
|
人工智能 安全 云计算
Salesforce核心CRM产品问题之阿里云上的Salesforce对中国云计算市场的影响如何解决
Salesforce核心CRM产品问题之阿里云上的Salesforce对中国云计算市场的影响如何解决
|
4月前
|
存储 人工智能 搜索推荐
持续打通中国CRM SaaS生态,阿里云上的Salesforce稳步“着陆”
持续打通中国CRM SaaS生态,阿里云上的Salesforce稳步“着陆”
|
4月前
|
人工智能 安全 机器人
2023云栖大会,Salesforce终敲开中国CRM市场
2023云栖大会,Salesforce终敲开中国CRM市场
|
4月前
|
安全 数据安全/隐私保护
Salesforce核心CRM产品问题之Salesforce在中国市场的产品与本地需求的结合如何解决
Salesforce核心CRM产品问题之Salesforce在中国市场的产品与本地需求的结合如何解决
|
5月前
|
搜索推荐
企业CRM新选择——轻巧强大的阿里云上的Salesforce企业版正式发布!
阿里云与Salesforce合作推出的定制化CRM解决方案——阿里云上的Salesforce CRM CN企业版, 涵盖销售云、服务云及销售服务云三大核心云功能。销售云助力销售团队通过智能化工具提升效率, 如线索管理、预测分析等。服务云CN企业版提供工单管理、自助服务等功能, 改善客户服务体验。结合版则全面覆盖销售与服务需求, 实现业务增长与客户满意度提升。
|
7月前
|
人工智能 搜索推荐 UED
Salesforce 推出入门套件:简化小型企业的 CRM
Salesforce Starter 是开始使用广受好评的 CRM 并不断发展的更快、最简单的方法 Starter 将销售、服务和营销功能结合在一起,提供简单、开箱即用的体验,帮助中小型企业寻找、赢得和留住客户…

热门文章

最新文章