全方位支持任务数据集模型,Salesforce开源一站式视觉语言学习框架LAVIS

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 全方位支持任务数据集模型,Salesforce开源一站式视觉语言学习框架LAVIS

Salesforce 亚洲研究院推出了一站式视觉语言开源框架 LAVIS。


视觉语言模型在内容推荐、电子商务里有广泛应用,例如图像描述生成、文本图像检索以及多模态内容分类。依托于海量互联网数据,多模型模型近期得到长足发展,其性能在下游任务上得到了广泛的验证。


尽管如此,现阶段的视觉语言方向的发展也存在其局限性。例如,由于语言视觉任务的多样性和复杂性,特别是对于初学者或者其他领域的工程研究人员,训练和评估现有视觉语言模型并不容易, 其较陡的学习曲线让很多新接触视觉语言方向的人望而却步。究其原因,这些障碍主要是模型、数据集和任务评估的接口不一致所致。另外,视觉语言预训练微调实验所需的实验环境搭建相对比较繁复,例如下载组织各个任务数据集、实验环境搭建等环节,不利于快速方法迭代,也容易产生疏漏。
现存的视觉语言框架往往只支持较少一部分任务和数据集,模型往往也不够新。例如,MMF 主要支持性能较弱的下游任务微调模型;X-modaler 支持非常有限的任务和数据集,对预训练模型的支持也不足。另外一些工作例如 torchmultimodal 和 unilm 尚在开发初期,不支持开源训练或推理。此外,这些库的接口设计并不统一,不利于访问数据集或是模型,这为想要利用视觉语言模型能力的用户提供了诸多不便。最后,这些库中的大多数不提供微调的模型检查点或基准测试结果。这对复现模型性能制造了额外的困难。


为了使得更广泛的工程研究人员更好地利用视觉语言多模态模型能力,推动其在生产场景里的应用,以及减少重复开发的负担,Salesforce 亚洲研究院推出了开源框架 LAVIS (LAnguage-VISion 的简称)。




LAVIS 框架全方位支持 10+ 视觉语言任务,20+ 数据集,并提供 SOTA 模型性能和可复现预训练及微调实验配置。LAVIS 一大特点是统一和模块化的接口设计,极大降低训练、推理和开发的难度,致力于让研究和工程人员快速利用到近期多模态发展成果。



图 1: 随 LAVIS 一起开源的 GUI demo,展示丰富的视觉语言应用场景。


LAVIS: 一站式视觉语言框架,任务数据集模型全方位支持


LAVIS 最大的特点是提供统一模块化接口,极大简化模型训练评测,实现模型和数据集开箱即用,并且最小化重复开发成本。LAVIS 力求为工程研究人员提供一站式视觉语言方案,助力视觉语言社区发展,从而扩大多模态模型研究的实际影响力。



LAVIS 是当前对视觉语言方向支持最全面的开源框架,其包含超过 10 种视觉语言任务,包括图片描述生成(image captioning)、 图像文本检索 (image-text retrieval)、视频文本检索 (video-text retrieval)、图像问答 (visual question answering)、视频问答 (video question answering)、多模态分类、多模态图像、视频对话、视觉语言推理、多模态预训练等实用任务,和多模态特征提取等功能;20 余标准数据集及评测结果,包括 COCO, Visual Genome, Flickr30k, NoCaps, NLVR, OK-VQA, A-OKVQA, MSRVTT, MSVD, DiDeMo, SBU, Conceptual Captions 等;以及 SOTA 的预训练和微调模型,开箱即用。上图展示了 LAVIS 和现有的多模态库的对比,突出 LAVIS 对视觉语言任务、数据集、模型的全方位支持。



LAVIS 主要支持四种领先的基础视觉语言模型架构,包括 ALBEF (NeurIPS 21’ Spotlight)、BLIP(ICML 22’)、CLIP 和 ALPRO(CVPR 22’)。其中 ALBEF,CLIP 主要支持图像文本任务,ALPRO 支持视频文本任务,BLIP 对图像文本、视频文本任务均提供支持。各个模型对任务和数据集支持的详细信息见下表。



统一模块化接口设计,一键模型数据加载,轻松拓展定制


LAVIS 的最大特点是提供了简单且统一的接口以训练评测模型、加载模型数据,以及便于未来拓展新的任务、数据集、模型。例如,用户可以利用 LAVIS 提供的 load_model(), load_dataset() 一键加载所需模型和数据集。下图描述了 LAVIS 模块之间的依赖关系。更多模型数据集加载实例可见于官方文档。此外,LAVIS 可以实现数据到训练高定制化,给予开发者充分空间研究新模型、新多模态能力、新引用场景。


丰富的配套资源工具


除了框架本身,LAVIS 还附带了丰富的开源资源和工具。包括模型预训练和在下游任务上微调的 checkpoint、用于可视化的图形界面 GUI Demo (图 1)、以及一键式下载公开数据集的脚本工具,全方位促进视觉语言方案复现、研发周期和成本。


LAVIS 将持续更新维护,在未来会支持更多更强大的视觉语言预训练模型,和更多的视觉语言任务,比如文本图像生成。同时作者也期待和欢迎开源社区对于 LAVIS 的反馈和贡献。

相关文章
|
6天前
|
Kubernetes Cloud Native Apache
[AIGC] 主流工作流引擎对比与适用场景介绍
[AIGC] 主流工作流引擎对比与适用场景介绍
|
7天前
|
人工智能 监控 数据处理
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
27 0
|
2月前
|
Linux 语音技术
FaceBook推出新的翻译模型Seamless!可实现跨语言交流的无缝衔接!
FaceBook推出新的翻译模型Seamless!可实现跨语言交流的无缝衔接!
|
8月前
|
人工智能 API Docker
智能文档检索和简便集成的开源 AI 问答工具:Danswer
当你使用 Danswer 时,只需以自然的方式提出问题,就像与朋友交谈一样简单,它会自动搜索公司内部的文件和资料,然后给你一个可靠的答案,并附上来源。
|
5月前
|
机器学习/深度学习 数据采集 人工智能
大模型时代如何快速开发AI应用?云上开发的优势与入门技巧
本文探讨了在大模型时代如何快速开发AI应用,包括选择合适的开发工具和框架、掌握常用的算法和模型、利用开源项目和社区资源以及注重数据预处理和特征工程等方面的技巧。此外,文章还介绍了云上AI开发的优势,包括高效的计算资源、便捷的协同办公、灵活的资源调度和安全可靠的数据存储和处理。最后,文章分享了一些快速入门AI开发的教程和技巧,帮助初学者更好地掌握AI开发的基础知识和实用技能。
139 1
|
10月前
|
机器学习/深度学习
阿里云最新产品手册——阿里云核心产品——机器学习平台PAI——主要特点
阿里云最新产品手册——阿里云核心产品——机器学习平台PAI——主要特点自制脑图
105 3
|
10月前
|
机器学习/深度学习
阿里云最新产品手册——阿里云核心产品——机器学习平台PAI
阿里云最新产品手册——阿里云核心产品——机器学习平台PAI自制脑图
112 2
|
12月前
|
机器学习/深度学习 数据可视化 测试技术
全方位支持任务数据集模型,Salesforce开源一站式视觉语言学习框架LAVIS
全方位支持任务数据集模型,Salesforce开源一站式视觉语言学习框架LAVIS
120 0
|
12月前
|
自然语言处理 知识图谱
|
12月前
|
自然语言处理 文字识别 达摩院