全方位支持任务数据集模型,Salesforce开源一站式视觉语言学习框架LAVIS

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 全方位支持任务数据集模型,Salesforce开源一站式视觉语言学习框架LAVIS

Salesforce 亚洲研究院推出了一站式视觉语言开源框架 LAVIS。


视觉语言模型在内容推荐、电子商务里有广泛应用,例如图像描述生成、文本图像检索以及多模态内容分类。依托于海量互联网数据,多模型模型近期得到长足发展,其性能在下游任务上得到了广泛的验证。


尽管如此,现阶段的视觉语言方向的发展也存在其局限性。例如,由于语言视觉任务的多样性和复杂性,特别是对于初学者或者其他领域的工程研究人员,训练和评估现有视觉语言模型并不容易, 其较陡的学习曲线让很多新接触视觉语言方向的人望而却步。究其原因,这些障碍主要是模型、数据集和任务评估的接口不一致所致。另外,视觉语言预训练微调实验所需的实验环境搭建相对比较繁复,例如下载组织各个任务数据集、实验环境搭建等环节,不利于快速方法迭代,也容易产生疏漏。
现存的视觉语言框架往往只支持较少一部分任务和数据集,模型往往也不够新。例如,MMF 主要支持性能较弱的下游任务微调模型;X-modaler 支持非常有限的任务和数据集,对预训练模型的支持也不足。另外一些工作例如 torchmultimodal 和 unilm 尚在开发初期,不支持开源训练或推理。此外,这些库的接口设计并不统一,不利于访问数据集或是模型,这为想要利用视觉语言模型能力的用户提供了诸多不便。最后,这些库中的大多数不提供微调的模型检查点或基准测试结果。这对复现模型性能制造了额外的困难。


为了使得更广泛的工程研究人员更好地利用视觉语言多模态模型能力,推动其在生产场景里的应用,以及减少重复开发的负担,Salesforce 亚洲研究院推出了开源框架 LAVIS (LAnguage-VISion 的简称)。




LAVIS 框架全方位支持 10+ 视觉语言任务,20+ 数据集,并提供 SOTA 模型性能和可复现预训练及微调实验配置。LAVIS 一大特点是统一和模块化的接口设计,极大降低训练、推理和开发的难度,致力于让研究和工程人员快速利用到近期多模态发展成果。



图 1: 随 LAVIS 一起开源的 GUI demo,展示丰富的视觉语言应用场景。


LAVIS: 一站式视觉语言框架,任务数据集模型全方位支持


LAVIS 最大的特点是提供统一模块化接口,极大简化模型训练评测,实现模型和数据集开箱即用,并且最小化重复开发成本。LAVIS 力求为工程研究人员提供一站式视觉语言方案,助力视觉语言社区发展,从而扩大多模态模型研究的实际影响力。



LAVIS 是当前对视觉语言方向支持最全面的开源框架,其包含超过 10 种视觉语言任务,包括图片描述生成(image captioning)、 图像文本检索 (image-text retrieval)、视频文本检索 (video-text retrieval)、图像问答 (visual question answering)、视频问答 (video question answering)、多模态分类、多模态图像、视频对话、视觉语言推理、多模态预训练等实用任务,和多模态特征提取等功能;20 余标准数据集及评测结果,包括 COCO, Visual Genome, Flickr30k, NoCaps, NLVR, OK-VQA, A-OKVQA, MSRVTT, MSVD, DiDeMo, SBU, Conceptual Captions 等;以及 SOTA 的预训练和微调模型,开箱即用。上图展示了 LAVIS 和现有的多模态库的对比,突出 LAVIS 对视觉语言任务、数据集、模型的全方位支持。



LAVIS 主要支持四种领先的基础视觉语言模型架构,包括 ALBEF (NeurIPS 21’ Spotlight)、BLIP(ICML 22’)、CLIP 和 ALPRO(CVPR 22’)。其中 ALBEF,CLIP 主要支持图像文本任务,ALPRO 支持视频文本任务,BLIP 对图像文本、视频文本任务均提供支持。各个模型对任务和数据集支持的详细信息见下表。



统一模块化接口设计,一键模型数据加载,轻松拓展定制


LAVIS 的最大特点是提供了简单且统一的接口以训练评测模型、加载模型数据,以及便于未来拓展新的任务、数据集、模型。例如,用户可以利用 LAVIS 提供的 load_model(), load_dataset() 一键加载所需模型和数据集。下图描述了 LAVIS 模块之间的依赖关系。更多模型数据集加载实例可见于官方文档。此外,LAVIS 可以实现数据到训练高定制化,给予开发者充分空间研究新模型、新多模态能力、新引用场景。


丰富的配套资源工具


除了框架本身,LAVIS 还附带了丰富的开源资源和工具。包括模型预训练和在下游任务上微调的 checkpoint、用于可视化的图形界面 GUI Demo (图 1)、以及一键式下载公开数据集的脚本工具,全方位促进视觉语言方案复现、研发周期和成本。


LAVIS 将持续更新维护,在未来会支持更多更强大的视觉语言预训练模型,和更多的视觉语言任务,比如文本图像生成。同时作者也期待和欢迎开源社区对于 LAVIS 的反馈和贡献。

相关文章
|
10月前
|
人工智能 算法 自动驾驶
新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE
**Moirai-MoE:时间序列预测的新突破** Salesforce Research团队提出了Moirai-MoE模型,通过稀疏混合专家(MoE)技术,解决了传统时间序列预测方法中存在的频率不可靠和非平稳性问题。该模型在39个数据集上的实验结果表明,其性能优于现有基础模型,具有更高的创新性和泛化能力。论文地址:https://arxiv.org/abs/2410.10469
343 4
|
机器学习/深度学习 数据可视化 测试技术
全方位支持任务数据集模型,Salesforce开源一站式视觉语言学习框架LAVIS
全方位支持任务数据集模型,Salesforce开源一站式视觉语言学习框架LAVIS
292 0
|
2月前
|
人工智能
AI大会回顾 | 阿里云上的Salesforce AI CRM正式发布!
AI大会回顾,阿里云上的Salesforce AI CRM正式发布!将AI无缝融入业务流程,成为企业解锁增长的核心工具。
|
7月前
|
机器学习/深度学习 人工智能 大数据
销售易CRM:技术革新助力客户关系管理智能化
销售易CRM是国内领先的客户关系管理系统,通过人工智能、大数据、云计算和低代码开发等技术,助力企业实现智能化转型。其AI与机器学习功能可深度挖掘客户数据价值,提供精准商机洞察;大数据分析赋能企业决策智能化,提升预测能力和运营效率;基于云计算的移动办公功能打破协作边界,提高团队效率;低代码平台支持快速定制化开发,灵活响应业务需求。销售易CRM以技术创新和服务升级,推动企业在数字化浪潮中取得竞争优势,实现可持续发展。
|
7月前
|
机器学习/深度学习 人工智能 物联网
销售易CRM:技术领航,开启智能客户关系管理新时代
销售易CRM是国内CRM市场的领导者,通过技术创新为企业提供智能化客户关系管理解决方案。其深度集成人工智能与机器学习,精准挖掘客户数据价值;依托大数据分析,助力企业决策智能化;基于云计算与移动技术,实现高效无边界协作;借助低代码平台,快速响应业务需求变化;通过开放API生态整合,构建一体化应用体系。销售易CRM持续探索区块链、物联网等新技术,推动行业智能化发展,赋能企业高效增长。
|
7月前
|
机器学习/深度学习 人工智能 大数据
销售易CRM:技术领航,开启智能客户关系管理新时代
销售易CRM作为国内CRM市场的领导者,融合人工智能、机器学习、大数据分析、云计算和移动技术,提供智能化客户关系管理体验。其AI功能助力精准预测与洞察,大数据平台支持实时决策,云架构确保高可用性与安全性,低代码平台快速响应业务变化,开放API构建生态系统。通过技术创新,销售易CRM帮助企业提升效率、降低成本,持续引领行业发展。
|
8月前
|
搜索推荐
企业CRM新选择——轻巧强大的阿里云上的Salesforce CN 企业版正式发布!
企业CRM新选择——轻巧强大的阿里云上的Salesforce CN 企业版正式发布!
|
8月前
|
人工智能 自然语言处理 API
销售易NeoCRM与Salesforce:哪款CRM更适合你?
在当今CRM市场中,销售易NeoCRM与Salesforce展开激烈竞争。销售易提供完整的销售、客户、营销自动化及合同管理功能,具备AI赋能和移动办公支持,界面现代化且价格灵活,适合中大型企业。Salesforce则覆盖多领域,拥有强大的AI平台Einstein和丰富的生态系统,全球化支持强,适合大型及跨国公司。两者各有优势,企业在选择时应根据自身需求综合评估。
|
8月前
|
人工智能 大数据 云计算
Salesforce联手阿里云,销售易联手腾讯,还在靠”卖血求生“的CRM独立玩家何去何从?
销售易与腾讯战略合作升级,李强任董事长,史彦泽继续担任CEO。此次合作将推动行业竞争进入新维度,中国企服市场迎来深层变革。通过腾讯的技术支持,销售易将为客户提供更优质的服务和智能化体验。与此同时,依赖融资扩张的某F CRM厂商需思考如何将资本转化为实际竞争力。随着资本市场态度转变,生态协同成为关键,中国CRM市场正经历历史性分化,企业需重新审视战略定位,以技术融合创造增量价值,满足客户业务增长需求。
|
10月前
|
人工智能 开发者
中国CRM市场竞争格局分析:谁能与Salesforce比肩?
在全球CRM市场,Salesforce始终占据领导地位,但中国本土CRM厂商正迅速崛起。销售易在技术创新和产品深度上接近Salesforce,纷享销客聚焦中小企业市场,明源云在房地产行业表现出色。尽管与Salesforce存在技术架构、产品功能和生态系统等方面的差距,但本土厂商在本地化和响应速度上具备优势,未来有望在特定领域逐步缩小差距。

热门文章

最新文章