大一统模型

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 大一统模型

【Task简介】

OFA(One-For-All)对不同模态和任务实现了输入输出、架构、任务的大统一,在各多模态任务取得SOTA结果,Caption任务第一名。目前在ModelScope上已经上线了图像描述、图像生成、文本分类、摘要等8个下游任务,有不同规格和不同语种的支持,后续还会继续上线更多的模态和模型已经更有意思的应用。

【说明视频】

image.png

点击链接查看视频:

https://www.yuque.com/modelscope/rdum8e/on23pp?inner=mqyqQ

【输入与输出】

根据细分场景需求,按照输入要求输入图片或者文字,会产出相应的结果数据

image.png

【场景应用】

图像描述能力可以帮助用户为图片自动产出一段文本,既能够方便快速晒图,也能方便对图片进行分类管理甚至辅助搜索。 视觉问答能力可以对图片提出特定的问题,比如可以自动化解决图片分类问题(照片里有人么?照片里有建筑么?)和自动导游(照片里的建筑叫什么名字?)

【数据集链接】

数据集:

https://modelscope.cn/datasets/modelscope/coco_2014_caption/files

https://modelscope.cn/models?name=ofa&page=1%20caption

模型文件:

https://modelscope.cn/models/damo/ofa_image-caption_coco_large_en/summary

相关文章
|
1月前
|
存储 算法 测试技术
大模型落地的必经之路 | GPTQ加速LLM落地,让Transformer量化落地不再困难
大模型落地的必经之路 | GPTQ加速LLM落地,让Transformer量化落地不再困难
170 0
|
10天前
|
机器学习/深度学习 语音技术
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再压缩
【6月更文挑战第12天】谷歌DeepMind的Zipper架构解决了多模态大模型灵活性问题,通过分解为单模态模型并用“压缩”过程组合,实现多模态生成。该方法允许独立训练每个模态,提升灵活性和可扩展性,适用于数据有限或领域特定的模态。Zipper利用交叉注意力机制融合模态输出,适用于图像描述、语音识别等任务。尽管需要更多计算资源且性能受限于单模态模型质量,但已在ASR和TTS领域展现潜力。论文链接:https://arxiv.org/pdf/2405.18669
25 3
|
25天前
|
人工智能 自然语言处理 安全
【大模型】 基于AI和全球化进程的权衡:开源大模型与闭源大模型
【大模型】 基于AI和全球化进程的权衡:开源大模型与闭源大模型
50 0
|
1月前
|
人工智能 自然语言处理 测试技术
多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源
【4月更文挑战第24天】华中科技大学团队推出PSALM模型,革新多模态图像分割,实现语义、实例及交互式分割任务统一处理,提升效率。模型在多项基准测试中表现优异,支持零样本学习,适用于开放词汇分割等任务。代码开源促进研究,但面临复杂场景处理和计算资源优化的挑战。[链接](https://arxiv.org/abs/2403.14598)
38 2
|
1月前
|
机器学习/深度学习 编解码 人工智能
全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
【2月更文挑战第17天】全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
41 2
全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
|
1月前
|
机器学习/深度学习 数据采集 人工智能
ICLR 2024:RLHF有了通用平台和基准,天大开源,专攻现实决策场景
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
31 0
|
1月前
|
自然语言处理 搜索推荐 语音技术
大模型技术的分化与应用
【1月更文挑战第14天】大模型技术的分化与应用
59 2
大模型技术的分化与应用
|
12月前
|
机器学习/深度学习 数据采集
北大团队将色谱领域知识融入机器学习模型,辅助对映体色谱分离
北大团队将色谱领域知识融入机器学习模型,辅助对映体色谱分离
129 0
北大团队将色谱领域知识融入机器学习模型,辅助对映体色谱分离
|
机器学习/深度学习 存储 人工智能
AIGC背后的技术分析 | 构建神经网络
你会羡慕机器的强大算力吗?事实上,我们的大脑也能做到很多普通计算机无法做到的事情。 例如,我们只需要瞥一眼照片中的人,就能快速识别出这个人我们是不是认识。如果是,那么这个人的各种性格特征以及关于他的种种故事也会出现在我们的脑海中;如果不是,我们也能给出对这个人的第一印象描述。
194 0
AIGC背后的技术分析 | 构建神经网络
|
人工智能 自然语言处理 数据挖掘
为多模态LLM指明方向,邱锡鹏团队提出具有内生跨模态能力的SpeechGPT
为多模态LLM指明方向,邱锡鹏团队提出具有内生跨模态能力的SpeechGPT
164 0