魔搭中文开源模型社区:模型即服务-通用多模态AI构建(上)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
视觉智能开放平台,分割抠图1万点
简介: 魔搭中文开源模型社区:模型即服务

 

作者:周畅阿里巴巴达摩院智能计算实验室

 

一、 OFA简介

 

image.png

 

2021年,达摩院智能计算实验室开发了M6动态模型。一方面,研究万亿级的大模型低碳训练技术;另一方面,研究大模型服务化技术,并在各行各业应用了文生图原子能力,以及图到文原子能力。

 

image.png

 

2022年,达摩院更关注多模态模型如何能够更通用,所以今年主打的模型系列叫OFA,希望它能像人一样,只使用一个模型就能处理尽可能多的日常事务。

 

image.png

 

目前,通用模型有两条技术路线。第一种是表征模型,它只做一件事情,把不同模态的数据,从原始Format映射到深度学习模型的数据分布上。

 

第二种技术路线是GPT-3,即通用任务模型。它是历史上第一个能够把任务描述直接建模在模型里,并取得真实效果的模型。

 

image.png

 

2022年2月,达摩院推出了VL prototype,并开源了源代码,在半年多的时间里,收获了不少国内外团队的关注和使用。

 

OFA对于所有任务会共享一套结构,它和人一样通过听任务指令,就能完成日常基本的跨模态数据操作。OFA试图将模型设计和任务设计解耦开来,让使用者更关注任务表示,而不是AI模型设计。

 

image.png

 

如上图所示,给模型一张图,然后用一段文本叙述图片的内容。如果用户在OFA的基础上进行识别,只需要一行代码即可。

 

image.png

 

由于OFA是基于instruction做多任务预训练,模型类似T0能够根据对任务指令的理解,做一些没有学过的任务。如上图所示,模型只需要根据输入的问题以及给定的坐标进行离散化表示,就能做出相应的正确回答。

 

image.png

 

目前,OFA-speech在中文AISHELL-1上取得大幅优势,dev/test集字错误率仅为1.6%/1.9%。

 

image.png

 

如上图所示,OFA可以通过文本的形式,解决数独问题,准确率高达100%。

 

image.png

 

除此之外,OFA还可以进行视频游戏。如上图所示,用户可以输入一段Instruction,根据视频逐帧采取相应的行动。

 

image.png

 

如上图所示,OFA还可以驱动一个3D数字人,且仍然使用相同的模型。当用户输入一段话后,它可以根据指令做一个3D motion。最后,进行渲染。

 

image.png

 

目前,OFA在ModelScope社区开源的模型主要有OFA图像描述、OFA视觉问答、OFA文生图模型等等。

 

image.png

 

OFA是达摩院M6团队研发的通用多模态预训练模型,使用简单的序列到序列的学习框架统一模态和任务。如图片生成、视觉定位、图片描述、图片分类、文本生成等。

 

该工作已经发表在ICML 2022上,得到了Google Brain,DeepMind,Microsoft等一线多模态大模型玩家的引用和关注。目前,已经有60多个学术界论文引用了OFA。

 

OFA践行了One For All的理念,同时也在多模态和单模态任务上都得到了较好的结果,如Image Captioning(CIDEr 154.9)、VQA(acc 82.0)、ImageNet-1ktop-1 acc 85.6、Gigaword(Rouge-1 39.81)等等。

 

image.png

 

目前,ModelScope上面所有已经上传的模型和任务,都可以在下面导航表格看到,点击链接可以跳转到相应Model Card。

 

image.png

 

与此同时,OFA还有在线体验功能。用户可以上传图片,进行体验。

 

image.png

 

如上图所示,是基于ModelScope上的OFA通用的预训练模型底座,通过二次开发得到图像文字识别微调模型,并使用基础模型进行推理。用户可以通过构造trainer,并基于图像文字识别数据集进行训练。

 


相关文章
|
23天前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
66 2
|
8天前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
35 6
|
8天前
|
存储 人工智能 SEO
全开源免费AI网址导航网站源码
Aigotools 可以帮助用户快速创建和管理导航站点,内置站点管理和自动收录功能,同时提供国际化、SEO、多种图片存储方案。让用户可以快速部署上线自己的导航站。
19 1
|
14天前
|
人工智能
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【10月更文挑战第21天】普林斯顿大学研究人员提出了CORE-Bench,一个基于计算可重复性的AI代理基准,涵盖计算机科学、社会科学和医学领域的270个任务。该基准旨在评估AI代理在科学研究中的准确性,具有多样性、难度级别和现实相关性等特点,有助于推动AI代理的发展并提高计算可重复性。
35 4
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在医疗领域的应用及其挑战
【10月更文挑战第34天】本文将探讨人工智能(AI)在医疗领域的应用及其面临的挑战。我们将从AI技术的基本概念入手,然后详细介绍其在医疗领域的各种应用,如疾病诊断、药物研发、患者护理等。最后,我们将讨论AI在医疗领域面临的主要挑战,包括数据隐私、算法偏见、法规合规等问题。
10 1
|
5天前
|
存储 XML 人工智能
深度解读AI在数字档案馆中的创新应用:高效识别与智能档案管理
基于OCR技术的纸质档案电子化方案,通过先进的AI能力平台,实现手写、打印、复古文档等多格式高效识别与智能归档。该方案大幅提升了档案管理效率,确保数据安全与隐私,为档案馆提供全面、智能化的电子化管理解决方案。
79 48
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
【10月更文挑战第31天】2024年,AI大模型在软件开发领域的应用取得了显著进展,从自动化代码生成、智能代码审查到智能化测试,极大地提升了开发效率和代码质量。然而,技术挑战、伦理与安全问题以及模型可解释性仍是亟待解决的关键问题。开发者需不断学习和适应,以充分利用AI的优势。
|
4天前
|
人工智能 安全 测试技术
探索AI在软件开发中的应用:提升开发效率与质量
【10月更文挑战第31天】在快速发展的科技时代,人工智能(AI)已成为软件开发领域的重要组成部分。本文探讨了AI在代码生成、缺陷预测、自动化测试、性能优化和CI/CD中的应用,以及这些应用如何提升开发效率和产品质量。同时,文章也讨论了数据隐私、模型可解释性和技术更新等挑战。
|
2天前
|
传感器 人工智能 算法
AI在农业中的应用:精准农业的发展
随着科技的发展,人工智能(AI)在农业领域的应用日益广泛,尤其在精准农业方面取得了显著成效。精准农业通过GPS、GIS、遥感技术和自动化技术,实现对农业生产过程的精确监测和控制,提高产量和品质,降低成本和环境影响。AI在作物生长监测、气候预测、智能农机、农产品品质检测和智能灌溉等方面发挥重要作用,推动农业向智能化、高效化和可持续化方向发展。尽管面临技术集成、数据共享等挑战,但未来前景广阔。
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
思通数科AI平台在尽职调查中的技术解析与应用
思通数科AI多模态能力平台结合OCR、NLP和深度学习技术,为IPO尽职调查、融资等重要交易环节提供智能化解决方案。平台自动识别、提取并分类海量文档,实现高效数据核验与合规性检查,显著提升审查速度和精准度,同时保障敏感信息管理和数据安全。
43 11
下一篇
无影云桌面