连百年梗图都整明白了!微软多模态「宇宙」搞定IQ测试,仅16亿参数

本文涉及的产品
小语种识别,小语种识别 200次/月
教育场景识别,教育场景识别 200次/月
文档理解,结构化解析 100页
简介: 连百年梗图都整明白了!微软多模态「宇宙」搞定IQ测试,仅16亿参数

连百年梗图都整明白了!微软多模态「宇宙」搞定IQ测试,仅16亿参数

新智元新智元 2023-03-03 12:57 发表于北京



 新智元报道  

编辑:桃子 Ellie

【新智元导读】微软亚研院发布了仅16亿参数的多模态大型语言模型KOSMOS-1,不仅能看图回答,还搞定了瑞文智商测试。


大模型的卷,已经不睡觉都赶不上进度了......

这不,微软亚研院刚刚发布了一个多模态大型语言模型(MLLM)—— KOSMOS-1。

论文地址:https://arxiv.org/pdf/2302.14045.pdf

论文题目Language Is Not All You Need,还得源于一句名言。

文中有这么一句话,「我语言的局限,就是我世界的局限。——奥地利哲学家Ludwig Wittgenstein」

那么问题来了......

拿着图问KOSMOS-1「是鸭还是兔」能搞明白吗?这张有100多年历史的梗图硬是把谷歌AI整不会了。

1899年,美国心理学家Joseph Jastrow首次使用「鸭兔图」来表明感知不仅是人们所看到的,而且是一种心理活动。

现在,KOSMOS-1便能将这种感知和语言模型相结合。

-图中是什么?

-像一只鸭子。

-如果不是鸭子,那是什么?

-看起来更像兔子。

-为什么?

-它有兔子的耳朵。

这么一问,KOSMOS-1真有点像微软版的ChatGPT了。

不仅如此,Kosmos-1还能理解图像、文本、带有文本的图像、OCR、图像说明、视觉QA。

甚至IQ测试也不在话下。

「宇宙」无所不能


Kosmos来源希腊一词cosmos,有「宇宙」之意。

据论文介绍,最新Kosmos-1模型是一个多模态大型语言模型。

其主干是一个基于Transformer的因果语言模型,除了文本之外,其他模态,如视觉、音频都可以嵌入模型。

Transformer解码器用作多模态输入的通用接口,因此它能感知一般模态,进行上下文学习,并遵循指令。

Kosmos-1在语言和多模态任务上取得了令人印象深刻的表现,无需进行微调,其中包括带有文字指示的图像识别、视觉问答和多模态对话。

如下是Kosmos-1生成一些例子式样。

图片解释、图片问答、网页问题回答,简单数字公式,以及数字识别。

那么,Kosmos-1是在哪些数据集上进行预训练的呢?

训练所用的数据库,包括文本语料库、图像-字幕对、图像和文本交叉数据集。

文本语料库取自The Pile和Common Crawl(CC);

图像-字幕对的来源为English LAION-2B、LAION-400M、COYO-700M和Conceptual Captions;

文本交叉数据集的来源是Common Crawl snapshot。

数据库有了,接下来就是对模型进行预训练了。

MLLM组件有24层、2,048个隐藏维度、8,192个FFN和32个注意力头头,产生了大约1.3B的参数。

为了保证优化的稳定性,采用Magneto初始化;为了更快地收敛,图像表示是从一个预先训练好的具有1024个特征维度的CLIP ViT-L/14模型获取的。在训练过程中,图像被预处理成224×224分辨率,CLIP模型的参数除了最后一层均被冻结。

KOSMOS-1的参数总量约为16亿。

为了使KOSMOS-1更好地与指令保持一致,对其进行了只用语言的指令调整 [LHV+23, HSLS22],即用指令数据继续训练模型,该指令数据是仅有的语言数据,与训练语料库混合。

该调优过程是按照语言建模的方式进行的,选取的指令数据集为Unnatural Instructions [HSLS22]和FLANv2 [LHV+23]。

结果显示,指令跟随能力的提高可以跨模式转移。

总之,MLLM可以从跨模态迁移中获益,将知识从语言迁移到多模态,反之亦然;

5大类10个任务,都拿捏了


一个模型好不好使,拿出来溜溜就知道了。

研究团队从多角度进行实验来评价KOSMOS-1的性能,包括5大类十项任务:

1 语言任务(语言理解、语言生成、无OCR的文本分类)

2 多模态转移(常识推理)

3 非语言推理(IQ测试)

4 感知-语言任务(图像说明、视觉问答、网页问答)

5 视觉任务(零样本图像分类、带描述的零样本图像分类)

无OCR的文本分类

这是一种不依赖于光学字符识别(OCR)的专注于文本和图像的理解任务。

KOSMOS-1对HatefulMemes和对Rendered SST-2测试集的准确率均高于优于其他模型。

而且Flamingo明确提供OCR文本到提示中,KOSMOS-1并没有访问任何外部工具或资源,这展示了KOSMOS-1阅读和理解渲染的图像中的文本的内在能力。

IQ测试

瑞文智力测试是评估非语言的最常用测试之一。

KOSMOS-1在没有进行微调时准确率比随机选择提高了5.3%,经过微调后则提高了9.3%,表明其具有感知非语言环境中的抽象概念模式的能力。

这是首次有模型能够完成零样本Raven测试,证明了MLLMs通过将感知与语言模型结合起来进行零样本非言语推理的潜力。

图像说明

KOSMOS-1在COCO和Flickr30k测试中的零样本性能均表现优秀,相比其他模型,其得分更高,但采用的参数量更小。

在少样本性能测试中,得分随着k值增大有所增加。

零样本图像分类

给定一个输入图像,并将该图像与提示 「The photo of the」连接起来。然后,输入模型以获得图像的类别名称。

通过在ImageNet[DDS+09]上评估该模型,在有约束和无约束的条件下,KOSMOS-1的图像归类效果都明显优于GIT[WYH+22],展现了完成视觉任务的强大能力。

常识推理

视觉常识推理任务要求模型理解现实世界中日常物体的属性,如颜色、大小和形状,这些任务是具有挑战性的,因为它们可能需要比文本中更多的关于物体属性的信息。

结果显示,KOSMOS-1在尺寸和颜色方面的推理能力都明显好于LLM模型。这主要是因为KOSMOS-1具备多模态迁移能力,从而能够将视觉知识运用到语言任务中,而不必像LLM那样必须依靠文本知识和线索来推理。

对于微软Kosmos-1,网友称赞道,未来5年,我可以看到一个高级机器人浏览网络,并仅通过视觉方式基于人类的文本输入来工作。真是有趣的时代。

参考资料:https://arxiv.org/pdf/2302.14045.pdf

相关文章
|
6月前
|
JavaScript 前端开发 测试技术
Postman 加密接口测试 | 使用Rsa、Aes对参数加密
Postman 加密接口测试 | 使用Rsa、Aes对参数加密
936 0
|
6月前
|
Web App开发 Java Linux
Nexus【部署 02】最新版本 nexus-3.35.0-02-unix.tar.gz 安装配置启动及测试(JDK版本+虚拟机参数配置说明)
Nexus【部署 02】最新版本 nexus-3.35.0-02-unix.tar.gz 安装配置启动及测试(JDK版本+虚拟机参数配置说明)
472 0
|
1月前
|
SQL 分布式计算 关系型数据库
Hadoop-13-Hive 启动Hive 修改启动参数命令行启动测试 几句简单的HQL了解Hive
Hadoop-13-Hive 启动Hive 修改启动参数命令行启动测试 几句简单的HQL了解Hive
56 2
|
1月前
|
机器学习/深度学习 弹性计算 自然语言处理
前端大模型应用笔记(二):最新llama3.2小参数版本1B的古董机测试 - 支持128K上下文,表现优异,和移动端更配
llama3.1支持128K上下文,6万字+输入,适用于多种场景。模型能力超出预期,但处理中文时需加中英翻译。测试显示,其英文支持较好,中文则需改进。llama3.2 1B参数量小,适合移动端和资源受限环境,可在阿里云2vCPU和4G ECS上运行。
|
1月前
|
机器学习/深度学习 测试技术
ACL杰出论文奖:GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
【10月更文挑战第6天】约翰斯·霍普金斯大学等机构提出了一项荣获ACL杰出论文奖的研究,旨在解决大模型在心智理论(ToM)上的不足。他们发布了首个MMToM-QA多模态ToM测试集,并提出BIP-ALM方法,从多模态数据中提取统一表示,结合语言模型进行贝叶斯逆规划,显著提升了模型的ToM能力。这一成果为机器与人类自然交互提供了新思路,尽管仍面临一些局限性和技术挑战。论文详情见:https://arxiv.org/abs/2401.08743。
47 6
|
1月前
|
监控 Java Maven
springboot学习二:springboot 初创建 web 项目、修改banner、热部署插件、切换运行环境、springboot参数配置,打包项目并测试成功
这篇文章介绍了如何快速创建Spring Boot项目,包括项目的初始化、结构、打包部署、修改启动Banner、热部署、环境切换和参数配置等基础操作。
128 0
|
2月前
|
测试技术 UED 开发者
软件测试的艺术:从代码审查到用户反馈的全景探索在软件开发的宇宙中,测试是那颗确保星系正常运转的暗物质。它或许不总是站在聚光灯下,但无疑是支撑整个系统稳定性与可靠性的基石。《软件测试的艺术:从代码审查到用户反馈的全景探索》一文,旨在揭开软件测试这一神秘面纱,通过深入浅出的方式,引领读者穿梭于测试的各个环节,从细微处着眼,至宏观视角俯瞰,全方位解析如何打造无懈可击的软件产品。
本文以“软件测试的艺术”为核心,创新性地将技术深度与通俗易懂的语言风格相结合,绘制了一幅从代码审查到用户反馈全过程的测试蓝图。不同于常规摘要的枯燥概述,这里更像是一段旅程的预告片,承诺带领读者经历一场从微观世界到宏观视野的探索之旅,揭示每一个测试环节背后的哲学与实践智慧,让即便是非专业人士也能领略到软件测试的魅力所在,并从中获取实用的启示。
|
3月前
|
人工智能 自然语言处理 测试技术
跨平台多模态智能体基准测试来了!但全班第一只考了35.26分
【8月更文挑战第31天】近日,Tianqi Xu等研究者在arXiv发布了题为《CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents》的论文,提出了一种全新的智能体基准测试框架CRAB,旨在解决现有MLM智能体交互环境基准测试的局限性。CRAB支持跨环境任务,提供细粒度评价方法及高效的任务构建机制,并包含100个跨平台任务的Crab Benchmark-v0。实验结果显示,GPT-4o单智能体在该基准测试中表现最佳,任务完成率达35.26%。CRAB为未来跨环境智能体研究提供了重要参考。
52 1
|
3月前
|
Shell
[shell]在curl测试的data参数中引用变量
[shell]在curl测试的data参数中引用变量
204 1
|
4月前
|
数据采集 存储 测试技术
使用LabVIEW和示波器测试IGBT参数
使用LabVIEW和示波器测试IGBT参数
49 0