本周重要论文有 Meta AI开源的多感官 AI 基础模型,用图像对齐了所有模态,还有 OpenAI 开始用 AI 解读 AI 的新研究。
目录:
- Language models can explain neurons in language models
- EgoLocate: Real-time Motion Capture, Localization, and Mapping with Sparse Body-mounted Sensors
- IMAGEBIND: One Embedding Space To Bind Them All
- DetGPT: Detect What You Need via Reasoning
- A Unified Spatial-Angular Structured Light for Single-View Acquisition of Shape and Reflectance
- PandaLM: Reproducible and Automated Language Model Assessment
- DreamFace: Progressive Generation of Animatable 3D Faces under Text Guidance
- ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文 1:Language models can explain neurons in language models
- 作者:Steven Bills、Nick Cammarata 等
- 论文地址:https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html
摘要:可解释性研究的一种简单方法是首先了解 AI 模型各个组件(神经元和注意力头)在做什么。传统的方法是需要人类手动检查神经元,以确定它们代表数据的哪些特征。这个过程很难扩展,将它应用于具有数百或数千亿个参数的神经网络的成本过于高昂。
所以 OpenAI 提出了一种自动化方法 —— 使用 GPT-4 来生成神经元行为的自然语言解释并对其进行评分,并将其应用于另一种语言模型中的神经元 —— 此处他们选择了 GPT-2 为实验样本,并公开了这些 GPT-2 神经元解释和分数的数据集。第一步用 GPT-4 生成解释。
第二步使用 GPT-4 进行模拟。
第三步对比。
推荐:OpenAI 用 GPT-4 解释了 GPT-2 三十万个神经元:智慧原来是这个样子。
论文 2:EgoLocate: Real-time Motion Capture, Localization, and Mapping with Sparse Body-mounted Sensors
- 作者:Xinyu Yi、Yuxiao Zhou 等
- 论文地址:https://arxiv.org/abs/2305.01599
摘要:近年来,基于惯性的人体动作捕捉技术迅速发展。它们通过在人体上穿戴惯性传感器,实时测量人体的运动信息。然而这就好比一个人在蒙着眼睛走路 —— 我们可以感受到身体的运动,但随着时间的累积,我们越来越难以确定自己的位置。
本文则试图打开惯性动作捕捉的「眼睛」。通过额外佩戴一个手机相机,我们的算法便有了「视觉」。它可以在捕获人体运动的同时感知环境信息,进而实现对人体的精确定位。该项研究来自清华大学徐枫团队,已被计算机图形学领域国际顶级会议 SIGGRAPH2023 接收。本文人体动作捕捉与环境建图技术如下动图所示。
推荐:6 个惯性传感器和 1 个手机实现人体动作捕捉、定位与环境重建。
论文 3:IMAGEBIND: One Embedding Space To Bind Them All
- 作者:Rohit Girdhar、 Alaaeldin El-Nouby 等
- 论文地址:https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf
摘要:在人类的感官中,一张图片可以将很多体验融合到一起,比如一张海滩图片可以让我们想起海浪的声音、沙子的质地、拂面而来的微风,甚至可以激发创作一首诗的灵感。图像的这种「绑定」(binding)属性通过与自身相关的任何感官体验对齐,为学习视觉特征提供了大量监督来源。理想情况下,对于单个联合嵌入空间,视觉特征应该通过对齐所有感官来学习。然而这需要通过同一组图像来获取所有感官类型和组合的配对数据,显然不可行。
最近,很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的模态对。因此,视频 - 音频嵌入无法直接用于图像 - 文本任务,反之亦然。学习真正的联合嵌入面临的一个主要障碍是缺乏所有模态融合在一起的大量多模态数据。
今日,Meta AI 提出了 ImageBind,它通过利用多种类型的图像配对数据来学习单个共享表示空间。该研究不需要所有模态相互同时出现的数据集,相反利用到了图像的绑定属性,只要将每个模态的嵌入与图像嵌入对齐,就会实现所有模态的迅速对齐。Meta AI 还公布了相应代码。
推荐:用图像对齐所有模态,Meta 开源多感官 AI 基础模型,实现大一统。
论文 4:DetGPT: Detect What You Need via Reasoning
- 作者:Renjie Pi、Jiahui Gao 等
- 论文地址:https://detgpt.github.io/
摘要:本文中,来自港科大 & 港大的研究人员提出了一个全开源模型 DetGPT (全名 DetectionGPT),只需微调三百万参数量,让模型轻松拥有了复杂推理和局部物体定位能力,可以泛化到大多数场景。这意味着模型能够通过自身知识的推理来理解人类抽象指令,轻松识别图片中的人类感兴趣的物体!
DetGPT 可以让用户用自然语言操作一切,不需要繁琐的命令或者界面。同时还具备智能推理和目标检测能力,可以准确地理解用户的需求和意图。例如人类发一个语言指令 “我想喝冷饮”,机器人首先在场景里搜索冷饮,但是没有找到。于是开始思考 “场景里没有冷饮,我应该去哪里找”。通过强大的常识推理能力模型想到了冰箱,于是扫描场景画面发现了冰箱,成功锁定饮料位置!
推荐:能看图、会聊天,还会跨模态推理和定位,能落地复杂场景的 DetGPT 来了。
论文 5:A Unified Spatial-Angular Structured Light for Single-View Acquisition of Shape and Reflectance
- 作者:Xianmin Xu、Yuxin Lin 等
- 论文地址:https://svbrdf.github.io/
摘要:如何数字化真实世界中的复杂物体是计算机图形学与计算机视觉中的经典问题,在文化遗产、电子商务和电影特效等诸多领域有着广泛的应用。高精度数字化结果由三维几何与高维外观组成,能在虚拟世界中高保真地重现出本体在任意光照和视角下的「流光溢彩」。
为了提升数字化采集中的信噪比,浙江大学计算机辅助设计与图形系统全国重点实验室和杭州相芯科技有限公司的研究团队首次提出了能同时采集几何与外观信息的轻量级高维结构光光源,通过 LED 阵列与 LCD 面板组合,等效构建了 3072 个分辨率约为 320x320 的投影仪,仅用单个相机即可实现 0.27mm 的几何重建精度以及 SSIM=0.94 的外观重建精度,在复杂物体重建实验中超越了 SOTA。相关研究论文已被 CVPR 2023 接收。
下图左为团队自研结构光硬件原型,包括 64x48 的 LED 阵列、一个 1920x1080 分辨率的 LCD 遮罩(通过对普通液晶显示器拆卸后得到)和一台相机。图中为使用单个 LED 能投影一组遮罩图案来采集三维几何。图右为多个 LED 能投影光照图案穿过全透明遮罩来采集高维外观。
推荐:LED 阵列 + LCD 面板 = 3072 个投影仪:浙大 - 相芯联合团队实现复杂物体高质量数字化建模。
论文 6:PandaLM: Reproducible and Automated Language Model Assessment
- 作者:Yidong Wang、Yidong Wang 等
- 论文地址:https://github.com/WeOpenML/PandaLM
摘要:大模型的发展可谓一日千里,指令微调方法犹如雨后春笋般涌现,大量所谓的 ChatGPT “平替” 大模型相继发布。在大模型的训练与应用开发中,开源、闭源以及自研等各类大模型真实能力的评测已经成为提高研发效率与质量的重要环节。
北京大学、西湖大学等机构的研究者提出了一种全新的大模型评估范式 PandaLM。PandaLM 通过训练一个专门用于评估的大模型,对大模型能力进行自动化且可复现的测试验证。PandaLM 于 4 月 30 日在 GitHub 上发布,是全球首个评估大模型的大模型。相关论文会在近期公布。
下面三张表的结果说明人类,gpt-3.5-turbo 与 PandaLM-7B 对于各个模型之间优劣关系的判断完全一致。
推荐:可复现、自动化、低成本、高评估水平,首个自动化评估大模型的大模型 PandaLM 来了。
论文 7:DreamFace: Progressive Generation of Animatable 3D Faces under Text Guidance
- 作者:Longwen Zhang、Qiwei Qiu 等
- 论文地址:https://arxiv.org/abs/2304.03117
摘要:在科技迅速发展的今天,生成式人工智能和计算机图形学领域的研究日益引人注目,影视制作、游戏开发等行业正面临着巨大的挑战和机遇。本文将为您介绍一项 3D 生成领域的研究 ——DreamFace,它是首个支持 Production-Ready 3D 资产生成的文本指导渐进式 3D 生成框架,能够实现文本生成可驱动的 3D 超写实数字人。
这项工作已经被计算机图形领域国际顶级期刊 Transactions on Graphics 接收,并将在国际计算机图形顶级会议 SIGGRAPH 2023 上展示。DreamFace 框架概述图如下所示。
推荐:DreamFace:一句话生成 3D 数字人?