7 Papers & Radios | 牛津大学在机器人骨架上培养细胞;加州理工扛住强风的无人机(2)

简介: 7 Papers & Radios | 牛津大学在机器人骨架上培养细胞;加州理工扛住强风的无人机

论文 3:NeuralHDHair: Automatic High-fidelity Hair Modeling from a Single Image Using Implicit Neural Representations


摘要:来自浙江大学、瑞士苏黎世联邦理工学院和香港城市大学的研究者提出了 IRHairNet,实施一个由粗到精的策略来生成高保真度的 3D 方向场。具体来说,他们引入了一种新颖的 voxel-aligned 的隐函数(VIFu)来从粗糙模块的 2D 方向图中提取信息。同时,为了弥补 2D 方向图中丢失的局部细节,研究者利用高分辨率亮度图提取局部特征,并结合精细模块中的全局特征进行高保真头发造型。

为了有效地从 3D 方向场合成头发丝模型,研究者引入了 GrowingNet,一种基于深度学习利用局部隐式网格表征的头发生长方法。这基于一个关键的观察:尽管头发的几何形状和生长方向在全局范围内有所不同,但它们在特定的局部范围内具有相似的特征。因此,可以为每个局部 3D 方向 patch 提取一个高级的潜在代码,然后训练一个神经隐函数 (一个解码器) 基于这个潜在代码在其中生长头发丝。在每一个生长步骤之后,以头发丝的末端为中心的新的局部 patch 将被用于继续生长。经过训练后,它可适用于任意分辨率的 3D 定向场。

图 2 展示了 NeuralHDHair 的 pipeline。对于人像图像,首先计算其 2D 方向图,并提取其亮度图。此外,自动将它们对齐到相同的半身参考模型,以获得半身像深度图。然后,这三个图随后被反馈到 IRHairNet。

IRHairNet 设计用于从单个图像生成高分辨率 3D 头发几何特征。这个网络的输入包括一个 2D 定向图、一个亮度图和一个拟合的半身深度图,这些都是从输入的人像图中得到的。输出是一个 3D 方向字段,其中每个体素内包含一个局部生长方向,以及一个 3D 占用字段,其中每个体素表示发丝通过 (1) 或不通过 (0)。
GrowingNet 设计用于从 IRHairNet 估计的 3D 定向场和 3D 占用字段高效生成一个完整的头发丝模型 ,其中 3D 占用字段是用来限制头发的生长区域。

推荐:3D 头发建模新方法 NeuralHDHair,浙大、ETH Zurich、CityU 联合出品。

论文 4:Neural-Fly Enables Rapid Learning for Agile Flight in Strong Winds


摘要:目前来看,无人机要么在受控条件下飞行,无风;要么由人类使用遥控器操作。无人机被研究者控制在开阔的天空中编队飞行,但这些飞行通常是在理想的条件和环境下进行的。然而,要想让无人机自主执行必要但日常的任务,例如运送包裹,无人机必须能够实时适应风况。

为了让无人机在风中飞行时具有更好的机动性,来自加州理工学院的一组工程师开发了一种深度神经网络 Neural-Fly,即一种人工智能工具,可以让无人机在有风的情况下保持敏捷,只需更新一些关键参数,即可帮助无人机实时应对新的和未知的风况。

下面展示了一架四旋翼无人机,借助该研究开发的工具,它可以在风速达到 27 英里 / 小时的情况下完成 8 字形穿梭操作:


这项研究已于周三发表在《科学 · 机器人学》(Science Robotics) 杂志上。

下图 2 为 Neural-Fly 方法概览,表明了它在自适应飞行控制和基于深度学习的机器人控制方面取得了进展。在标准 UAV 的动态风况下,Neural-Fly 实现了对灵活且具有挑战性轨迹的厘米级位置误差跟踪。具体来说,该方法主要有两部分组成,分别是离线学习阶段和用于实时在线学习的在线自适应控制阶段。


对于离线学习阶段,研究者开发了域对抗不变元学习(Domain Adversarially Invariant Meta-Learning, DAIML),它以一种数据高效的方式学习空气动力学与风况无关的深度神经网络(DNN)表示。该表示通过更新一组混合深度神经网络输出的线性系数来适应不同的风况。DAIML 还具有数据高效性,仅使用 6 种不同风况下共计 12 分钟的飞行数据来训练深度神经网络。DAIML 包含的几种关键特性不仅可以提升数据效率,而且能够由下游在线自适应控制阶段提供信息。

推荐:稳当扛住强风的无人机你见过吗?加州理工用 12 分钟飞行数据教会无人机御风飞行。

论文 5:Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding


摘要:来自谷歌的研究者提出了一种文本到图像的扩散模型 Imagen。

Imagen 结合了 Transformer 语言模型和高保真扩散模型的强大功能,在文本到图像的合成中提供前所未有的逼真度和语言理解能力。与仅使用图像 - 文本数据进行模型训练的先前工作相比,Imagen 的关键突破在于:谷歌的研究者发现在纯文本语料库上预训练的大型 LM 的文本嵌入对文本到图像的合成显著有效。Imagen 的文本到图像生成可谓天马行空,能生成多种奇幻却逼真的有趣图像。

比如正在户外享受骑行的柴犬:

泰迪熊的 400 米蝶泳首秀:

Imagen 模型中包含一个 frozen T5-XXL 编码器,用于将输入文本映射到一系列嵌入和一个 64×64 的图像扩散模型中,并带有两个超分辨率扩散模型,用于生成 256×256 和 1024×1024 的图像。

其中,所有扩散模型都以文本嵌入序列为条件,并使用无分类器指导。借助新型采样技术,Imagen 允许使用较大的指导权重,而不会发生样本质量下降,使得生成的图像具有更高的保真度、图像与文本更加吻合。

推荐:叫板 DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天。

论文 6:Symphony Generation with Permutation Invariant Language Model


摘要:音乐生成是近年的一个热门研究方向,但以交响乐为代表的复杂多轨道符号音乐生成,目前还面临诸多挑战。本文提出了一个基于符号的交响乐生成解决方案—SymphonyNet,此外本文还开源了首个大规模交响乐 MIDI 数据集!相信不久之后大家都可以训练自己的交响乐生成 AI 了。

基于多轨道音乐的特点,本文设计了一种基于线性自注意力的纯解码器结构,由于音乐序列的多维特性,本文为音乐事件的四个属性设计了不同的前馈输出头,这些属性是乐器,轨道,音符时长和事件符号。

其中,本文没有明确地将乐器相关信息编码到模型输入中,而是训练模型将每个音符的乐器分类作为一项联合训练任务。首先,本文考虑到另一种乐器也可以演奏由特定乐器演奏的音轨,例如在某些音乐作品中,用钢琴代替马林巴琴是可以接受的。其次,为音符预先分配的乐器缩小了训练数据的多样性,同时希望该模型能从输出端学习到如何自动配器,完整结构如下图所示:

推荐:中央音乐学院用 AI 生成交响乐在国外火了!

论文 7:A Long Short-Term Memory for AI Applications in Spike-based Neuromorphic Hardware


摘要:随着智能手机的普及,手机游戏也越来越受欢迎。但视频游戏等程序会大量耗电耗能。与 GPU 等标准硬件相比,基于 spike 的神经形态芯片有望实现更节能的深度神经网络(DNN)。但这需要我们理解如何在基于 event 的稀疏触发机制(sparse firing regime)中模拟 DNN,否则神经形态芯片的节能优势就会丧失。

比如说,解决序列处理任务的 DNN 通常使用长 - 短期记忆单元(LSTM),这种单元很难模拟。现在有一项研究模拟了生物神经元,通过放慢每个脉冲后的超极化后电位(AHP)电流,提供了一种有效的解决方案。AHP 电流可以很容易地在支持多节段(multi-compartment)神经元模型的神经形态硬件(例如英特尔的 Loihi 芯片)上实现类似于 LSTM 的功能。

滤波器逼近理论能够解释为什么 AHP 神经元可以模拟长短期记忆网络的功能。这产生了一种高能效的时间序列分类方法,让类脑神经形态芯片上的 AI 算法能效提高约 1000 倍。此外,它为高效执行大型 DNN 提供了基础,以解决有关自然语言处理的问题。研究论文近期发表在《自然 · 机器智能》期刊上。

曼彻斯特大学的计算机科学家 Steve Furber 评价这项研究称:「这是一项令人印象深刻的工作,可能给复杂 AI 算法(例如语言翻译、自动驾驶)的性能带来巨大飞跃。」

推荐Nature 子刊:科学家在类脑芯片上实现类似 LSTM 的功能,能效高 1000 倍


ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:
10 NLP Papers音频:00:0020:18

本周 10 篇 NLP 精选论文是:


1. Heterformer: A Transformer Architecture for Node Representation Learning on Heterogeneous Text-Rich Networks.  (from Jiawei Han)2. All Birds with One Stone: Multi-task Text Classification for Efficient Inference with One Forward Pass.  (from Jiawei Han)3. A Survey on Neural Open Information Extraction: Current Status and Future Directions.  (from Jian Sun)4. How Human is Human Evaluation? Improving the Gold Standard for NLG with Utility Theory.  (from Dan Jurafsky)5. Translating Hanja historical documents to understandable Korean and English.  (from Kyunghyun Cho)6. DKG: A Descriptive Knowledge Graph for Explaining Relationships between Entities.  (from Kevin Chen-Chuan Chang, Wen-mei Hwu)7. Seeded Hierarchical Clustering for Expert-Crafted Taxonomies.  (from Kathleen McKeown)8. Penguins Don't Fly: Reasoning about Generics through Instantiations and Exceptions.  (from Kathleen McKeown)9. Self-Supervised Speech Representation Learning: A Review.  (from Abdelrahman Mohamed, Tara N. Sainath)10. Unsupervised Learning of Hierarchical Conversation Structure.  (from Noah A. Smith, Mari Ostendorf)


本周 10 篇 CV 精选论文是:


1. Deep Learning for Visual Speech Analysis: A Survey.  (from Matti Pietikäinen, Li Liu)2. GL-RG: Global-Local Representation Granularity for Video Captioning.  (from Xiangyu Zhang)3. Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners.  (from Derek Hoiem, Shih-Fu Chang)4. Towards Better Understanding Attribution Methods.  (from Bernt Schiele)5. B-cos Networks: Alignment is All We Need for Interpretability.  (from Bernt Schiele)6. VPAIR -- Aerial Visual Place Recognition and Localization in Large-scale Outdoor Environments.  (from Daniel Cremers)7. Knowledge Distillation via the Target-aware Transformer.  (from Gang Wang)8. Transformer-based out-of-distribution detection for clinically safe segmentation.  (from Sebastien Ourselin)9. Visual Concepts Tokenization.  (from Nanning Zheng)10. A Peek at Peak Emotion Recognition.  (from Shmuel Peleg)

相关文章
|
3月前
|
传感器 监控 安全
植保机器人,尤其是无人机喷雾系统
植保机器人,尤其是无人机喷雾系统
23 1
|
10月前
|
算法 机器人
多无人机空中机器人施工任务分配(Matlab代码实现)
多无人机空中机器人施工任务分配(Matlab代码实现)
|
12月前
|
机器学习/深度学习 存储 数据采集
7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AI
7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AI
245 0
|
12月前
|
机器学习/深度学习 存储 人工智能
7 Papers & Radios | 无人机3D打印登Nature封面;哈工大用微波驱控机器人
7 Papers & Radios | 无人机3D打印登Nature封面;哈工大用微波驱控机器人
100 0
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 机器人顶会RSS最佳论文;谷歌用语言模型解数学题(2)
7 Papers & Radios | 机器人顶会RSS最佳论文;谷歌用语言模型解数学题
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 机器人顶会RSS最佳论文;谷歌用语言模型解数学题(1)
7 Papers & Radios | 机器人顶会RSS最佳论文;谷歌用语言模型解数学题
|
12月前
|
机器学习/深度学习 敏捷开发 人工智能
7 Papers & Radios | 牛津大学在机器人骨架上培养细胞;加州理工扛住强风的无人机(1)
7 Papers & Radios | 牛津大学在机器人骨架上培养细胞;加州理工扛住强风的无人机
|
存储 监控 算法
2022赛季RoboMaster 空中机器人六轴无人机云台程序框架开源
2022赛季RoboMaster 空中机器人六轴无人机云台程序框架开源
352 0
|
传感器 人工智能 算法
无人机都能买菜了,为什么还有这么多研究组,执着地要让人形机器人飞起来?
无人机都能买菜了,为什么还有这么多研究组,执着地要让人形机器人飞起来?
164 0
无人机都能买菜了,为什么还有这么多研究组,执着地要让人形机器人飞起来?
|
3月前
|
传感器 人工智能 监控
智能耕耘机器人
智能耕耘机器人
45 3

热门文章

最新文章