7 Papers & Radios | 谷歌推出DreamBooth扩散模型;张益唐零点猜想论文出炉

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 7 Papers & Radios | 谷歌推出DreamBooth扩散模型;张益唐零点猜想论文出炉

本周论文包括:谷歌提出 DreamBooth 扩散模型,只需 3-5 个样本和一句提示,AI 就能生成高质量图像;AI 自动生成 prompt 媲美人类等研究。


目录:


  1. DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
  2. Discrete mean estimates and the Landau-Siegel zero
  3. LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS
  4. InfiniteNature-Zero Learning Perpetual View Generation of Natural Scenes from Single Images
  5. Scaling & Shifting Your Features: A New Baseline for Efficient Model Tuning
  6. NeRFFaceEditing: Disentangled Face Editing in Neural Radiance Fields
  7. RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation



摘要:来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。


该研究的目标是扩展模型的语言 - 视觉字典,使其将新词汇与用户想要生成的特定主题绑定。一旦新字典嵌入到模型中,它就可以使用这些词来合成特定主题的新颖逼真的图像,同时在不同的场景中进行情境化,保留关键识别特征,效果如下图 1 所示。



具体来说,该研究将给定主题的图像植入模型的输出域,以便可以使用唯一标识符对其进行合成。为此,该研究提出了一种用稀有 token 标识符表示给定主题的方法,并微调了一个预训练的、基于扩散的文本到图像框架,该框架分两步运行;从文本生成低分辨率图像,然后应用超分辨率(SR)扩散模型。


本文方法将一个主题(例如,一只特定的狗)和相应类名(例如,狗类别)的一些图像(通常 3 - 5 张图)作为输入,并返回一个经过微调 / 个性化的文本到图像模型,该模型编码了一个引用主题的唯一标识符。然后,在推理时,可以在不同的句子中植入唯一标识符来合成不同语境中的主题。



推荐:只需 3 个样本一句话,AI 就能定制照片级图像,谷歌在玩一种很新的扩散模型


论文 2:Discrete mean estimates and the Landau-Siegel zero



摘要:数学家张益唐研究朗道 - 西格尔(Landau-Siegel)零点猜想论文已放出。本文主要贡献如下:首先是 L 函数在 1 点处的下界估计:



相应的有关于实轴上非零区域的直接推论:



推荐:111 页,张益唐关于朗道 - 西格尔零点猜想的论文公布。


论文 3:LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS



摘要:来自多伦多大学、滑铁卢大学等机构的研究者提出了一种使用 LLM(大型语言模型)自动生成和选择指令的新算法。他们将此问题描述为自然语言程序合成,并建议将其作为黑盒优化问题来处理,LLM 可以用来生成以及搜索可行的候选解决方案。


研究者从三个方面入手。首先,使用 LLM 作为推理模型,根据输入 - 输出对形式的一小组演示生成指令候选。接下来,通过 LLM 下的每条指令计算一个分数来指导搜索过程。最后,他们提出一种迭代蒙特卡洛搜索方法,LLM 通过提出语义相似指令变体来改进最佳候选指令。


直观地说,本文提出的算法要求 LLM 根据演示生成一组指令候选,然后要求算法评估哪些指令更有希望,并将该算法命名为 APE(Automatic Prompt Engineer)。


APE 在建议(proposal)和评分这两个关键组件中都使用 LLM。如图 2 和算法 1 所示,APE 首先提出几个候选提示,然后根据选定的评分函数对候选集合进行筛选 / 精炼,最终选择得分最高的指令。




推荐:AI 自动生成 prompt 媲美人类。


论文 4:InfiniteNature-Zero Learning Perpetual View Generation of Natural Scenes from Single Images



摘要:为了构建沉浸式的虚拟现实体现,近几年人们开始思考计算机如何合成细节丰富的三维视觉体验。来自谷歌的研究团队近日做了一项名为「Infinite Nature」的研究工作,该研究表明计算机可以通过观看自然视频和照片来学习生成丰富的 3D 视觉体验。新模型 InfiniteNature-Zero 甚至可以仅在静态照片上训练,以单张图像作为「种子」,生成高分辨率、高质量的景观视频,这是前所未有的突破性能力。


谷歌将主要研究问题称为「永久型视图生成(perpetual view generation)」,即给定场景的单个输入视图,按照给定的相机路径,合成照片级真实的输出视图集。这一任务非常具有挑战性,因为系统必须为输入图像上的大型地标(例如山脉)的另一侧生成新内容,并以高逼真度和高分辨率渲染新内容。


下图是使用 InfiniteNature-Zero 生成的飞行效果示例:仅输入单个自然场景图像,模型运行时就能生成「飞入」该场景的新内容,体验非常真实。



推荐:仅用一张自然景观图片就能生成该场景的高质量 3D 「航拍」视频。


论文 5:Scaling & Shifting Your Features: A New Baseline for Efficient Model Tuning



摘要:近期,由新加坡国立大学和字节跳动联合发表的论文入选 NeurIPS 2022。该论文提出了一个全新的、针对大模型训练的参数高效微调方法 SSF(Scaling & Shifting Your Features),可简洁、高效、零开销实现参数微调。


通过在 26 个分类数据集和 3 个鲁棒性数据集上评估 SSF 方法,结果显示:与其他参数高效的微调方法相比,SSF 获得了最先进的性能。


与完全微调相比,SSF 方法在 FGVC 和 VTAB-1k 上获得了 2.46%(90.72% {vs. 88.54%)和 11.48%(73.10% vs. 65.57%)的 Top-1 精度性能改进,但只需要大约 0.3M 的可训参数。此外,SSF 在推理阶段不需要额外的参数,可以即插即用,很容易扩展到各种模型系列(CNN、Transformer 以及 MLP 网络)。


SSF 的总体框架:



推荐:全新大模型参数高效微调方法 SSF:仅需训练 0.3M 的参数,效果卓越。

相关文章
|
5月前
|
数据采集 人工智能 算法
ICLR 2024 Spotlight:单模型斩获蛋白质突变预测榜一!西湖大学提出基于结构词表方法
【6月更文挑战第1天】西湖大学团队研发的蛋白质语言模型SaProt,在结构词表方法下,于蛋白质突变预测任务中荣登榜首。SaProt利用Foldseek编码的结构标记理解蛋白质行为,超越现有基准模型,在10个下游任务中表现出色。尽管训练资源需求大,且有特定任务优化空间,但该模型为生物医学研究带来新工具,促进科学理解与合作。论文链接:[https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4](https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4)
190 7
|
机器学习/深度学习 自然语言处理 数据可视化
CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务(2)
CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务
133 0
|
机器学习/深度学习 自然语言处理 搜索推荐
7 Papers & Radios | 谷歌推出DreamBooth扩散模型;张益唐零点猜想论文出炉(2)
7 Papers & Radios | 谷歌推出DreamBooth扩散模型;张益唐零点猜想论文出炉
248 0
|
人工智能 编解码 自然语言处理
7 Papers & Radios | 爆火论文打造《西部世界》雏形;OpenAI终结扩散模型
7 Papers & Radios | 爆火论文打造《西部世界》雏形;OpenAI终结扩散模型
138 0
|
机器学习/深度学习 传感器 编解码
7 Papers & Radios | 21℃室温超导引爆物理圈;微软发布视觉ChatGPT
7 Papers & Radios | 21℃室温超导引爆物理圈;微软发布视觉ChatGPT
|
机器学习/深度学习 人工智能 编解码
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频(1)
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频
132 0
|
机器学习/深度学习 自然语言处理 网络架构
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频(2)
7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年;扩散模型生成视频
167 0
|
自然语言处理 计算机视觉
CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务(1)
CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务
|
机器学习/深度学习 自然语言处理 并行计算
7 Papers & Radios | MIT爆出苹果M1芯片重大漏洞;斯坦福CS博士新作:BERT单节点训练最快(2)
7 Papers & Radios | MIT爆出苹果M1芯片重大漏洞;斯坦福CS博士新作:BERT单节点训练最快
205 0
|
机器学习/深度学习 人工智能 编解码
7 Papers & Radios | DeepMind强化学习控制核聚变登Nature;华为诺亚方舟实验室开源中文多模态数据集
7 Papers & Radios | DeepMind强化学习控制核聚变登Nature;华为诺亚方舟实验室开源中文多模态数据集
119 0

热门文章

最新文章