每日学术速递4.3

简介: 最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CL


1.A Survey of Large Language Models


标题:大型语言模型综述

作者:Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang,etc

文章链接:https://arxiv.org/abs/2303.18223

2b791f60cd9b311ecb06d8b667c4e4df.png

fe12ba40a05e0078e1f756a19ad5e862.png

84a75edb1f3181437701b488725e4ffe.png

a77462cb49af405cc6e010b02bd5793e.png

摘要:

       语言本质上是一个复杂、错综复杂的人类表达系统,受语法规则支配。开发用于理解和掌握语言的有能力的 AI 算法是一项重大挑战。作为一种主要方法,语言建模在过去二十年中被广泛研究用于语言理解和生成,从统计语言模型发展到神经语言模型。最近,通过在大规模语料库上预训练 Transformer 模型提出了预训练语言模型 (PLM),在解决各种 NLP 任务方面表现出强大的能力。由于研究人员发现模型缩放可以带来性能提升,因此他们通过将模型尺寸增加到更大的尺寸来进一步研究缩放效果。有趣的是,当参数规模超过一定水平时,这些扩大的语言模型不仅实现了显着的性能提升,而且还表现出一些小规模语言模型所不具备的特殊能力。为了区分参数规模的差异,研究界为具有显着规模的 PLM 创造了术语大型语言模型 (LLM)。近年来,LLMs的研究得到了学术界和产业界的大力推进,其中一个引人注目的进展是ChatGPT的推出,引起了社会的广泛关注。LLM 的技术发展对整个 AI 社区产生了重要影响,这将彻底改变我们开发和使用 AI 算法的方式。在本次调查中,我们通过介绍背景、主要发现和主流技术来回顾 LLM 的最新进展。特别是,我们关注 LLM 的四个主要方面,即预训练、自适应调优、利用和能力评估。 此外,我们还总结了开发 LLM 的可用资源,并讨论了未来方向的剩余问题。

Subjects: cs.CV


2.3D-aware Image Generation using 2D Diffusion Models

0ec3f9ef83893c0242faf1864802f26c.png

标题:使用 2D 扩散模型生成 3D 感知图像

作者:Jianfeng Xiang, Jiaolong Yang, Binbin Huang, Xin Tong

文章链接:https://arxiv.org/abs/2303.17905

项目代码:https://jeffreyxiang.github.io/ivid/

83ad77141a8472933a880b5cd413d010.png

9b280fb2aa3d1fc1e24550020de4745c.png

a61203803546799ba9d1251fb716af0a.png

摘要:

       在本文中,我们介绍了一种利用 2D 扩散模型的新型 3D 感知图像生成方法。我们将 3D 感知图像生成任务制定为多视图 2D 图像集生成,并进一步制定为顺序无条件-条件多视图图像生成过程。这使我们能够利用 2D 扩散模型来提高该方法的生成建模能力。此外,我们结合来自单眼深度估计器的深度信息来构建仅使用静止图像的条件扩散模型的训练数据。我们在大规模数据集上训练我们的方法,即 ImageNet,这是以前的方法没有解决的。它产生的高质量图像明显优于以前的方法。此外,我们的方法展示了其生成具有大视角实例的能力,即使训练图像是多样且未对齐的,从“野外”现实世界环境中收集。

3.GlyphDraw: Learning to Draw Chinese Characters in Image Synthesis Models Coherently

fd54da012f4852c1dc1a6b26552a7974.png

标题:GlyphDraw:学习连贯地在图像合成模型中绘制汉字

作者:Jian Ma, Mingjun Zhao, Chen Chen, Ruichen Wang, Di Niu, Haonan Lu, Xiaodong Lin

文章链接:https://arxiv.org/abs/2302.01791v1

项目代码:https://1073521013.github.io/glyph-draw.github.io/

7ee6f43b82872a30387e2087a9086d57.png

7828ddeef8014369db96b70a2c023e4a.png

5a67e2c564779f77b12f493032c2dcbd.png

1db6cd93a5fb5411c1f9cfe906f3fb4d.png

摘要:

       最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。% 我们首先采用OCR技术采集带有汉字的图片作为训练样本,提取文字和位置作为辅助信息。我们首先精心设计图像-文本数据集的构建策略,然后专门在基于扩散的图像生成器上构建我们的模型,并仔细修改网络结构,使模型能够借助字形和位置信息学习绘制汉字。此外,我们通过使用各种训练技术防止灾难性遗忘来保持模型的开放域图像合成能力。大量的定性和定量实验表明,我们的方法不仅可以像提示中那样生成准确的汉字,而且可以自然地将生成的文本融入背景中。请参考这个 https 网址

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.21
大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。
181 0
|
机器人
每日学术速递4.27
我们研究如何使用 Transformers 构建和训练用于机器人决策的空间表示。特别是,对于在各种环境中运行的机器人,我们必须能够快速训练或微调机器人感觉运动策略,这些策略对杂波具有鲁棒性、数据效率高,并且可以很好地泛化到不同的环境。
140 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
175 0
|
机器学习/深度学习 自然语言处理 数据挖掘
每日学术速递3.2
基于点击的交互式分割(IS)旨在提取用户交互下的目标对象。对于这项任务,当前大多数基于深度学习 (DL) 的方法主要遵循语义分割的一般流程。尽管取得了令人鼓舞的性能,但它们并没有完全明确地利用和传播点击信息,不可避免地导致不令人满意的分割结果,即使在点击点也是如此。
124 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.18
我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。
237 0
|
机器学习/深度学习 机器人
每日学术速递2.23
本文探讨了动态系统中的离散形态对称性,这是生物学和机器人系统的主要特征。当系统的形态具有一个或多个对称平面时,它表现出形态对称性,描述了身体部位的重复和平衡分布。这些形态对称性意味着系统的动力学是对称的(或近似对称的),这进而在最优控制策略和所有与系统动态演化相关的本体感知和外感知测量中印记了对称性。
88 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.7
我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。
143 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.10
由于对各种可能的自然语言问题进行概括的挑战,基于知识库的问答被认为是一个难题。此外,不同知识库之间知识库模式项的异质性通常需要对不同知识库问答 (KBQA) 数据集进行专门培训。为了使用统一的免训练框架处理各种 KBQA 数据集的问题,我们提出了 KB-BINDER,它首次实现了对 KBQA 任务的少样本上下文学习
254 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.6
大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务
132 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.13
现有的视频系统识别方法(估计物体的物理参数)假设已知物体的几何形状。这排除了它们在对象几何形状复杂或未知的绝大多数场景中的适用性。在这项工作中,我们的目标是从一组多视图视频中识别表征物理系统的参数,而无需对对象几何或拓扑进行任何假设。为此,我们提出了“物理增强连续体神经辐射场”(PAC-NeRF)
205 0