每日学术速递4.3

简介: 最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CL


1.A Survey of Large Language Models


标题:大型语言模型综述

作者:Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang,etc

文章链接:https://arxiv.org/abs/2303.18223

2b791f60cd9b311ecb06d8b667c4e4df.png

fe12ba40a05e0078e1f756a19ad5e862.png

84a75edb1f3181437701b488725e4ffe.png

a77462cb49af405cc6e010b02bd5793e.png

摘要:

       语言本质上是一个复杂、错综复杂的人类表达系统,受语法规则支配。开发用于理解和掌握语言的有能力的 AI 算法是一项重大挑战。作为一种主要方法,语言建模在过去二十年中被广泛研究用于语言理解和生成,从统计语言模型发展到神经语言模型。最近,通过在大规模语料库上预训练 Transformer 模型提出了预训练语言模型 (PLM),在解决各种 NLP 任务方面表现出强大的能力。由于研究人员发现模型缩放可以带来性能提升,因此他们通过将模型尺寸增加到更大的尺寸来进一步研究缩放效果。有趣的是,当参数规模超过一定水平时,这些扩大的语言模型不仅实现了显着的性能提升,而且还表现出一些小规模语言模型所不具备的特殊能力。为了区分参数规模的差异,研究界为具有显着规模的 PLM 创造了术语大型语言模型 (LLM)。近年来,LLMs的研究得到了学术界和产业界的大力推进,其中一个引人注目的进展是ChatGPT的推出,引起了社会的广泛关注。LLM 的技术发展对整个 AI 社区产生了重要影响,这将彻底改变我们开发和使用 AI 算法的方式。在本次调查中,我们通过介绍背景、主要发现和主流技术来回顾 LLM 的最新进展。特别是,我们关注 LLM 的四个主要方面,即预训练、自适应调优、利用和能力评估。 此外,我们还总结了开发 LLM 的可用资源,并讨论了未来方向的剩余问题。

Subjects: cs.CV


2.3D-aware Image Generation using 2D Diffusion Models

0ec3f9ef83893c0242faf1864802f26c.png

标题:使用 2D 扩散模型生成 3D 感知图像

作者:Jianfeng Xiang, Jiaolong Yang, Binbin Huang, Xin Tong

文章链接:https://arxiv.org/abs/2303.17905

项目代码:https://jeffreyxiang.github.io/ivid/

83ad77141a8472933a880b5cd413d010.png

9b280fb2aa3d1fc1e24550020de4745c.png

a61203803546799ba9d1251fb716af0a.png

摘要:

       在本文中,我们介绍了一种利用 2D 扩散模型的新型 3D 感知图像生成方法。我们将 3D 感知图像生成任务制定为多视图 2D 图像集生成,并进一步制定为顺序无条件-条件多视图图像生成过程。这使我们能够利用 2D 扩散模型来提高该方法的生成建模能力。此外,我们结合来自单眼深度估计器的深度信息来构建仅使用静止图像的条件扩散模型的训练数据。我们在大规模数据集上训练我们的方法,即 ImageNet,这是以前的方法没有解决的。它产生的高质量图像明显优于以前的方法。此外,我们的方法展示了其生成具有大视角实例的能力,即使训练图像是多样且未对齐的,从“野外”现实世界环境中收集。

3.GlyphDraw: Learning to Draw Chinese Characters in Image Synthesis Models Coherently

fd54da012f4852c1dc1a6b26552a7974.png

标题:GlyphDraw:学习连贯地在图像合成模型中绘制汉字

作者:Jian Ma, Mingjun Zhao, Chen Chen, Ruichen Wang, Di Niu, Haonan Lu, Xiaodong Lin

文章链接:https://arxiv.org/abs/2302.01791v1

项目代码:https://1073521013.github.io/glyph-draw.github.io/

7ee6f43b82872a30387e2087a9086d57.png

7828ddeef8014369db96b70a2c023e4a.png

5a67e2c564779f77b12f493032c2dcbd.png

1db6cd93a5fb5411c1f9cfe906f3fb4d.png

摘要:

       最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。% 我们首先采用OCR技术采集带有汉字的图片作为训练样本,提取文字和位置作为辅助信息。我们首先精心设计图像-文本数据集的构建策略,然后专门在基于扩散的图像生成器上构建我们的模型,并仔细修改网络结构,使模型能够借助字形和位置信息学习绘制汉字。此外,我们通过使用各种训练技术防止灾难性遗忘来保持模型的开放域图像合成能力。大量的定性和定量实验表明,我们的方法不仅可以像提示中那样生成准确的汉字,而且可以自然地将生成的文本融入背景中。请参考这个 https 网址

目录
相关文章
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
123 0
每日学术速递3.27
|
机器人
每日学术速递4.27
我们研究如何使用 Transformers 构建和训练用于机器人决策的空间表示。特别是,对于在各种环境中运行的机器人,我们必须能够快速训练或微调机器人感觉运动策略,这些策略对杂波具有鲁棒性、数据效率高,并且可以很好地泛化到不同的环境。
118 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递5.1
大型语言模型 (LLM) 在各种开放式任务中展示了令人印象深刻的零样本能力,而最近的研究还探索了使用 LLM 进行多模态生成。
141 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.24
自然界充满了复杂的系统,其特征是其组成部分之间存在错综复杂的关系:从社交网络中个体之间的社交互动到蛋白质中原子之间的静电相互作用。拓扑深度学习 (TDL) 提供了一个综合框架来处理与这些系统相关的数据并从中提取知识,例如预测个人所属的社会社区或预测蛋白质是否可以成为药物开发的合理目标。
116 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递2.16
半监督目标检测 (SSOD) 已成功提高 R-CNN 系列和无锚检测器的性能。然而,one-stage anchor-based detectors 缺乏生成高质量或灵活伪标签的结构,导致 SSOD 中存在严重的不一致问题,例如 YOLOv5。在本文中,我们提出了高效教师框架,用于可扩展且有效的基于锚点的单阶段 SSOD 训练,由密集检测器、伪标签分配器和时代适配器组成
154 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.24
在本技术报告中,我们介绍了百度 KDD 杯 2022 空间动态风电功率预测挑战赛的解决方案。风能是一种快速增长的清洁能源。准确的风电功率预测对于电网稳定和供应安全至关重要。为此,主办方提供了包含134台风电机组历史数据的风电数据集,并发起百度KDD Cup 2022,以检验当前风电预测方法的局限性。
177 0
|
自然语言处理 计算机视觉
每日学术速递3.6
本文描述了一种使用与目标数据集不一定相关的多个源数据集进行语义分割的域自适应训练方法。我们通过整合来自多个源模型的预测对象概率,提出了一种软伪标签生成方法。每个源模型的预测基于源数据集和目标数据集之间的估计域相似性进行加权,以强调在与目标更相似的源上训练的模型的贡献,并生成合理的伪标签。
116 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.15
数据驱动是深度学习算法最具标志性的特性之一。ImageNet 的诞生推动了计算机视觉“从大规模数据中学习”的显着趋势。在 ImageNet 上进行预训练以获得丰富的通用表征已被证明有利于各种 2D 视觉任务,并成为 2D 视觉的标准。
158 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递4.28
神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用
189 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.1
本文介绍了一种名为 F²-NeRF (Fast-Free-NeRF) 的新型基于网格的 NeRF,用于新型视图合成,它支持任意输入摄像机轨迹,并且只需几分钟的训练时间。现有的基于网格的快速 NeRF 训练框架,如 Instant-NGP、Plenoxels、DVGO 或 TensoRF,主要针对有界场景设计,并依靠空间扭曲来处理无界场景。现有的两种广泛使用的空间扭曲方法仅针对前向轨迹或 360 度以对象为中心的轨迹而设计,无法处理任意轨迹。
152 0

热门文章

最新文章