每日学术速递4.3

简介: 最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CL


1.A Survey of Large Language Models


标题:大型语言模型综述

作者:Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang,etc

文章链接:https://arxiv.org/abs/2303.18223

2b791f60cd9b311ecb06d8b667c4e4df.png

fe12ba40a05e0078e1f756a19ad5e862.png

84a75edb1f3181437701b488725e4ffe.png

a77462cb49af405cc6e010b02bd5793e.png

摘要:

       语言本质上是一个复杂、错综复杂的人类表达系统,受语法规则支配。开发用于理解和掌握语言的有能力的 AI 算法是一项重大挑战。作为一种主要方法,语言建模在过去二十年中被广泛研究用于语言理解和生成,从统计语言模型发展到神经语言模型。最近,通过在大规模语料库上预训练 Transformer 模型提出了预训练语言模型 (PLM),在解决各种 NLP 任务方面表现出强大的能力。由于研究人员发现模型缩放可以带来性能提升,因此他们通过将模型尺寸增加到更大的尺寸来进一步研究缩放效果。有趣的是,当参数规模超过一定水平时,这些扩大的语言模型不仅实现了显着的性能提升,而且还表现出一些小规模语言模型所不具备的特殊能力。为了区分参数规模的差异,研究界为具有显着规模的 PLM 创造了术语大型语言模型 (LLM)。近年来,LLMs的研究得到了学术界和产业界的大力推进,其中一个引人注目的进展是ChatGPT的推出,引起了社会的广泛关注。LLM 的技术发展对整个 AI 社区产生了重要影响,这将彻底改变我们开发和使用 AI 算法的方式。在本次调查中,我们通过介绍背景、主要发现和主流技术来回顾 LLM 的最新进展。特别是,我们关注 LLM 的四个主要方面,即预训练、自适应调优、利用和能力评估。 此外,我们还总结了开发 LLM 的可用资源,并讨论了未来方向的剩余问题。

Subjects: cs.CV


2.3D-aware Image Generation using 2D Diffusion Models

0ec3f9ef83893c0242faf1864802f26c.png

标题:使用 2D 扩散模型生成 3D 感知图像

作者:Jianfeng Xiang, Jiaolong Yang, Binbin Huang, Xin Tong

文章链接:https://arxiv.org/abs/2303.17905

项目代码:https://jeffreyxiang.github.io/ivid/

83ad77141a8472933a880b5cd413d010.png

9b280fb2aa3d1fc1e24550020de4745c.png

a61203803546799ba9d1251fb716af0a.png

摘要:

       在本文中,我们介绍了一种利用 2D 扩散模型的新型 3D 感知图像生成方法。我们将 3D 感知图像生成任务制定为多视图 2D 图像集生成,并进一步制定为顺序无条件-条件多视图图像生成过程。这使我们能够利用 2D 扩散模型来提高该方法的生成建模能力。此外,我们结合来自单眼深度估计器的深度信息来构建仅使用静止图像的条件扩散模型的训练数据。我们在大规模数据集上训练我们的方法,即 ImageNet,这是以前的方法没有解决的。它产生的高质量图像明显优于以前的方法。此外,我们的方法展示了其生成具有大视角实例的能力,即使训练图像是多样且未对齐的,从“野外”现实世界环境中收集。

3.GlyphDraw: Learning to Draw Chinese Characters in Image Synthesis Models Coherently

fd54da012f4852c1dc1a6b26552a7974.png

标题:GlyphDraw:学习连贯地在图像合成模型中绘制汉字

作者:Jian Ma, Mingjun Zhao, Chen Chen, Ruichen Wang, Di Niu, Haonan Lu, Xiaodong Lin

文章链接:https://arxiv.org/abs/2302.01791v1

项目代码:https://1073521013.github.io/glyph-draw.github.io/

7ee6f43b82872a30387e2087a9086d57.png

7828ddeef8014369db96b70a2c023e4a.png

5a67e2c564779f77b12f493032c2dcbd.png

1db6cd93a5fb5411c1f9cfe906f3fb4d.png

摘要:

       最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。% 我们首先采用OCR技术采集带有汉字的图片作为训练样本,提取文字和位置作为辅助信息。我们首先精心设计图像-文本数据集的构建策略,然后专门在基于扩散的图像生成器上构建我们的模型,并仔细修改网络结构,使模型能够借助字形和位置信息学习绘制汉字。此外,我们通过使用各种训练技术防止灾难性遗忘来保持模型的开放域图像合成能力。大量的定性和定量实验表明,我们的方法不仅可以像提示中那样生成准确的汉字,而且可以自然地将生成的文本融入背景中。请参考这个 https 网址

目录
相关文章
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
110 0
每日学术速递3.27
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
149 0
每日学术速递3.20
|
机器学习/深度学习 自然语言处理 数据挖掘
每日学术速递3.2
基于点击的交互式分割(IS)旨在提取用户交互下的目标对象。对于这项任务,当前大多数基于深度学习 (DL) 的方法主要遵循语义分割的一般流程。尽管取得了令人鼓舞的性能,但它们并没有完全明确地利用和传播点击信息,不可避免地导致不令人满意的分割结果,即使在点击点也是如此。
101 0
|
机器学习/深度学习 运维 自然语言处理
每日学术速递3.3
评估面部图像的质量对于以足够的准确性操作面部识别系统至关重要。人脸质量标准化的最新进展 (ISO/IEC WD 29794-5) 建议使用组件质量测量方法将人脸质量分解为各个因素,从而为操作员重新捕获低质量图像提供有价值的反馈。
108 0
|
传感器 机器学习/深度学习 自然语言处理
每日学术速递2.22
时空数据挖掘在空气质量监测、人群流动建模和气候预测中发挥着重要作用。然而,由于传感器故障或传输丢失,现实场景中最初收集的时空数据通常是不完整的。时空插补旨在根据观测值及其潜在的时空依赖性来填充缺失值。
112 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.6
大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务
100 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.11
网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。
128 0
|
机器学习/深度学习 存储 人工智能
每日学术速递4.12
我们提出了 LLMA,这是一种 LLM 加速器,可以无损地加速带有引用的大型语言模型 (LLM) 推理。LLMA 的动机是观察到在 LLM 的解码结果和许多现实世界场景(例如,检索到的文档)中可用的参考之间存在大量相同的文本跨度。LLMA 首先从参考中选择一个文本跨度并将其标记复制到解码器
123 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.20
建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互
97 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递2.16
半监督目标检测 (SSOD) 已成功提高 R-CNN 系列和无锚检测器的性能。然而,one-stage anchor-based detectors 缺乏生成高质量或灵活伪标签的结构,导致 SSOD 中存在严重的不一致问题,例如 YOLOv5。在本文中,我们提出了高效教师框架,用于可扩展且有效的基于锚点的单阶段 SSOD 训练,由密集检测器、伪标签分配器和时代适配器组成
143 0