看张手绘草图就能合成图形程序,加州伯克利让扩散模型掌握新技能

简介: 【7月更文挑战第12天】加州伯克利研究团队利用神经扩散模型创新程序合成,通过在语法树上反向消除“噪声”实现迭代编辑,改善了传统LLMs自回归生成的局限性。这种方法能看手绘草图生成图形程序,结合搜索进行调试,适用于逆图形任务,性能优越,但目前仅支持有限的程序结构。[[arxiv:2405.20519](https://arxiv.org/pdf/2405.20519)]

最近,加州大学伯克利分校的研究人员提出了一种基于神经扩散模型的新型方法,用于程序合成。该方法通过在任何上下文无关文法的语法树上进行扩散操作,为程序合成领域带来了新的突破。

在传统的程序合成中,大型语言模型(LLMs)通常一次生成一个代码令牌。然而,这种自回归生成过程缺乏对程序输出的反馈,导致模型在生成代码时无法根据输出进行调整。此外,直接训练LLMs来提出编辑建议也面临着丰富的编辑数据稀缺的挑战。

为了解决这些问题,研究人员提出了一种基于神经扩散模型的方法,该方法直接在语法树上进行操作。类似于图像扩散模型,该方法通过反转应用于语法树的"噪声"来实现。与逐个生成代码令牌不同,该方法通过迭代编辑代码来保持语法有效性,这使得它很容易与搜索结合使用。

该方法被应用于逆图形任务,其中模型学习将图像转换为生成这些图像的程序。通过与搜索结合使用,该模型能够编写图形程序,查看执行结果,并调试它们以满足所需的规范。研究人员还展示了他们的系统如何为手绘草图编写图形程序。

该研究的主要贡献包括:

  1. 提出了一种基于在语法树上进行扩散的新颖程序合成方法。
  2. 实现了一种基于逆图形任务的方法,该方法在性能上显著优于先前的方法。

该研究的新颖之处在于,它将扩散模型的成功经验从图像生成领域扩展到了程序合成领域。通过利用扩散模型,该方法使模型能够学习迭代细化程序,同时确保语法有效性。此外,该方法还允许模型在每个步骤中观察程序的输出,从而有效地启用了调试过程。

然而,该方法也存在一些限制。首先,它目前仅适用于没有变量绑定、循环、字符串、连续参数等的表达式。虽然研究人员认为该方法可以扩展到支持这些功能,但需要更多的工作和仔细的设计。其次,与当前的大型语言模型相比,该方法在许多领域中生成复杂程序的能力有限。

论文地址:https://arxiv.org/pdf/2405.20519

目录
相关文章
|
10月前
|
人工智能 计算机视觉
CVPR 2024:跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式
【5月更文挑战第6天】南洋理工大学研究团队在CVPR 2024会议上提出SurMo,一种动态人体渲染新方法,能高度还原视频中的人物动作和细节,如飞扬的裙摆。SurMo通过4D运动建模,结合表面运动编码、物理运动解码和4D外观解码,实现动态图像的精确合成。尽管面临复杂动作捕捉和计算资源需求的挑战,SurMo在动态人体渲染任务上表现出色,展现了表面基运动三角平面的强大表达能力。[论文链接](https://arxiv.org/pdf/2404.01225.pdf)
190 1
|
10月前
|
人工智能 搜索推荐 vr&ar
多模态大模型塑造“多边形战士”应用
【1月更文挑战第4天】多模态大模型塑造“多边形战士”应用
112 2
多模态大模型塑造“多边形战士”应用
|
人工智能 编解码 移动开发
NeRF基于线稿生成逼真三维人脸,细节风格随意改,论文已上SIGGRAPH
NeRF基于线稿生成逼真三维人脸,细节风格随意改,论文已上SIGGRAPH
486 0
|
机器学习/深度学习 编解码 vr&ar
一键生成山川、河流,风格多样,从2D图像中学习生成无限3D场景
一键生成山川、河流,风格多样,从2D图像中学习生成无限3D场景
197 0
|
机器学习/深度学习 人工智能 计算机视觉
华南理工TANGO项目原作解读: 文本驱动的三维物体风格化模型
华南理工TANGO项目原作解读: 文本驱动的三维物体风格化模型
208 0
|
机器学习/深度学习 编解码 vr&ar
DALL-E、「女娲」刷屏背后,多模态图像合成与编辑领域进展如何?
DALL-E、「女娲」刷屏背后,多模态图像合成与编辑领域进展如何?
190 0
|
机器学习/深度学习 编解码 人工智能
首篇BEV感知生成工作!BEVGen:从鸟瞰图布局生成环视街景图像
本文提出了BEVGen,这是一个条件生成式模型,它合成了一组真实且空间一致的环视图像,这些图像与交通场景的BEV布局相匹配。BEVGen结合了一种新颖的交叉视图转换和空间注意力设计,学习相机和地图视图之间的关系,以确保它们的一致性。BEVGen可以精确地渲染道路和车道线,以及在不同的天气条件和时间生成交通场景。
首篇BEV感知生成工作!BEVGen:从鸟瞰图布局生成环视街景图像
|
机器学习/深度学习 编解码 人工智能
首篇!无相机参数BEV感知!(北航、地平线)
CFT在nuScenes检测任务排行榜上实现了49.7%的NDS,与其他几何引导方法相比,这是第一个去除相机参数的工作。在没有时间输入和其他模态信息的情况下,CFT以较小的图像输入(1600×640)实现了第二高的性能。由于view-attention的变体,CFT将普通注意力的内存和transformer FLOPs分别减少了约12%和60%,NDS提高了1.0%。此外,它对噪声相机参数的天然鲁棒性使CFT更具竞争力!!
首篇!无相机参数BEV感知!(北航、地平线)
|
图形学
3D游戏建模必备技巧一人物模型贴图布线!(99%小白收藏)
今天跟大家好好聊一聊怎么贴图、布线。 首先, 你得看看你自己在做的人物模型 是游戏人物角色还是影视人物角色, 虽然都是人物模型, 但两者在贴图、 布线的方法上还是有一些差别的。
340 0
3D游戏建模必备技巧一人物模型贴图布线!(99%小白收藏)