7 Papers & Radios | 首个用于工业开发的自动代码生成系统;多模态图像合成与编辑综述

简介: 7 Papers & Radios | 首个用于工业开发的自动代码生成系统;多模态图像合成与编辑综述

本周主要论文包括首个用于工业开发的自动代码生成系统,精巧高效还入选了顶会;英伟达 & 斯坦福做出了超轻薄 VR 眼镜。


目录

Incorporating Domain Knowledge through Task Augmentation for Front-End JavaScript Code Generation

Ferroelectric/paraelectric superlattices for energy storage

Oscillations of Drops with Mobile Contact Lines on the International Space Station: Elucidation of Terrestrial Inertial Droplet Spreading

Holographic Glasses for Virtual Reality

Panoptic Scene Graph Generation

Multimodal Image Synthesis and Editing: A Survey

Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?

ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Incorporating Domain Knowledge through Task Augmentation for Front-End JavaScript Code Generation


摘要:代码生成,即希望机器能像人一样将一些自然逻辑,用形式化的方式,或者说代码表达出来,这样的能力非常令人振奋,同样也充满了困难。目前尽管深度学习非常强大,但即使是百亿级的 Transformer,仍然在这个任务上做的不尽人意。而本文提出的模型,第一次真正在工业开发场景中,帮助用户快速生成高效的代码。
具体而言,对于不那么熟悉代码的淘宝店主,应用了本文提出模型的 BizCook,能帮助生成购物网站的业务代码。

本工作已被计算机软件工程顶会 ESEC/FSE 2022 Industry Track 接收,并且已经在阿里巴巴的 BizCook 平台应用。据我们所知,BizCook 是第一个在工业开发环境中被采用的领域代码生成系统

本文进一步将 JavaScript 逻辑表达分为以下四个类别。

推荐:首个用于工业开发的自动代码生成系统,精巧高效还入选了顶会。

论文 2:Ferroelectric/paraelectric superlattices for energy storage


摘要:目前,缩小电子产品的一个主要障碍是其电容器的尺寸相对较大。不过,现在科学家们已经开发出新的超晶格 (Superlattice),可能会使制造的电容器尺寸仅为传统电容器的百分之一。这项研究发表在《Science Advances》上。

该团队构建了由铁电钛酸铅 (PbTiO_3) 和顺电钛酸锶 (SrTiO_3) 制成的超晶格。之所以称为超晶格,是因为钛酸铅和钛酸锶本身排列成晶格结构,它们被放置在彼此交替的薄层中。

(PbTiO_3)_4/(SrTiO_3)_4 超晶格的声子不稳定性和基态。

推荐:大块头时代终结?新型超晶格材料使电容器体积缩小 100 倍。

论文 3:Oscillations of Drops with Mobile Contact Lines on the International Space Station: Elucidation of Terrestrial Inertial Droplet Spreading


摘要:当全世界的天文学家都沉浸在对遥远宇宙的新观点时,来自国际空间站上的一项实验让我们对再熟悉不过的「水」有了更进一步的认识。具体而言,空间站特有的微重力环境清楚地展示了水滴在固体表面振荡和扩散的方式,这些发现对 3D 打印、喷雾冷却、制造和涂层操作方面有着非常实际的应用。

该研究发表在《物理评论快报》上。他们研究了一系列的图像,其中包含了水滴震荡的几十种可能形状。Steen 通过对水滴的能量状态进行编号,将它们组织成一个「周期表」。


推荐:四年研究浓缩为几分钟实验,已故教授所提理论在太空得到证明

论文 4:Holographic Glasses for Virtual Reality


摘要:在最近一篇 SIGGRAPH 2022 论文中,来自英伟达和斯坦福大学的研究者展示了一种新的基于 Pancake 透镜的 VR 眼镜——Holographic Glasses(全息眼镜)。它的厚度只有 2.5 毫米,重 60 克,可以向佩戴者的每只眼睛展示 2D 或 3D 图像。

研究者表示,他们的 Holographic Glasses 基于最近的一类想法——使用人工智能技术来提高图像质量,并加速计算机生成的全息图(computer-generated holograms,CGH)的计算。


推荐:厚度仅 2.5 毫米,重 60 克,英伟达 & 斯坦福做出了超轻薄 VR 眼镜。

论文 5:Panoptic Scene Graph Generation


摘要本文中,新加坡南洋理工大学和商汤科技的研究者提出全场景图生成(PSG)任务,携同一个精细标注的大规模 PSG 数据集

该任务利用全景分割来全面准确地定位对象和背景,从而解决场景图生成任务的固有缺点,从而推动该领域朝着全面和深入的场景理解迈进。本研究被 ECCV 2022 会议接收



推荐:全场景图生成 PSG:追求「最全面」的场景理解。

论文 6:Multimodal Image Synthesis and Editing: A Survey


摘要:近期 OpenAI 发布的 DALLE-2 和谷歌发布的 Imagen 等实现了令人惊叹的文字到图像的生成效果,引发了广泛关注并且衍生出了很多有趣的应用。而文字到图像的生成属于多模态图像合成与编辑领域的一个典型任务。
近日,来自马普所和南洋理工等机构的研究人员对多模态图像合成与编辑这一大领域的研究现状和未来发展做了详细的调查和分析

DALL-E 2 的整体架构。

推荐:多模态图像合成与编辑这么火,马普所、南洋理工等出了份详细综述。

论文 7:Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?


摘要:在最近一篇论文中,谷歌的研究者试图了解归纳偏置(体系架构)对语言模型标度律的影响。为此,研究者在多个计算区域和范围内(从 1500 万到 400 亿参数)预训练和微调了十种不同的模型架构
总体来说,他们预训练和微调了 100 多种不同体系架构和大小的模型,并提出了在缩放这十种不同体系架构方面的见解和挑战。

本文的主要结果,包括可训练参数量、FLOPs(单次正向传递)和速度(每秒步数)等。

推荐:谷歌、DeepMind 新研究:归纳偏置如何影响模型缩放?

相关文章
|
6月前
|
人工智能 文字识别 计算机视觉
【AAAI 2024】M2Doc:文档版面分析的可插拔多模态融合方法
M2Doc是一种创新的多模态融合方法,设计用于增强文档版面分析任务中的纯视觉目标检测器。该方法包括Early-Fusion和Late-Fusion模块,前者通过门控机制融合视觉和文本特征,后者则在框级别合并这两种特征。M2Doc易于集成到各种目标检测器,实验证明它能显著提升DocLayNet和M6Doc数据集上的性能,特别是与DINO结合时,在多个数据集上达到SOTA结果。此外,研究表明M2Doc对于增强复杂逻辑版面分析任务中的文本理解和语义关联特别有效。
|
机器学习/深度学习 人工智能 自然语言处理
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
人类通过自然监督,即探索视觉世界和倾听他人描述情况,学会了毫不费力地识别和定位物体。我们人类对视觉模式的终身学习,并将其与口语词汇联系起来,从而形成了丰富的视觉和语义词汇,不仅可以用于检测物体,还可以用于其他任务,如描述物体和推理其属性和可见性。人类的这种学习模式为我们实现开放世界的目标检测提供了一个可以学习的角度。
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
|
3月前
|
人工智能 安全 机器人
LLM对齐数据全自动合成!UW华人博士生提出Magpie方法,Macbook Air即可运行
【8月更文挑战第11天】在AI领域,大型语言模型(LLM)的行为对齐一直是个挑战。华盛顿大学研究人员提出名为Magpie的新方法,能自动高效生成高质量指令数据,减少人工干预,提升LLM的对齐效果。通过输入模板,Magpie利用已对齐LLM生成能力自动生成指令数据,仅需少量GPU资源即可创建大规模数据集。实验显示,使用Magpie数据集微调的模型性能媲美传统监督方法。尽管如此,Magpie仍需进一步优化以生成特定领域指令并确保数据安全性。[论文](https://arxiv.org/abs/2406.08464)
161 60
|
3月前
|
数据采集 人工智能 监控
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
Label-LLM 是一款专为大模型训练设计的多模态文本对话标注工具,支持团队协作,让标注工作变得简单高效。它不仅涵盖丰富的任务类型,如回答采集、偏好收集和内容评估等,还支持多模态数据标注,包括图像、视频和音频。Label-LLM具备预标注载入功能,能大幅提升工作效率,并提供全方位的任务管理与可视化分析,确保标注质量。快来体验这款强大的标注平台吧![部署文档](https://github.com/opendatalab/LabelLLM)
644 0
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】ChatTTS:开源文本转语音(text-to-speech)大模型天花板
【机器学习】ChatTTS:开源文本转语音(text-to-speech)大模型天花板
139 0
|
机器学习/深度学习 自然语言处理 算法
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉(2)
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉
156 0
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉(2)
|
XML 人工智能 JSON
告别手动标注时代 | SAM 助力 Label-Studio 形成 SOTA 级半自动标注工具
告别手动标注时代 | SAM 助力 Label-Studio 形成 SOTA 级半自动标注工具
2195 0
告别手动标注时代 | SAM 助力 Label-Studio 形成 SOTA 级半自动标注工具
|
人工智能 JSON 机器人
NDD(notepad--)的AI机器人插件制作过程
NDD(notepad--)的AI机器人插件制作过程
|
文字识别 算法 测试技术
DeepSORT再升级 | Deep OC-SORT引入目标外观信息,大幅领先SOTA
DeepSORT再升级 | Deep OC-SORT引入目标外观信息,大幅领先SOTA
1024 0
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | AI绘画引入人类反馈;微软多模态ChatGPT?
7 Papers & Radios | AI绘画引入人类反馈;微软多模态ChatGPT?
107 0