7 Papers & Radios | 首个用于工业开发的自动代码生成系统;多模态图像合成与编辑综述

简介: 7 Papers & Radios | 首个用于工业开发的自动代码生成系统;多模态图像合成与编辑综述

本周主要论文包括首个用于工业开发的自动代码生成系统,精巧高效还入选了顶会;英伟达 & 斯坦福做出了超轻薄 VR 眼镜。


目录

Incorporating Domain Knowledge through Task Augmentation for Front-End JavaScript Code Generation

Ferroelectric/paraelectric superlattices for energy storage

Oscillations of Drops with Mobile Contact Lines on the International Space Station: Elucidation of Terrestrial Inertial Droplet Spreading

Holographic Glasses for Virtual Reality

Panoptic Scene Graph Generation

Multimodal Image Synthesis and Editing: A Survey

Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?

ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Incorporating Domain Knowledge through Task Augmentation for Front-End JavaScript Code Generation


摘要:代码生成,即希望机器能像人一样将一些自然逻辑,用形式化的方式,或者说代码表达出来,这样的能力非常令人振奋,同样也充满了困难。目前尽管深度学习非常强大,但即使是百亿级的 Transformer,仍然在这个任务上做的不尽人意。而本文提出的模型,第一次真正在工业开发场景中,帮助用户快速生成高效的代码。
具体而言,对于不那么熟悉代码的淘宝店主,应用了本文提出模型的 BizCook,能帮助生成购物网站的业务代码。

本工作已被计算机软件工程顶会 ESEC/FSE 2022 Industry Track 接收,并且已经在阿里巴巴的 BizCook 平台应用。据我们所知,BizCook 是第一个在工业开发环境中被采用的领域代码生成系统

本文进一步将 JavaScript 逻辑表达分为以下四个类别。

推荐:首个用于工业开发的自动代码生成系统,精巧高效还入选了顶会。

论文 2:Ferroelectric/paraelectric superlattices for energy storage


摘要:目前,缩小电子产品的一个主要障碍是其电容器的尺寸相对较大。不过,现在科学家们已经开发出新的超晶格 (Superlattice),可能会使制造的电容器尺寸仅为传统电容器的百分之一。这项研究发表在《Science Advances》上。

该团队构建了由铁电钛酸铅 (PbTiO_3) 和顺电钛酸锶 (SrTiO_3) 制成的超晶格。之所以称为超晶格,是因为钛酸铅和钛酸锶本身排列成晶格结构,它们被放置在彼此交替的薄层中。

(PbTiO_3)_4/(SrTiO_3)_4 超晶格的声子不稳定性和基态。

推荐:大块头时代终结?新型超晶格材料使电容器体积缩小 100 倍。

论文 3:Oscillations of Drops with Mobile Contact Lines on the International Space Station: Elucidation of Terrestrial Inertial Droplet Spreading


摘要:当全世界的天文学家都沉浸在对遥远宇宙的新观点时,来自国际空间站上的一项实验让我们对再熟悉不过的「水」有了更进一步的认识。具体而言,空间站特有的微重力环境清楚地展示了水滴在固体表面振荡和扩散的方式,这些发现对 3D 打印、喷雾冷却、制造和涂层操作方面有着非常实际的应用。

该研究发表在《物理评论快报》上。他们研究了一系列的图像,其中包含了水滴震荡的几十种可能形状。Steen 通过对水滴的能量状态进行编号,将它们组织成一个「周期表」。


推荐:四年研究浓缩为几分钟实验,已故教授所提理论在太空得到证明

论文 4:Holographic Glasses for Virtual Reality


摘要:在最近一篇 SIGGRAPH 2022 论文中,来自英伟达和斯坦福大学的研究者展示了一种新的基于 Pancake 透镜的 VR 眼镜——Holographic Glasses(全息眼镜)。它的厚度只有 2.5 毫米,重 60 克,可以向佩戴者的每只眼睛展示 2D 或 3D 图像。

研究者表示,他们的 Holographic Glasses 基于最近的一类想法——使用人工智能技术来提高图像质量,并加速计算机生成的全息图(computer-generated holograms,CGH)的计算。


推荐:厚度仅 2.5 毫米,重 60 克,英伟达 & 斯坦福做出了超轻薄 VR 眼镜。

论文 5:Panoptic Scene Graph Generation


摘要本文中,新加坡南洋理工大学和商汤科技的研究者提出全场景图生成(PSG)任务,携同一个精细标注的大规模 PSG 数据集

该任务利用全景分割来全面准确地定位对象和背景,从而解决场景图生成任务的固有缺点,从而推动该领域朝着全面和深入的场景理解迈进。本研究被 ECCV 2022 会议接收



推荐:全场景图生成 PSG:追求「最全面」的场景理解。

论文 6:Multimodal Image Synthesis and Editing: A Survey


摘要:近期 OpenAI 发布的 DALLE-2 和谷歌发布的 Imagen 等实现了令人惊叹的文字到图像的生成效果,引发了广泛关注并且衍生出了很多有趣的应用。而文字到图像的生成属于多模态图像合成与编辑领域的一个典型任务。
近日,来自马普所和南洋理工等机构的研究人员对多模态图像合成与编辑这一大领域的研究现状和未来发展做了详细的调查和分析

DALL-E 2 的整体架构。

推荐:多模态图像合成与编辑这么火,马普所、南洋理工等出了份详细综述。

论文 7:Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?


摘要:在最近一篇论文中,谷歌的研究者试图了解归纳偏置(体系架构)对语言模型标度律的影响。为此,研究者在多个计算区域和范围内(从 1500 万到 400 亿参数)预训练和微调了十种不同的模型架构
总体来说,他们预训练和微调了 100 多种不同体系架构和大小的模型,并提出了在缩放这十种不同体系架构方面的见解和挑战。

本文的主要结果,包括可训练参数量、FLOPs(单次正向传递)和速度(每秒步数)等。

推荐:谷歌、DeepMind 新研究:归纳偏置如何影响模型缩放?

相关文章
|
4天前
|
人工智能 数据库 索引
超越幻觉:检索增强生成如何为AI大模型“装上”事实核查系统
超越幻觉:检索增强生成如何为AI大模型“装上”事实核查系统
159 107
|
3月前
|
存储 人工智能 文字识别
医疗病历结构化处理系统技术白皮书——基于多模态AI的医联体数据治理方案
本系统基于双端协同架构,集成移动端OCR识别与云端数据分析,实现医疗文档高效结构化处理。采用PaddleOCR轻量引擎与隐私计算技术,支持离线识别与敏感信息脱敏。后端构建分布式数据仓库与多租户机制,满足PB级存储与数据安全合规要求。实测OCR准确率达96.2%(印刷体)与88.7%(手写体),字段抽取F1值92.4%,显著提升病历处理效率与质量。
334 3
|
4月前
|
数据采集 机器学习/深度学习 搜索推荐
利用通义大模型构建个性化推荐系统——从数据预处理到实时API部署
本文详细介绍了基于通义大模型构建个性化推荐系统的全流程,涵盖数据预处理、模型微调、实时部署及效果优化。通过采用Qwen-72B结合LoRA技术,实现电商场景下CTR提升58%,GMV增长12.7%。文章分析了特征工程、多任务学习和性能调优的关键步骤,并探讨内存优化与蒸馏实践。最后总结了大模型在推荐系统中的适用场景与局限性,提出未来向MoE架构和因果推断方向演进的建议。
568 10
|
3月前
|
人工智能 自然语言处理 数据可视化
AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统
AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统
 AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统
|
4月前
|
缓存 自然语言处理 监控
基于通义大模型的智能客服系统构建实战:从模型微调到API部署
本文详细解析了基于通义大模型的智能客服系统构建全流程,涵盖数据准备、模型微调、性能优化及API部署等关键环节。通过实战案例与代码演示,展示了如何针对客服场景优化训练数据、高效微调大模型、解决部署中的延迟与并发问题,以及构建完整的API服务与监控体系。文章还探讨了性能优化进阶技术,如模型量化压缩和缓存策略,并提供了安全与合规实践建议。最终总结显示,微调后模型意图识别准确率提升14.3%,QPS从12.3提升至86.7,延迟降低74%。
1102 14
|
4月前
|
机器学习/深度学习 数据采集 人机交互
springboot+redis互联网医院智能导诊系统源码,基于医疗大模型、知识图谱、人机交互方式实现
智能导诊系统基于医疗大模型、知识图谱与人机交互技术,解决患者“知症不知病”“挂错号”等问题。通过多模态交互(语音、文字、图片等)收集病情信息,结合医学知识图谱和深度推理,实现精准的科室推荐和分级诊疗引导。系统支持基于规则模板和数据模型两种开发原理:前者依赖人工设定症状-科室规则,后者通过机器学习或深度学习分析问诊数据。其特点包括快速病情收集、智能病症关联推理、最佳就医推荐、分级导流以及与院内平台联动,提升患者就诊效率和服务体验。技术架构采用 SpringBoot+Redis+MyBatis Plus+MySQL+RocketMQ,确保高效稳定运行。
274 0
|
6月前
|
存储 人工智能 缓存
大模型存储的 “最后一公里” :蚂蚁大模型存储加速系统 PCache 如何解决万亿参数训练难题?
本文尝试通过当前学术和工业界在大模型存储领域的关注点和相关工作,并结合蚂蚁大模型训练场景实际的需求和问题,来介绍蚂蚁是如何在多云环境里构建一套具备高可用性、高性能以及低成本的云原生 AI 存储加速系统 PCache;并通过该存储方案在蚂蚁支持了百亿文件规模的多模态和万亿参数的 MOE 训练任务。
|
6月前
|
自然语言处理 搜索推荐 机器人
合力亿捷云客服系统:2025年大模型如何重塑全渠道对话体验
2025年,以DeepSeek等大模型为核心的智能客服系统,突破传统效率瓶颈,通过全渠道整合、多模态交互、个性化服务与情感智能,重构企业客户互动模式。从机械应答到认知共情,从单一文本到多维交互,大模型赋能客服系统成为企业价值创造的战略资产,推动客户服务迈向智能化新纪元。
242 2
|
7月前
|
人工智能 自然语言处理 算法
DeepSeek大模型在客服系统中的应用场景解析
在数字化浪潮下,客户服务领域正经历深刻变革,AI技术成为提升服务效能与体验的关键。DeepSeek大模型凭借自然语言处理、语音交互及多模态技术,显著优化客服流程,提升用户满意度。它通过智能问答、多轮对话引导、多模态语音客服和情绪监测等功能,革新服务模式,实现高效应答与精准分析,推动人机协作,为企业和客户创造更大价值。
612 5
|
7月前
|
人工智能 自然语言处理 算法
DeepSeek 大模型在合力亿捷工单系统中的5大应用场景解析
工单系统是企业客户服务与内部运营的核心工具,传统系统在分类、派发和处理效率方面面临挑战。DeepSeek大模型通过自然语言处理和智能化算法,实现精准分类、智能分配、自动填充、优先级排序及流程优化,大幅提升工单处理效率和质量,降低运营成本,改善客户体验。
369 2

热门文章

最新文章