8月AI论文GitHub十强榜出炉!语言-图像模型连斩Top2(2)

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 8月AI论文GitHub十强榜出炉!语言-图像模型连斩Top2

5. 联邦学习本地蒸馏


来自慕尼黑工业大学的研究人员提出了一个全新的联邦学习(federated learning)框架FedD3,减少了整体的通信量,大大扩展了联邦学习的应用场景,即使是在网络受限的环境中也能使用。



论文链接:https://arxiv.org/abs/2208.11311

代码链接:https://github.com/Guang000/Awesome-Dataset-Distillation


相比传统的学习方法,FedD3通过本地数据集的蒸馏实现了(1)显著减少通信量;(2)限制了transfer到one-shot的通信量,而非迭代的多路(multi-way)通信;



和其他联邦学习方法中共享模型更新不同的是,FedD3让连接的客户端独立蒸馏本地数据集,然后将这些分散的、蒸馏后的数据集(以一些无法识别的图像的形式存储,正常来说比一个模型小)在整个网络上汇总一次,以形成最终的模型。


实验结果表明,FedD3在所需的通信量方面明显优于其他的联邦学习框架,同时它还能够在准确性和通信成本之间的进行平衡,具体取决于使用场景和目标数据集。


例如,要是想用10个客户端在Non-IID CIFAR-10上训练AlexNet模型,与其他one-shot联邦学习方法相比,在通讯量不变的情况下,FedD3可以将准确率提高71%以上;如果准确率相同,则可以节省98%的通信量。


6. 隐式表征数据集


神经辐射场(NeRFs)在隐三维表征(implicit 3D representation)方面取得了诸多进展,可以用一种可微分的方式进行准确且逼真的三维重建。


这种新的表征方法可以在一个紧凑的格式中有效地传达数百个高分辨率图像的信息,并允许对新的视图进行逼真的合成。


来自浦项科技大学、英伟达和加州理工大学的研究人员利用NeRF的变种Plenoxels,创建了第一个用于感知任务的大规模隐式表征数据集PeRFception


论文链接:https://arxiv.org/abs/2208.11537

代码链接:https://github.com/POSTECH-CVLab/PeRFception


数据集由两部分组成,包括以物体为中心和以场景为中心的扫描,可以用于分类和分割。



在原始数据集的基础上实现了显著的内存压缩率(96.4%),同时以统一的形式包含了二维和三维信息。


研究人员直接将这种隐式格式作为输入构建了分类和分割模型,还提出了一种新的增强技术,可以避免对图像背景的过拟合。


7. 最小的视频实例分割框架


研究人员提出了MinVIS,一个最小的视频实例分割(VIS)框架,在既没有基于视频的架构也没有训练程序的情况下,实现了最先进的VIS性能。



论文链接:https://arxiv.org/abs/2208.02245

代码链接:https://github.com/nvlabs/minvis


通过只训练一个基于查询的图像实例分割模型,MinVIS在比较难的Occluded VIS数据集上的表现比以前的最佳结果要好10%以上。


由于MinVIS将训练视频中的帧视为独立的图像,因此可以在不做任何修改的情况下对训练视频中的标注帧进行大幅度的子采样。



在YouTube-VIS 2019/2021上,MinVIS只用了1%的标注帧,就超过了完全监督的最先进的方法,或者与之相当。



主要观察结果是,经过训练的查询在帧内物体实例之间具有判别能力,在时间上是一致的,可以用来追踪实例,而不需要任何人工设计的启发式方法。


因此,MinVIS的推理pipeline为:先将训练好的基于查询的图像实例分割独立应用于视频帧,然后通过对相应的查询进行双边匹配来追踪被分割的实例。




这种推理是以在线方式进行的,不需要一次性处理整个视频。所以MinVIS具有降低标签成本和内存需求的实际优势,同时不会牺牲VIS的性能。


8. 用来唱歌的Vocoder


Vocoder是一种条件音频生成模型,将声学特征(如旋律谱图)转换成波形。

从可微分数字信号处理(DDSP)中得到启发,研究人员提出了一种新的Vocoder,名为SawSing,可以用于歌唱的声音。


论文链接:https://arxiv.org/abs/2208.04756

代码链接:https://github.com/yatingmusic/ddsp-singing-vocoders


SawSing通过用线性时变有限脉冲响应滤波器过滤锯齿源信号来合成歌声的谐波部分,该滤波器的系数是通过神经网络从输入的旋律谱图中估计出来的。


由于这种方法加强了相位的连续性,SawSing可以产生歌唱的声音,而不会出现许多现有vocoder的相位不连续的突变。


此外,源滤波器的假设提供了一个感应性的偏向,使SawSing可以在少量的数据上进行训练。


实验表明,在资源有限的情况下,SawSing收敛得更快,并优于最先进的生成式对抗网络和基于扩散的vocoder,只有3个训练记录和3小时的训练时间。

相关文章
|
17天前
|
人工智能 API 开发工具
【重磅发布】 免费领取阿里云百炼AI大模型100万Tokens教程出炉,API接口实战操作,DeepSeek-R1满血版即刻体验!
阿里云百炼是一站式大模型开发及应用构建平台,支持开发者和业务人员轻松设计、构建大模型应用。通过简单操作,用户可在5分钟内开发出大模型应用或在几小时内训练专属模型,专注于创新。
412 88
【重磅发布】 免费领取阿里云百炼AI大模型100万Tokens教程出炉,API接口实战操作,DeepSeek-R1满血版即刻体验!
|
12天前
|
人工智能 监控 自动驾驶
Migician:清北华科联手放大招!多图像定位大模型问世:3秒锁定跨画面目标,安防监控迎来AI革命!
Migician 是北交大联合清华、华中科大推出的多模态视觉定位模型,支持自由形式的跨图像精确定位、灵活输入形式和多种复杂任务。
64 3
Migician:清北华科联手放大招!多图像定位大模型问世:3秒锁定跨画面目标,安防监控迎来AI革命!
|
25天前
|
机器学习/深度学习 人工智能 编解码
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构,支持多种推理求解器,能生成高质量、多风格的图像。
156 17
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
|
25天前
|
人工智能 IDE 编译器
idea如何使用AI编程提升效率-在IntelliJ IDEA 中安装 GitHub Copilot 插件的步骤-卓伊凡
idea如何使用AI编程提升效率-在IntelliJ IDEA 中安装 GitHub Copilot 插件的步骤-卓伊凡
113 15
idea如何使用AI编程提升效率-在IntelliJ IDEA 中安装 GitHub Copilot 插件的步骤-卓伊凡
|
11天前
|
人工智能 数据可视化
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
《CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM》提出了一种新型系统CAD-MLLM,能够根据文本、图像、点云或其组合生成高质量的CAD模型。该系统基于大型语言模型(LLM),通过多模态数据对齐和渐进式训练策略,实现了高效的CAD模型生成。作者创建了首个包含文本、图像、点云和命令序列的多模态数据集Omni-CAD,包含约450K个实例。实验表明,CAD-MLLM在多个任务上表现出色,特别是在点云条件生成任务中显著优于现有方法。未来工作将聚焦于提升计算效率、增加数据多样性及探索新模态。
122 18
|
9天前
|
人工智能 Java 语音技术
零基础上手百炼语音AI模型|Github示例工程介绍
零基础上手百炼语音AI模型|Github示例工程介绍
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。
313 23
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
|
2月前
|
人工智能 编解码 自然语言处理
CogView-3-Flash:智谱首个免费AI图像生成模型,支持多种分辨率,快速生成创意图像
CogView-3-Flash 是智谱推出的首个免费AI图像生成模型,支持多种分辨率,快速生成高质量图像,广泛应用于广告、设计、艺术创作等领域。
86 6
CogView-3-Flash:智谱首个免费AI图像生成模型,支持多种分辨率,快速生成创意图像
|
2月前
|
机器学习/深度学习 人工智能 编解码
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法,能够生成超高分辨率图像,突破传统扩散模型的内存限制,适用于多种实际应用场景。
116 21
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
|
2月前
|
人工智能
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
RealisHuman 是一个创新的后处理框架,专注于修复生成图像中畸形的人体部位,如手和脸,通过两阶段方法提升图像的真实性。
106 11
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位

热门文章

最新文章