8月AI论文GitHub十强榜出炉!语言-图像模型连斩Top2(2)

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 8月AI论文GitHub十强榜出炉!语言-图像模型连斩Top2

5. 联邦学习本地蒸馏


来自慕尼黑工业大学的研究人员提出了一个全新的联邦学习(federated learning)框架FedD3,减少了整体的通信量,大大扩展了联邦学习的应用场景,即使是在网络受限的环境中也能使用。



论文链接:https://arxiv.org/abs/2208.11311

代码链接:https://github.com/Guang000/Awesome-Dataset-Distillation


相比传统的学习方法,FedD3通过本地数据集的蒸馏实现了(1)显著减少通信量;(2)限制了transfer到one-shot的通信量,而非迭代的多路(multi-way)通信;



和其他联邦学习方法中共享模型更新不同的是,FedD3让连接的客户端独立蒸馏本地数据集,然后将这些分散的、蒸馏后的数据集(以一些无法识别的图像的形式存储,正常来说比一个模型小)在整个网络上汇总一次,以形成最终的模型。


实验结果表明,FedD3在所需的通信量方面明显优于其他的联邦学习框架,同时它还能够在准确性和通信成本之间的进行平衡,具体取决于使用场景和目标数据集。


例如,要是想用10个客户端在Non-IID CIFAR-10上训练AlexNet模型,与其他one-shot联邦学习方法相比,在通讯量不变的情况下,FedD3可以将准确率提高71%以上;如果准确率相同,则可以节省98%的通信量。


6. 隐式表征数据集


神经辐射场(NeRFs)在隐三维表征(implicit 3D representation)方面取得了诸多进展,可以用一种可微分的方式进行准确且逼真的三维重建。


这种新的表征方法可以在一个紧凑的格式中有效地传达数百个高分辨率图像的信息,并允许对新的视图进行逼真的合成。


来自浦项科技大学、英伟达和加州理工大学的研究人员利用NeRF的变种Plenoxels,创建了第一个用于感知任务的大规模隐式表征数据集PeRFception


论文链接:https://arxiv.org/abs/2208.11537

代码链接:https://github.com/POSTECH-CVLab/PeRFception


数据集由两部分组成,包括以物体为中心和以场景为中心的扫描,可以用于分类和分割。



在原始数据集的基础上实现了显著的内存压缩率(96.4%),同时以统一的形式包含了二维和三维信息。


研究人员直接将这种隐式格式作为输入构建了分类和分割模型,还提出了一种新的增强技术,可以避免对图像背景的过拟合。


7. 最小的视频实例分割框架


研究人员提出了MinVIS,一个最小的视频实例分割(VIS)框架,在既没有基于视频的架构也没有训练程序的情况下,实现了最先进的VIS性能。



论文链接:https://arxiv.org/abs/2208.02245

代码链接:https://github.com/nvlabs/minvis


通过只训练一个基于查询的图像实例分割模型,MinVIS在比较难的Occluded VIS数据集上的表现比以前的最佳结果要好10%以上。


由于MinVIS将训练视频中的帧视为独立的图像,因此可以在不做任何修改的情况下对训练视频中的标注帧进行大幅度的子采样。



在YouTube-VIS 2019/2021上,MinVIS只用了1%的标注帧,就超过了完全监督的最先进的方法,或者与之相当。



主要观察结果是,经过训练的查询在帧内物体实例之间具有判别能力,在时间上是一致的,可以用来追踪实例,而不需要任何人工设计的启发式方法。


因此,MinVIS的推理pipeline为:先将训练好的基于查询的图像实例分割独立应用于视频帧,然后通过对相应的查询进行双边匹配来追踪被分割的实例。




这种推理是以在线方式进行的,不需要一次性处理整个视频。所以MinVIS具有降低标签成本和内存需求的实际优势,同时不会牺牲VIS的性能。


8. 用来唱歌的Vocoder


Vocoder是一种条件音频生成模型,将声学特征(如旋律谱图)转换成波形。

从可微分数字信号处理(DDSP)中得到启发,研究人员提出了一种新的Vocoder,名为SawSing,可以用于歌唱的声音。


论文链接:https://arxiv.org/abs/2208.04756

代码链接:https://github.com/yatingmusic/ddsp-singing-vocoders


SawSing通过用线性时变有限脉冲响应滤波器过滤锯齿源信号来合成歌声的谐波部分,该滤波器的系数是通过神经网络从输入的旋律谱图中估计出来的。


由于这种方法加强了相位的连续性,SawSing可以产生歌唱的声音,而不会出现许多现有vocoder的相位不连续的突变。


此外,源滤波器的假设提供了一个感应性的偏向,使SawSing可以在少量的数据上进行训练。


实验表明,在资源有限的情况下,SawSing收敛得更快,并优于最先进的生成式对抗网络和基于扩散的vocoder,只有3个训练记录和3小时的训练时间。

目录
打赏
0
0
0
0
361
分享
相关文章
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型,支持长达2048个时间点的单变量预测,具备零样本学习能力,适用于零售、金融、交通等多个领域。
49 23
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。
83 23
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
GLM-Zero 是智谱AI推出的深度推理模型,专注于提升数理逻辑、代码编写和复杂问题解决能力,支持多模态输入与完整推理过程输出。
109 24
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
47 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法,能够生成超高分辨率图像,突破传统扩散模型的内存限制,适用于多种实际应用场景。
63 21
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年
著名数学家陶哲轩联合60多位数学家推出FrontierMath基准测试,评估AI在高级数学推理方面的能力。该测试涵盖数论、实分析等多领域,采用新问题与自动化验证,结果显示最先进AI通过率仅2%。尽管存在争议,这一基准为AI数学能力发展提供了明确目标和评估工具,推动AI逐步接近人类数学家水平。
61 37
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
Aria-UI 是香港大学与 Rhymes AI 联合开发的多模态模型,专为 GUI 智能交互设计,支持高分辨率图像处理,适用于自动化测试、用户交互辅助等场景。
56 11
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
RealisHuman 是一个创新的后处理框架,专注于修复生成图像中畸形的人体部位,如手和脸,通过两阶段方法提升图像的真实性。
48 11
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
|
3天前
|
Scaling Laws终结,量化无用,AI大佬都在审视这篇论文
《Scaling Laws for Precision》论文提出“精度感知”的扩展理论,将精度纳入模型发展的核心考量,弥补了传统AI模型发展理论忽视精度的不足。研究发现低精度训练会降低模型的有效参数计数,影响性能,并预测了低精度训练和后训练量化带来的损失。作者通过大量实验验证了理论的可靠性和有效性,为计算资源有限情况下如何平衡模型规模和精度提供了新思路。然而,该研究也引发了关于精度与性能权衡复杂性的争议。
42 27
如何将Together AI上基于Qwen2-7B训练的模型部署到ModelScope平台
如何将Together AI上基于Qwen2-7B训练的模型部署到ModelScope平台
51 10

热门文章

最新文章