一周AI最火论文 | 世界就是你的绿屏 ,任何背景一键抠像!

简介: 一周AI最火论文 | 世界就是你的绿屏 ,任何背景一键抠像!

本周关键词:对象检测Deepfake

本周最火学术研究

机器人真的可以学会像动物一样移动吗?

众所周知,动物非常敏捷。机器人可以达到它的水平们吗?开发具有复制这种敏捷度的机器人,有利于创造在现实世界中能处理各种复杂任务的机器人。

最新研究:Google AI研究人员讨论了两个最新项目,旨在应对当前机器人敏捷性方面的挑战。首先,研究人员描述了机器人如何通过模仿真实动物的动作来学习敏捷行为,从而产生快速流畅的动作,例如小跑和跳跃。然后,他们讨论了一种用于在现实世界中,自动进行运动技能训练的系统。这个系统可使机器人在最少的人工帮助下,学习自我行走。

研究结果:使用上述提出的方法,机器人学习并模仿了狗的各种运动技巧,包括不同的步行步态(例如踱步和小跑)以及敏捷的旋转动作。

扩展阅读:

https://ai.googleblog.com/2020/04/exploring-nature-inspired-robot-agility.html

世界即是你的绿屏 – 一项背景遮罩生成(抠像)技术

你能想象,仅仅通过使用智能手机在日常环境中拍摄照片或视频,就能轻松地为每个人的每个像素的颜色和不透明度创建遮罩吗?

这篇论文提出了一种背景遮罩生成方法,该方法可以在自然环境中随意获得高质量的前景+ alpha遮罩。这种方法避免了使用绿屏,也避免了为获得高遮罩质量通常需要精心构造的详细的trimap 图。由于一个关键的难点是,缺少背景遮罩生成问题的真实数据,因此研究人员开发了一种在合成复合数据上训练的深度学习框架,然后使用对抗网络将其应用于真实数据。

研究结果:在多种照片和视频上比现有技术有了显著改善。

扩展阅读:

https://arxiv.org/abs/2004.00626v1

基于EfficientDet进行可扩展的高效对象检测

近年来,各国研究员们在更精确的物体检测方面取得了巨大的进步。同时,最新的物体检测器,却也变得越来越昂贵。

在本文中,Google Research Brain 组的研究人员,系统地研究了用于有效对象检测的网络体系结构设计选择,并提出了加权双向特征网络和定制的复合缩放方法,从而提高了准确性和效率。

基于这些优化,他们开发了一个名为EfficientDet的新检测器系列,在各种资源限制条件下,该检测器比现有技术具有更高的准确性和效率

研究结果:EfficientDet在COCO测试设备上以52M参数和325B FLOP,实现了最新的52.2 AP。这比现有检测器小4到9倍,使用的FLOP减少了13到42倍。


源代码已在Github开源:https://github.com/google/automl/tree/master/efficientdet

扩展阅读:

https://arxiv.org/abs/1911.09070v3

改进科学出版物的建议

如“决策树森林”中的一个决策树对它作出的判断进行了一些细微的修改,但没人在科学界发布它,那这真的是“最新技术”吗?—乔治·伯克利

近日,一项研究表明,您可能不再需要遵循传统的同行评议形式进行科学手稿评估。这群研究人员提出了一种高度可扩展、全自动的方法对论文进行审查,并从主要的计算机视觉和机器学习会议的最佳实践中汲取了灵感。

这些研究人员希望通过清晰易懂的审阅指标,来推动科学研究进入又一个黄金时代,因为科学家们都希望自己能够做出既新颖又十分先进的研究成果。

扩展阅读:

https://arxiv.org/abs/2003.14415v1

如何用“白盒”和“黑盒攻击”来回避Deepfake图像检测器

合成高度逼真的“假人”图像如今已经越来越容易,并且被很多人用于创建虚假的社交媒体信息来进行欺诈。

研究人员正在努力开发和部署检测这一类合成内容的算法。

虽然最流行的取证方法之一是训练神经网络以区分真实内容与合成内容,但Google Brain和加州大学伯克利分校的研究人员现在表明,取证分类器易受一系列攻击的攻击,这些攻击将分类器的准确性降低至接近0%。

攻击者们开发出一种黑盒攻击,不用接触目标分类器,就能将ROC曲线(AUC)下的面积从0.95降低到0.22。



相关文章
|
1月前
|
人工智能 物联网 调度
边缘大型AI模型:协作部署与物联网应用——论文阅读
论文《边缘大型AI模型:协作部署与物联网应用》系统探讨了将大模型(LAM)部署于边缘网络以赋能物联网的前沿框架。针对传统云端部署高延迟、隐私差的问题,提出“边缘LAM”新范式,通过联邦微调、专家混合与思维链推理等技术,实现低延迟、高隐私的分布式智能。
568 6
边缘大型AI模型:协作部署与物联网应用——论文阅读
|
2月前
|
机器学习/深度学习 人工智能 资源调度
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
本文探讨智能家居中AI决策的可解释性,提出以人为中心的XAI框架。通过SHAP、DeepLIFT等技术提升模型透明度,结合用户认知与需求,构建三层解释体系,增强信任与交互效能。
204 19
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
|
7月前
|
人工智能 数据可视化 数据挖掘
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
The AI Scientist-v2 是由 Sakana AI 等机构开发的端到端自主科研系统,通过树搜索算法与视觉语言模型反馈实现科学假设生成、实验执行及论文撰写全流程自动化,其生成论文已通过国际顶会同行评审。
461 34
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
SurveyGO是清华与面壁智能联合开源的AI论文写作工具,采用LLMxMapReduce-V2技术实现文献智能聚合,能根据用户输入主题快速生成结构严谨、引用可靠的学术综述。
956 1
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
|
2月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
163 10
|
8月前
|
人工智能 自然语言处理 机器人
今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
由浙江大学、快手科技等机构提出的ReCamMaster是一个相机控制的生成式视频重渲染框架,可以使用新的相机轨迹重现输入视频的动态场景。该工作的核心创新在于利用预训练的文本到视频模型的生成能力,通过一种简单但强大的视频条件机制。为克服高质量训练数据的稀缺问题,研究者使用虚幻引擎5构建了一个全面的多相机同步视频数据集,涵盖多样化的场景和相机运动。
433 2
今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
|
2月前
|
人工智能 算法 开发者
2025年高教社杯E题——AI 辅助智能体测全国大学生数学建模(思路、代码、论文)
2025年高教社杯E题——AI 辅助智能体测全国大学生数学建模(思路、代码、论文)
408 1
|
8月前
|
人工智能 安全 测试技术
本周 AI Benchmark 方向论文推荐
由北京大学和微软亚洲研究院的魏李等人提出的 FEA-Bench,是一个专为评估大型语言模型(LLMs)在代码库级别进行增量开发能力的基准测试。它从 83 个 GitHub 仓库中收集了 1,401 个任务实例,专注于新功能的实现。研究表明,即使是先进的 LLMs 在此任务中的表现仍远低于预期,揭示了仓库级代码开发的重大挑战。
378 0
|
7月前
|
人工智能 自然语言处理 算法
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
BabelDOC 是一款专为科学论文设计的开源AI翻译工具,采用先进的无损解析技术和智能布局识别算法,能完美保留原文格式并生成双语对照翻译。
2131 67
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
|
7月前
|
机器学习/深度学习 人工智能 JSON
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
Paper2Code是由韩国科学技术院与DeepAuto.ai联合开发的多智能体框架,通过规划、分析和代码生成三阶段流程,将机器学习论文自动转化为可执行代码仓库,显著提升科研复现效率。
852 19
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现