ObjectMover:港大联合Adobe打造图像编辑黑科技,移动物体光影自动匹配

简介: 香港大学与Adobe联合研发的ObjectMover模型,通过视频生成先验迁移技术,实现图像中物体的自然移动、删除和插入,自动保持光影一致性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎨 「PS修图师颤抖吧!这个AI连物体影子都能自动补光,港大黑科技炸场」

大家好,我是蚝油菜花。当同行还在用仿制图章工具手动补光影时,这个由香港大学与Adobe联合研发的模型,已经让图像编辑进入「指哪打哪」的智能时代!

你是否被这些修图噩梦折磨过——

  • 👉 移动花瓶后,桌面反光像被狗啃过一样突兀
  • 👉 删除路人甲,地面阴影却留下人形空洞
  • 👉 插入新物体时,光照角度总像来自异次元...

今天要解剖的 ObjectMover ,正在重定义图像编辑!这个基于视频生成迁移学习的AI手术刀,用三大绝技让后期效率飙升:

  • 物理规律全自动:移动物体时,连带影子/反光/折射同步智能调整
  • 跨场景泛化王:在游戏引擎合成的百万级数据中学会「光线的语言」
  • 多任务通吃:移除/插入/移动三合一,商业级效果直出

已有电影团队用它重制经典场景,电商公司靠它批量生成产品场景图——你的PS工具栏,是时候迎接这位「光影魔术师」了!

🚀 快速阅读

ObjectMover是香港大学与Adobe联合开发的图像编辑模型。

  1. 功能:实现物体移动/删除/插入时的自动光影匹配
  2. 原理:将图像编辑视为视频帧生成任务,迁移视频模型的跨帧一致性能力

ObjectMover 是什么

ObjMover-demo

ObjectMover 是香港大学和 Adobe Research 联合提出的新型图像编辑模型,专门解决图像中物体移动、插入和移除时出现的光照、阴影不协调以及物体失真等问题。该模型将物体移动视为两帧视频的特殊案例,创新性地利用了预训练视频生成模型的跨帧一致性学习能力。

通过微调技术将视频生成模型迁移到图像编辑任务,ObjectMover采用序列到序列的建模方式。其输入包括原始图像、目标物体图像和指令图,输出为物体移动后的合成图像,在保持物体身份特征的同时,实现了物理效果的自然过渡。

ObjectMover 的主要功能

  • 物体移动:可将图像中的物体移动到指定位置,自动调整相关的物理效果,如光照、阴影、反射等,同时保持物体的身份特征
  • 物体删除:能真实地填充被移除物体的背景,非生成不相干的新物体,准确地移除与物体相关的光影
  • 物体插入:能精准保持被插入物体的身份特征,自动生成与环境一致的光影效果

ObjectMover 的技术原理

  • 视频先验迁移:将物体移动任务视为两帧视频案例,利用预训练视频生成模型(如扩散模型)对跨帧一致性的学习能力
  • 序列到序列建模:输入包括原始图像、目标物体图像和指令图,输出为物体移动后的合成图像,形成端到端处理流程
  • 合成数据集构建:使用现代游戏引擎生成高质量合成数据对,覆盖复杂光照、材质和遮挡场景
  • 多任务学习策略:结合物体移动、移除、插入及视频数据插入四个子任务,提升模型泛化能力

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
12月前
|
人工智能 数据可视化 C++
Math24o:SuperCLUE开源的高中奥数推理测评基准,85.71分屠榜
Math24o是首个针对高中奥林匹克数学竞赛的中文大模型测评基准,采用2024年预赛真题实现自动化评估,为模型数学推理能力提供客观衡量标准。
415 48
Math24o:SuperCLUE开源的高中奥数推理测评基准,85.71分屠榜
|
12月前
|
人工智能 图形学
PhysGen3D:清华等高校联合推出,单图秒变交互式3D场景
PhysGen3D是清华等高校联合开发的创新框架,通过单张图像重建3D场景并模拟物理行为,实现从静态图像到动态交互的突破性转换。
403 15
PhysGen3D:清华等高校联合推出,单图秒变交互式3D场景
|
12月前
|
人工智能 API 语音技术
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
EmotiVoice是网易有道开源的多语言语音合成系统,支持中英文2000多种音色,通过提示词控制情感输出,提供Web界面和API接口,具备语音克隆等先进功能。
1631 43
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
|
12月前
|
人工智能 前端开发 算法
Vibe Draw:涂鸦秒变3D模型!开源AI建模神器解放创意生产力
Vibe Draw 是一款基于AI技术的开源3D建模工具,通过Next.js和FastAPI构建,能将用户绘制的2D草图智能转化为3D模型,并支持文本提示优化和场景构建。
871 35
Vibe Draw:涂鸦秒变3D模型!开源AI建模神器解放创意生产力
|
12月前
|
人工智能 搜索推荐 图形学
ChatAnyone:阿里通义黑科技!实时风格化肖像视频生成框架震撼发布
阿里巴巴通义实验室推出的ChatAnyone框架,通过高效分层运动扩散模型和混合控制融合技术,实现高保真度、自然度的实时肖像视频生成。
470 13
ChatAnyone:阿里通义黑科技!实时风格化肖像视频生成框架震撼发布
|
11月前
|
人工智能 编解码
导演失业预警!Seaweed-7B:字节7B参数模型让剧本自动变电影!20秒长镜头丝滑生成
Seaweed-7B是字节跳动推出的70亿参数视频生成模型,支持从文本、图像或音频生成高质量视频内容,具备长镜头生成、实时渲染等先进特性,通过优化架构显著降低计算成本。
546 10
导演失业预警!Seaweed-7B:字节7B参数模型让剧本自动变电影!20秒长镜头丝滑生成
|
12月前
|
机器学习/深度学习 人工智能 前端开发
魔搭社区模型速递(3.23-3.29)
🙋魔搭ModelScope本期社区进展:619个模型,93个数据集,151个创新应用,7篇内容。
539 4
魔搭社区模型速递(3.23-3.29)
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
PaddleSpeech:百度飞桨开源语音处理神器,识别合成翻译全搞定
PaddleSpeech是百度飞桨团队推出的开源语音处理工具包,集成语音识别、合成、翻译等核心技术,基于PaddlePaddle框架提供高性能解决方案。
1178 18
PaddleSpeech:百度飞桨开源语音处理神器,识别合成翻译全搞定
|
人工智能 数据可视化 数据挖掘
QVQ-Max:阿里通义新一代视觉推理模型!再造多模态「全能眼」秒解图文难题
QVQ-Max是阿里通义推出的新一代视觉推理模型,不仅能解析图像视频内容,还能进行深度推理和创意生成,在数学解题、数据分析、穿搭建议等场景展现强大能力。
1283 15
QVQ-Max:阿里通义新一代视觉推理模型!再造多模态「全能眼」秒解图文难题
|
人工智能 并行计算 PyTorch
TripoSR:开源3D生成闪电战!单图0.5秒建模,Stability AI颠覆设计流程
TripoSR是由Stability AI和VAST联合推出的开源3D生成模型,能在0.5秒内从单张2D图像快速生成高质量3D模型,支持游戏开发、影视制作等多领域应用。
827 13
TripoSR:开源3D生成闪电战!单图0.5秒建模,Stability AI颠覆设计流程

热门文章

最新文章