ObjectMover:港大联合Adobe打造图像编辑黑科技,移动物体光影自动匹配

简介: 香港大学与Adobe联合研发的ObjectMover模型,通过视频生成先验迁移技术,实现图像中物体的自然移动、删除和插入,自动保持光影一致性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎨 「PS修图师颤抖吧!这个AI连物体影子都能自动补光,港大黑科技炸场」

大家好,我是蚝油菜花。当同行还在用仿制图章工具手动补光影时,这个由香港大学与Adobe联合研发的模型,已经让图像编辑进入「指哪打哪」的智能时代!

你是否被这些修图噩梦折磨过——

  • 👉 移动花瓶后,桌面反光像被狗啃过一样突兀
  • 👉 删除路人甲,地面阴影却留下人形空洞
  • 👉 插入新物体时,光照角度总像来自异次元...

今天要解剖的 ObjectMover ,正在重定义图像编辑!这个基于视频生成迁移学习的AI手术刀,用三大绝技让后期效率飙升:

  • 物理规律全自动:移动物体时,连带影子/反光/折射同步智能调整
  • 跨场景泛化王:在游戏引擎合成的百万级数据中学会「光线的语言」
  • 多任务通吃:移除/插入/移动三合一,商业级效果直出

已有电影团队用它重制经典场景,电商公司靠它批量生成产品场景图——你的PS工具栏,是时候迎接这位「光影魔术师」了!

🚀 快速阅读

ObjectMover是香港大学与Adobe联合开发的图像编辑模型。

  1. 功能:实现物体移动/删除/插入时的自动光影匹配
  2. 原理:将图像编辑视为视频帧生成任务,迁移视频模型的跨帧一致性能力

ObjectMover 是什么

ObjMover-demo

ObjectMover 是香港大学和 Adobe Research 联合提出的新型图像编辑模型,专门解决图像中物体移动、插入和移除时出现的光照、阴影不协调以及物体失真等问题。该模型将物体移动视为两帧视频的特殊案例,创新性地利用了预训练视频生成模型的跨帧一致性学习能力。

通过微调技术将视频生成模型迁移到图像编辑任务,ObjectMover采用序列到序列的建模方式。其输入包括原始图像、目标物体图像和指令图,输出为物体移动后的合成图像,在保持物体身份特征的同时,实现了物理效果的自然过渡。

ObjectMover 的主要功能

  • 物体移动:可将图像中的物体移动到指定位置,自动调整相关的物理效果,如光照、阴影、反射等,同时保持物体的身份特征
  • 物体删除:能真实地填充被移除物体的背景,非生成不相干的新物体,准确地移除与物体相关的光影
  • 物体插入:能精准保持被插入物体的身份特征,自动生成与环境一致的光影效果

ObjectMover 的技术原理

  • 视频先验迁移:将物体移动任务视为两帧视频案例,利用预训练视频生成模型(如扩散模型)对跨帧一致性的学习能力
  • 序列到序列建模:输入包括原始图像、目标物体图像和指令图,输出为物体移动后的合成图像,形成端到端处理流程
  • 合成数据集构建:使用现代游戏引擎生成高质量合成数据对,覆盖复杂光照、材质和遮挡场景
  • 多任务学习策略:结合物体移动、移除、插入及视频数据插入四个子任务,提升模型泛化能力

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
人工智能 前端开发 算法
Vibe Draw:涂鸦秒变3D模型!开源AI建模神器解放创意生产力
Vibe Draw 是一款基于AI技术的开源3D建模工具,通过Next.js和FastAPI构建,能将用户绘制的2D草图智能转化为3D模型,并支持文本提示优化和场景构建。
949 35
Vibe Draw:涂鸦秒变3D模型!开源AI建模神器解放创意生产力
|
5月前
|
存储 SQL NoSQL
RAG系统的随机失败问题排查:LLM的非确定性与表格处理的工程实践
本文揭秘RAG系统在真实场景中的三大隐藏陷阱:LLM非确定性输出、重复表格数据干扰与模糊提示导致的解析错误。通过锁定温度参数、过滤冗余分块、重写硬性Prompt,并采用混合检索架构,实现稳定准确的生产级RAG系统。
297 7
RAG系统的随机失败问题排查:LLM的非确定性与表格处理的工程实践
|
人工智能 图形学
PhysGen3D:清华等高校联合推出,单图秒变交互式3D场景
PhysGen3D是清华等高校联合开发的创新框架,通过单张图像重建3D场景并模拟物理行为,实现从静态图像到动态交互的突破性转换。
463 15
PhysGen3D:清华等高校联合推出,单图秒变交互式3D场景
|
7月前
|
人工智能 编解码 搜索推荐
AI智能换背景,助力电商图片营销升级
电商产品图换背景是提升销量与品牌形象的关键。传统抠图耗时费力,AI技术则实现一键智能换背景,高效精准。本文详解燕雀光年AI全能设计、Canva、Remove.bg等十大AI工具,涵盖功能特点与选型建议,助力商家快速打造高质量、高吸引力的商品图,提升转化率与品牌价值。(238字)
758 0
|
人工智能 算法 语音技术
Video-T1:视频生成实时手术刀!清华腾讯「帧树算法」终结闪烁抖动
清华大学与腾讯联合推出的Video-T1技术,通过测试时扩展(TTS)和Tree-of-Frames方法,显著提升视频生成的连贯性与文本匹配度,为影视制作、游戏开发等领域带来突破性解决方案。
464 4
Video-T1:视频生成实时手术刀!清华腾讯「帧树算法」终结闪烁抖动
|
5月前
|
人工智能 缓存 监控
Coze AI 智能体工作流配置与实战全指南
Coze工作流让AI智能体从问答工具进化为复杂任务执行者。通过可视化编排,可构建如智能旅行规划等多步骤自动化系统,支持并行处理、条件分支与错误恢复。结合触发、LLM、工具与判断节点,实现高效、可维护的智能流程,助力AI成为真正的“数字同事”。
|
数据处理 数据格式
|
SQL Oracle 关系型数据库
|
监控 安全 网络安全
|
前端开发 JavaScript 开发者
playwright中定位元素的方法
playwright中定位元素的方法
858 1

热门文章

最新文章