MIT人工智能算法披露:我们如何用 200 万张图片预见 1.5 秒后的世界?

简介:

我们生活在物理世界里,但往往没有深入思考这样一个问题:自己是如何迅速理解周边事物的?

人类能够对背景的变化、事物之间的相互关联等等做出非常自然的反应。而且,这些反应并不会耗费我们多少注意力,同时还能处理得非常妥帖。

但是,人类的这种与生俱来的能力对于机器来说就没那么简单了。对于一个事物,其潜在发展的变化方式有成千上万种可能,这让计算机学会如何正确地做出预测是非常困难的。

近期,麻省理工学院(MIT)计算科学与人工智能实验室(CSAIL)的研究工作者的一项研究成果再次推进了机器学习的发展。深度学习算法仅仅通过一张图片,就可以让计算机便生成一小段视频来模拟图中场景,并预测接下来会发生的情景。

训练过程使用了 200 万个无标签的镜头,视频总时长达一年。相比使用基准模型算法,这一算法生成的视频更真实。在测试过程中,深度学习算法生成的视频和比基准模型算法真实度高了 20%。

研究团队称,这项技术可以用于改进安检策略、提高自动驾驶安全性等诸多领域。据该实验室博士生与第一作者透露,这一算法能够实现人类活动的机器识别从而摆脱人工识别的高昂费用。

“这些视频展现了电脑认为将会发生的场景,”Vondrick 表示,“如果你可以预测未来,那么你必须能够理解目前发生的事情。“Vondrick、MIT 教授 Antonio Torralba 还有 Hamed Pirsiavash 教授共同发表的这一成果。Pirsiavash 教授是 CSAIL 的博士后,现于马里兰大学担任教授。这项工作将于下周在巴塞罗那召开的神经信息处理系统大会(NIPS)上展出。

MIT人工智能算法披露:我们如何用 200 万张图片预见 1.5 秒后的世界?

MIT人工智能实验室使用深度学习算法生成预测性视频。图为沙滩、运动、火车站及医院的预测结果

MIT人工智能算法披露:我们如何用 200 万张图片预见 1.5 秒后的世界?

此项目花费了近两年的时间让算法“学习”两百万幅未加标签的视频。

动态视觉

许多计算机视觉领域的研究工作都研究过类似的课题,包括 MIT 教授 Bill Freeman。Freeman 教授近期的关于“动态视觉”的课题同样是研究对一个场景主动生成未来几帧的图像,不过他所提出的问题模型集中在解决未来视频的推断上。这是先前研究成果中未出现过的。

以往的系统模型逐帧重建场景,通常会在边缘有较大误差。与此相反,这项研究攻克了“建立整个场景”的难题,算法从一开始就能产生帧率为 32 的视频。

“逐帧建立场景就像玩 Telephone Game 一样(Telephone Game 是什么?传送门:http://icebreakerideas.com/telephone-game/),在屋里转一圈后信息便已经大相径庭了。”Vondrick 说道,“一次性地处理一整个场景,就好比这个游戏中你能将消息传给所有人一样。”

当然,在同时生产所有场景时会有一些权衡,并且针对长视频,计算机模型也是非常复杂的,但这一结果在逐渐变得准确。这种精准的预测相对于增加的复杂度是非常值得的。为了建立多帧场景,研究工作者训练计算机来区分前景和背景。而后将提取的对象放回视频中再训练,哪个部分是静止的,哪个部分是运动的。

研究团队使用称作“adversarial learning”的深度学习算法,该方法训练两个竞争神经网络。其中一个神经网络生成视频,另一个作为检测器寻找生成视频与原视频的不同。

通过训练,视频生成的结果便可以骗过检测器。此时,这一模型可以生成诸如海滩、火车站、医院、高尔夫球场等场景。比如,海滩模型可以生成海浪,高尔夫球场模型可以生成草坪上走动的人群。

MIT人工智能算法披露:我们如何用 200 万张图片预见 1.5 秒后的世界?

团队使用两个相互竞争的神经网络。高斯白噪声输入到系统G产生虚假视频,选择性的将真是视频或是虚假视频送入到系统D中,输出后得到真实的视频。

MIT人工智能算法披露:我们如何用 200 万张图片预见 1.5 秒后的世界?

其中一个网络的工作过程具体如上图,将 100dB 的白噪声分别输入到前景和背景图流中,在进行采样和 Sigmoid 蒙版处理,得到参数并根据公式生成空时图像矩阵,从而产生视频。

MIT人工智能算法披露:我们如何用 200 万张图片预见 1.5 秒后的世界?尽管还有人怀疑视频到底是真实的还是虚假的,但这的确已取得很大进步。

MIT人工智能算法披露:我们如何用 200 万张图片预见 1.5 秒后的世界?

这个系统将努力学习这个世界,比如前景背景的分割。上图为该算法的图像分割技术,可以得到前景和背景图。

场景测试

研究团队将该方法生成的视频与基准模型方法的结果做出比对,通过询问测试者哪种结果更加真实来给出判决。从 150 位测试者提供的 13000 个结果中,认为前者更真实的结果数量相比后者高出 20%。

Vondrick 强调目前这一模型还欠缺一些简化的常识性准则。例如,算法有时不能理解目标移动后所占用的区域会不会发生变化,比如贯穿画面的一列火车。此外算法生成的人和物的尺寸会看起来比实际大很多。

另一个限制因素是时间,该算法生成的视频仅仅能持续 1.5 秒。在后期研究工作中,他们团队期待可以增加时间。但是这是个不小的挑战,因为这要求算法计算相隔较远的时间点上的相关性,从而确保景象仍然在更长时间内是说得通的。解决这个问题的一个方法是使用监督学习。

“在一个视频的长时间段中想要搜罗到精确的信息非常困难。”Vondrick 认为,“如果一个视频里既包括做饭又含有吃饭的活动,那么必须使这两个动作之间产生互相关,从而使得视频看起来更加准确。”

这种模型并不局限于预测未来。生成的视频还可以用来美化静态图片,赋之以动态效果。就像“哈利波特”电影中的报纸一样充满灵动感。这种模型还可以帮助人类检测安全连续镜头下的异常。此外,在存储和发送长视频文件方面,该模型还可以帮助压缩文件。

“未来,这项技术将会扩展我们的视觉系统,仅仅训练一些视频而不再需要监督学习,就能识别物体和景象。”Vondrick 说道。

via MIT CSAIL


本文作者:sunshine_lady


本文转自雷锋网禁止二次转载,原文链接

相关文章
|
7月前
|
人工智能 算法 搜索推荐
电商API的“AI革命”:全球万亿市场如何被算法重新定义?
AI+电商API正引领智能商业变革,通过智能推荐、动态定价与自动化运营三大核心场景,大幅提升转化率、利润率与用户体验。2025年,75%电商API将具备个性化能力,90%业务实现智能决策,AI与API的深度融合将成为未来电商竞争的关键基石。
|
10月前
|
人工智能 自然语言处理 算法
阿里云 AI 搜索开放平台:从算法到业务——AI 搜索驱动企业智能化升级
本文介绍了阿里云 AI 搜索开放平台的技术的特点及其在各行业的应用。
1003 3
|
5月前
|
机器学习/深度学习 人工智能 算法
当AI提示词遇见精密算法:TimeGuessr如何用数学魔法打造文化游戏新体验
TimeGuessr融合AI与历史文化,首创时间与空间双维度评分体系,结合分段惩罚、Haversine距离计算与加权算法,辅以连击、速度与完美奖励机制,实现公平且富挑战性的游戏体验。
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
604 5
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
7月前
|
机器学习/深度学习 人工智能 算法
AI-Compass RLHF人类反馈强化学习技术栈:集成TRL、OpenRLHF、veRL等框架,涵盖PPO、DPO算法实现大模型人类价值对齐
AI-Compass RLHF人类反馈强化学习技术栈:集成TRL、OpenRLHF、veRL等框架,涵盖PPO、DPO算法实现大模型人类价值对齐
 AI-Compass RLHF人类反馈强化学习技术栈:集成TRL、OpenRLHF、veRL等框架,涵盖PPO、DPO算法实现大模型人类价值对齐
|
7月前
|
机器学习/深度学习 人工智能 算法
AI-Compass 强化学习模块:理论到实战完整RL技术生态,涵盖10+主流框架、多智能体算法、游戏AI与金融量化应用
AI-Compass 强化学习模块:理论到实战完整RL技术生态,涵盖10+主流框架、多智能体算法、游戏AI与金融量化应用
|
12月前
|
人工智能 编解码 算法
DeepSeek加持的通义灵码2.0 AI程序员实战案例:助力嵌入式开发中的算法生成革新
本文介绍了通义灵码2.0 AI程序员在嵌入式开发中的实战应用。通过安装VS Code插件并登录阿里云账号,用户可切换至DeepSeek V3模型,利用其强大的代码生成能力。实战案例中,AI程序员根据自然语言描述快速生成了C语言的base64编解码算法,包括源代码、头文件、测试代码和CMake编译脚本。即使在编译错误和需求迭代的情况下,AI程序员也能迅速分析问题并修复代码,最终成功实现功能。作者认为,通义灵码2.0显著提升了开发效率,打破了编程语言限制,是AI编程从辅助工具向工程级协同开发转变的重要标志,值得开发者广泛使用。
9006 71
DeepSeek加持的通义灵码2.0 AI程序员实战案例:助力嵌入式开发中的算法生成革新
|
6月前
|
人工智能 算法 计算机视觉
只需完成手画线稿,让AI算法帮你自动上色
本文介绍了如何利用图像处理技术生成手绘风格图像及自动上色的方法。内容涵盖图像灰度化、梯度调整、虚拟深度实现手绘效果,以及使用 Python 编程实现相关算法。此外,还介绍了 AI 工具 Style2Paints V4.5,其可为线稿自动上色并支持多种线稿类型,如插画和手绘铅笔稿,适用于艺术创作与图像处理领域。
|
10月前
|
机器学习/深度学习 人工智能 JSON
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
Paper2Code是由韩国科学技术院与DeepAuto.ai联合开发的多智能体框架,通过规划、分析和代码生成三阶段流程,将机器学习论文自动转化为可执行代码仓库,显著提升科研复现效率。
1303 19
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现

热门文章

最新文章