AI 学会从视频中预测人类行为

简介: AI 学会从视频中预测人类行为

哥伦比亚工程研究人员开发了计算机视觉算法,用于预测视频中的人类互动和肢体语言,这种能力可以应用于辅助技术、自动驾驶汽车和协作机器人。


640.jpg

人工智能模型可以识别未来何时不确定,并能够“对冲赌注”,就像一个人会做的那样。例如,当模型发现无法预测两个人是要拥抱还是握手时,它会预测他们会互相问候。《苹果酒屋规则》(上)和芒福德(下)的剧照纽约州纽约市- 2021 年 6 月 28 日 - 根据某人的肢体语言预测某人接下来将要做什么对人类来说是很自然的,但对计算机而言则不然。当我们遇到另一个人时,他们可能会向我们打招呼、握手甚至是撞拳。我们可能不知道会使用哪种手势,但我们可以阅读情况并做出适当的反应。

在一项新研究中,哥伦比亚工程学院的研究人员推出了一种计算机视觉技术,通过利用人、动物和物体之间的更高层次的关联,让机器对接下来会发生的事情有更直观的感觉。

哥伦比亚大学计算机科学助理教授卡尔·冯德里克( Carl Vondrick ) 指导了这项研究,他说:“我们的算法是朝着机器能够对人类行为做出更好预测,从而更好地协调他们的行为与我们的行为迈出的一步” 2021 年 6 月 24 日举行的计算机视觉和模式识别国际会议。 “我们的结果为人机协作、自动驾驶汽车和辅助技术开辟了许多可能性。”

研究人员说,这是迄今为止预测未来几分钟内视频动作事件的最准确方法。在分析了数千小时的电影、体育比赛和“办公室”等节目后,该系统学会了预测数百种活动,从握手到拳头碰撞。当它无法预测具体动作时,它会找到将它们联系起来的更高级别的概念,在这种情况下,就是“问候”这个词。

过去在预测机器学习方面的尝试,包括团队的尝试,都集中在一次只预测一个动作。算法决定是否将动作归类为拥抱、击掌、握手,甚至是“忽略”等非动作。但是当不确定性很高时,大多数机器学习模型都无法找到可能选项之间的共性。

哥伦比亚工程博士生Didac Suris 和 Ruoshi Liu 决定从不同的角度看待更长期的预测问题。“并非未来的一切都是可以预测的,”该论文的共同主要作者苏里斯说。“当一个人无法准确预见会发生什么时,他们会谨慎行事并在更高的抽象层次上进行预测。我们的算法是第一个学习这种抽象推理未来事件能力的算法。”


1684937554754.png

AI 模型可以识别未来何时不确定,并能够像一个人那样“对冲赌注”。


苏里斯和刘不得不重新审视可追溯到古希腊的数学问题。在高中,学生们学习了熟悉而直观的几何规则——直线是笔直的,平行线永远不会交叉。大多数机器学习系统也遵守这些规则。但是,其他几何图形具有奇异的、违反直觉的特性。直线弯曲,三角形凸出。Suris 和 Liu 使用这些不寻常的几何形状来构建 AI 模型,这些模型可以组织高级概念并预测未来的人类行为。

“预测是人类智慧的基础上,说:”奥德奥利瓦,在麻省理工学院高级研究科学家和麻省理工学院,IBM沃森人工智能实验室的副主任,在人工智能和人类认知的专家谁没有参与这项研究. “机器会犯人类永远不会犯的错误,因为它们缺乏我们抽象推理的能力。这项工作是弥合这一技术差距的关键一步。”

研究人员开发的数学框架使机器能够根据事件在未来的可预测性来组织事件。例如,我们知道游泳和跑步都是锻炼的形式。新技术学习如何自行对这些活动进行分类。系统意识到不确定性,在确定时提供更具体的操作,在不确定时提供更通用的预测。

研究人员说,这项技术可以让计算机更接近于能够评估情况并做出细微的决定,而不是预先编程的动作。该论文的共同主要作者说,这是在人与计算机之间建立信任的关键一步。“信任来自机器人真正了解人的感觉,”他解释道。“如果机器能够理解和预测我们的行为,计算机将能够无缝地协助人们进行日常活动。”

Vondrick 说,虽然新算法对基准任务的预测比以前的方法更准确,但接下来的步骤是验证它在实验室外是否有效。研究人员说,如果该系统可以在不同的环境中工作,那么部署机器和机器人的可能性就会很大,这些机器和机器人可能会改善我们的安全、健康和保障。该小组计划继续使用更大的数据集和计算机以及其他形式的几何来提高算法的性能。

“人类的行为往往令人惊讶,”冯德里克评论道。“我们的算法使机器能够更好地预测下一步要做什么。”

相关文章
|
6天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
61 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
MMAudio 是一个基于多模态联合训练的高质量 AI 音频合成项目,能够根据视频内容或文本描述生成同步的音频。该项目适用于影视制作、游戏开发、虚拟现实等多种场景,提升用户体验。
43 7
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
|
13天前
|
机器学习/深度学习 存储 人工智能
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型,旨在解决SAM 2模型在移动设备上部署时的高计算复杂度问题。该模型采用非层次化Vision Transformer(ViT)作为图像编码器,并引入高效记忆模块,以降低计算复杂度,同时保持高质量的分割结果。EfficientTAM在多个视频分割基准测试中表现出与SAM 2相当的性能,具有更快的处理速度和更少的参数,特别适用于移动设备上的视频对象分割应用。
33 9
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
|
1天前
|
人工智能 小程序 API
【一步步开发AI运动小程序】十七、如何识别用户上传视频中的人体、运动、动作、姿态?
【云智AI运动识别小程序插件】提供人体、运动、姿态检测的AI能力,支持本地原生识别,无需后台服务,具有速度快、体验好、易集成等优点。本文介绍如何使用该插件实现用户上传视频的运动识别,包括视频解码抽帧和人体识别的实现方法。
|
20天前
|
机器学习/深度学习 人工智能 自然语言处理
LTX Video:Lightricks推出的开源AI视频生成模型
LTX Video是由Lightricks推出的开源AI视频生成模型,能够在4秒内生成5秒的高质量视频。该模型基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性,支持长视频制作,适用于多种场景,如游戏图形升级和电子商务广告变体制作。
78 1
LTX Video:Lightricks推出的开源AI视频生成模型
存储 人工智能 自然语言处理
45 6
|
2月前
|
人工智能 编解码 API
【选择”丹摩“深入探索智谱AI的CogVideoX:视频生成的新前沿】
【选择”丹摩“深入探索智谱AI的CogVideoX:视频生成的新前沿】
|
3月前
|
人工智能
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM
【9月更文挑战第26天】中电金信与复旦大学合作,提出一种基于身份信息增强的多媒体伪造检测方法,并入选ACM MM国际会议。该方法利用身份信息作为检测线索,构建了含54位名人324个视频的多模态伪造数据集IDForge,设计了参考辅助的多模态伪造检测网络R-MFDN,显著提升了检测性能,准确率达到92.90%。尽管如此,该方法仍存在一定局限性,如对非英语国家数据及无明确身份信息的视频检测效果可能受限。
86 4
|
2月前
|
人工智能 自然语言处理 搜索推荐
Sora - 探索AI视频模型的无限可能
这篇文章详细介绍了Sora AI视频模型的技术特点、应用场景、未来展望以及伦理和用户体验等方面的问题。
37 0
|
4月前
|
机器学习/深度学习 人工智能 编解码