AI 学会从视频中预测人类行为

简介: AI 学会从视频中预测人类行为

哥伦比亚工程研究人员开发了计算机视觉算法,用于预测视频中的人类互动和肢体语言,这种能力可以应用于辅助技术、自动驾驶汽车和协作机器人。


640.jpg

人工智能模型可以识别未来何时不确定,并能够“对冲赌注”,就像一个人会做的那样。例如,当模型发现无法预测两个人是要拥抱还是握手时,它会预测他们会互相问候。《苹果酒屋规则》(上)和芒福德(下)的剧照纽约州纽约市- 2021 年 6 月 28 日 - 根据某人的肢体语言预测某人接下来将要做什么对人类来说是很自然的,但对计算机而言则不然。当我们遇到另一个人时,他们可能会向我们打招呼、握手甚至是撞拳。我们可能不知道会使用哪种手势,但我们可以阅读情况并做出适当的反应。

在一项新研究中,哥伦比亚工程学院的研究人员推出了一种计算机视觉技术,通过利用人、动物和物体之间的更高层次的关联,让机器对接下来会发生的事情有更直观的感觉。

哥伦比亚大学计算机科学助理教授卡尔·冯德里克( Carl Vondrick ) 指导了这项研究,他说:“我们的算法是朝着机器能够对人类行为做出更好预测,从而更好地协调他们的行为与我们的行为迈出的一步” 2021 年 6 月 24 日举行的计算机视觉和模式识别国际会议。 “我们的结果为人机协作、自动驾驶汽车和辅助技术开辟了许多可能性。”

研究人员说,这是迄今为止预测未来几分钟内视频动作事件的最准确方法。在分析了数千小时的电影、体育比赛和“办公室”等节目后,该系统学会了预测数百种活动,从握手到拳头碰撞。当它无法预测具体动作时,它会找到将它们联系起来的更高级别的概念,在这种情况下,就是“问候”这个词。

过去在预测机器学习方面的尝试,包括团队的尝试,都集中在一次只预测一个动作。算法决定是否将动作归类为拥抱、击掌、握手,甚至是“忽略”等非动作。但是当不确定性很高时,大多数机器学习模型都无法找到可能选项之间的共性。

哥伦比亚工程博士生Didac Suris 和 Ruoshi Liu 决定从不同的角度看待更长期的预测问题。“并非未来的一切都是可以预测的,”该论文的共同主要作者苏里斯说。“当一个人无法准确预见会发生什么时,他们会谨慎行事并在更高的抽象层次上进行预测。我们的算法是第一个学习这种抽象推理未来事件能力的算法。”


1684937554754.png

AI 模型可以识别未来何时不确定,并能够像一个人那样“对冲赌注”。


苏里斯和刘不得不重新审视可追溯到古希腊的数学问题。在高中,学生们学习了熟悉而直观的几何规则——直线是笔直的,平行线永远不会交叉。大多数机器学习系统也遵守这些规则。但是,其他几何图形具有奇异的、违反直觉的特性。直线弯曲,三角形凸出。Suris 和 Liu 使用这些不寻常的几何形状来构建 AI 模型,这些模型可以组织高级概念并预测未来的人类行为。

“预测是人类智慧的基础上,说:”奥德奥利瓦,在麻省理工学院高级研究科学家和麻省理工学院,IBM沃森人工智能实验室的副主任,在人工智能和人类认知的专家谁没有参与这项研究. “机器会犯人类永远不会犯的错误,因为它们缺乏我们抽象推理的能力。这项工作是弥合这一技术差距的关键一步。”

研究人员开发的数学框架使机器能够根据事件在未来的可预测性来组织事件。例如,我们知道游泳和跑步都是锻炼的形式。新技术学习如何自行对这些活动进行分类。系统意识到不确定性,在确定时提供更具体的操作,在不确定时提供更通用的预测。

研究人员说,这项技术可以让计算机更接近于能够评估情况并做出细微的决定,而不是预先编程的动作。该论文的共同主要作者说,这是在人与计算机之间建立信任的关键一步。“信任来自机器人真正了解人的感觉,”他解释道。“如果机器能够理解和预测我们的行为,计算机将能够无缝地协助人们进行日常活动。”

Vondrick 说,虽然新算法对基准任务的预测比以前的方法更准确,但接下来的步骤是验证它在实验室外是否有效。研究人员说,如果该系统可以在不同的环境中工作,那么部署机器和机器人的可能性就会很大,这些机器和机器人可能会改善我们的安全、健康和保障。该小组计划继续使用更大的数据集和计算机以及其他形式的几何来提高算法的性能。

“人类的行为往往令人惊讶,”冯德里克评论道。“我们的算法使机器能够更好地预测下一步要做什么。”

相关文章
|
1月前
|
人工智能 编解码 API
【选择”丹摩“深入探索智谱AI的CogVideoX:视频生成的新前沿】
【选择”丹摩“深入探索智谱AI的CogVideoX:视频生成的新前沿】
|
2月前
|
人工智能
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM
【9月更文挑战第26天】中电金信与复旦大学合作,提出一种基于身份信息增强的多媒体伪造检测方法,并入选ACM MM国际会议。该方法利用身份信息作为检测线索,构建了含54位名人324个视频的多模态伪造数据集IDForge,设计了参考辅助的多模态伪造检测网络R-MFDN,显著提升了检测性能,准确率达到92.90%。尽管如此,该方法仍存在一定局限性,如对非英语国家数据及无明确身份信息的视频检测效果可能受限。
52 4
|
1月前
|
人工智能 自然语言处理 搜索推荐
Sora - 探索AI视频模型的无限可能
这篇文章详细介绍了Sora AI视频模型的技术特点、应用场景、未来展望以及伦理和用户体验等方面的问题。
26 0
|
3月前
|
机器学习/深度学习 人工智能 编解码
|
3月前
|
人工智能 搜索推荐
影视与游戏行业AI视频制作的第3步:为角色生成说话视频
继 影视与游戏行业AI视频制作实战:第一步,角色形象设计的一致性以及影视与游戏行业AI视频制作实战:第二步,为角色生成个性化语音 后,实现角色生动化的下一步动作就是能让图像动起来。
|
3月前
|
人工智能 开发者
黑神话:悟空中的AI行为树设计
【8月更文第26天】在《黑神话:悟空》这款游戏中,NPC(非玩家角色)的智能行为对于创造一个富有沉浸感的游戏世界至关重要。为了实现复杂的敌人行为模式,游戏开发团队采用了行为树作为NPC决策的核心架构。本文将详细介绍《黑神话:悟空》中NPC AI的设计原理,特别关注行为树的设计与实现。
168 0
|
3月前
|
人工智能 自然语言处理 语音技术
使用AI识别语音和B站视频并通过GPT生成思维导图原创
AI脑图现新增语音及B站视频内容识别功能,可自动生成思维导图。用户可通过发送语音或上传语音文件,系统自动转换为文本并生成结构化的思维导图;对于B站视频,仅需提供链接即可。其工作流程包括:语音转文本、文本结构化、生成Markdown、Markdown转思维导图HTML以及输出最终的思维导图图片给用户。
76 0
|
3月前
|
机器学习/深度学习 人工智能 数据处理
AI计算机视觉笔记一:YOLOV5疲劳驾驶行为检测
如何使用云服务器AutoDL进行深度学习模型的训练,特别是针对YOLOV5疲劳驾驶行为训练检测
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC-基于EAS服务快速部署一个AI视频生成
AIGC-基于EAS服务快速部署一个AI视频生成
|
3月前
|
机器学习/深度学习 人工智能 算法