哥伦比亚工程研究人员开发了计算机视觉算法,用于预测视频中的人类互动和肢体语言,这种能力可以应用于辅助技术、自动驾驶汽车和协作机器人。
人工智能模型可以识别未来何时不确定,并能够“对冲赌注”,就像一个人会做的那样。例如,当模型发现无法预测两个人是要拥抱还是握手时,它会预测他们会互相问候。《苹果酒屋规则》(上)和芒福德(下)的剧照纽约州纽约市- 2021 年 6 月 28 日 - 根据某人的肢体语言预测某人接下来将要做什么对人类来说是很自然的,但对计算机而言则不然。当我们遇到另一个人时,他们可能会向我们打招呼、握手甚至是撞拳。我们可能不知道会使用哪种手势,但我们可以阅读情况并做出适当的反应。
在一项新研究中,哥伦比亚工程学院的研究人员推出了一种计算机视觉技术,通过利用人、动物和物体之间的更高层次的关联,让机器对接下来会发生的事情有更直观的感觉。
哥伦比亚大学计算机科学助理教授卡尔·冯德里克( Carl Vondrick ) 指导了这项研究,他说:“我们的算法是朝着机器能够对人类行为做出更好预测,从而更好地协调他们的行为与我们的行为迈出的一步。” 2021 年 6 月 24 日举行的计算机视觉和模式识别国际会议。 “我们的结果为人机协作、自动驾驶汽车和辅助技术开辟了许多可能性。”
研究人员说,这是迄今为止预测未来几分钟内视频动作事件的最准确方法。在分析了数千小时的电影、体育比赛和“办公室”等节目后,该系统学会了预测数百种活动,从握手到拳头碰撞。当它无法预测具体动作时,它会找到将它们联系起来的更高级别的概念,在这种情况下,就是“问候”这个词。
过去在预测机器学习方面的尝试,包括团队的尝试,都集中在一次只预测一个动作。算法决定是否将动作归类为拥抱、击掌、握手,甚至是“忽略”等非动作。但是当不确定性很高时,大多数机器学习模型都无法找到可能选项之间的共性。
哥伦比亚工程博士生Didac Suris 和 Ruoshi Liu 决定从不同的角度看待更长期的预测问题。“并非未来的一切都是可以预测的,”该论文的共同主要作者苏里斯说。“当一个人无法准确预见会发生什么时,他们会谨慎行事并在更高的抽象层次上进行预测。我们的算法是第一个学习这种抽象推理未来事件能力的算法。”
AI 模型可以识别未来何时不确定,并能够像一个人那样“对冲赌注”。
苏里斯和刘不得不重新审视可追溯到古希腊的数学问题。在高中,学生们学习了熟悉而直观的几何规则——直线是笔直的,平行线永远不会交叉。大多数机器学习系统也遵守这些规则。但是,其他几何图形具有奇异的、违反直觉的特性。直线弯曲,三角形凸出。Suris 和 Liu 使用这些不寻常的几何形状来构建 AI 模型,这些模型可以组织高级概念并预测未来的人类行为。
“预测是人类智慧的基础上,说:”奥德奥利瓦,在麻省理工学院高级研究科学家和麻省理工学院,IBM沃森人工智能实验室的副主任,在人工智能和人类认知的专家谁没有参与这项研究. “机器会犯人类永远不会犯的错误,因为它们缺乏我们抽象推理的能力。这项工作是弥合这一技术差距的关键一步。”
研究人员开发的数学框架使机器能够根据事件在未来的可预测性来组织事件。例如,我们知道游泳和跑步都是锻炼的形式。新技术学习如何自行对这些活动进行分类。系统意识到不确定性,在确定时提供更具体的操作,在不确定时提供更通用的预测。
研究人员说,这项技术可以让计算机更接近于能够评估情况并做出细微的决定,而不是预先编程的动作。该论文的共同主要作者刘说,这是在人与计算机之间建立信任的关键一步。“信任来自机器人真正了解人的感觉,”他解释道。“如果机器能够理解和预测我们的行为,计算机将能够无缝地协助人们进行日常活动。”
Vondrick 说,虽然新算法对基准任务的预测比以前的方法更准确,但接下来的步骤是验证它在实验室外是否有效。研究人员说,如果该系统可以在不同的环境中工作,那么部署机器和机器人的可能性就会很大,这些机器和机器人可能会改善我们的安全、健康和保障。该小组计划继续使用更大的数据集和计算机以及其他形式的几何来提高算法的性能。
“人类的行为往往令人惊讶,”冯德里克评论道。“我们的算法使机器能够更好地预测下一步要做什么。”