让AI认出「生狗」?Facebook构建能感知变化算子的人工智能

简介: Facebook AI的最新研究在如何训练人工智能像人类一样感知周遭的细微变化方面取得了一些进展。

                    微信图片_20220113000253.jpg

 新智元报道  

来源:Facebook AI

编辑:LQ

【新智元导读】Facebook AI的最新研究在如何训练人工智能像人类一样感知周遭的细微变化方面取得了一些进展。


一条狗,即使是之前从未见过的品种、颜色,我们也能一眼认出它。

 

对周遭任何变化的感知是人类与生俱来的能力。

 

但是人工智能系统就不一样了,即使级别SOTA,能完成无数人类完成不了的任务,但也有很多对人类来说轻而易举的事情,它却搞不定,比如,让金毛换个角度:正面、侧面、前面、后面,人工智能可能会识别地很挣扎。

 

深度学习模型擅长解释像素和标签之间的统计模式,但却很难通过许多潜在的自然变化正确识别对象。

 

那是扫雪机在路上扫雪吗?还是一辆校车侧翻了?


微信图片_20220113000257.png

上图是根据M.A. Alcorn等人的 "Strike(with)a pose: Neural networks are easily fooled by strange poses of familiar objects"绘制,显示了一个深度神经网络将一辆公共汽车错误地分类为扫雪车。 


人类可以瞬间知道,但是颜色、大小和透视等因素使情况复杂化,增加了人工智能模型的预测难度。

 

Facebook AI一直在探索如何更好地捕捉自然变化,在这方面,传统解决方案有很大局限性,即所谓的解纠缠(disentanglement)。我们最近还提出了等变化移位算子(equivariant shift operator)的概念,这是一种替代解的概念证明,可以帮助模型理解通过模拟最常见的变换,物体可能会发生怎样的变化。

 

目前,Facebook AI在这方面的工作主要是理论性的,但是对于深度学习模型,特别是计算机视觉潜力巨大: 增加了可解释性和准确性,即使在小数据集上训练也有更好的性能,并提高了泛化能力。Facebook AI希望这些贡献能够使计算机视觉向前推进一步,更好地理解视觉世界的复杂性。

 

现行方法的局限


目前的解纠缠方法试图通过将模型中的每个因子编码到模型内部表示的一个单独的子空间中,来学习模型中对象的基本变换。

 

例如,解纠缠可能将狗图像的数据集编码为姿态、颜色和品种子空间。




微信图片_20220113000300.png



这种方法在识别刚性数据集的变化因素方面很有优势,比如一个单一的 MNIST 数字或者一个单一的对象,比如一把椅子,但是我们已经发现,在多个分类中,解纠缠的表现很差。

 

想象一下多个旋转的形状,比如三角形和正方形。解纠缠模型试图将物体的形状和方向这两个变化因素分离成两个变化因素。

 

下图说明了传统的解纠缠是无法在多个形状的数据集中孤立旋转的。我们期望高亮显示的形状会旋转,但是由于解纠缠失败,形状仍然是固定的。


 微信图片_20220113000302.png


解纠缠还带来了拓扑缺陷,这是一系列众多变换中的另一个问题。拓扑缺陷违背连续性——深度学习模型的本质属性。如果没有连续性,深度学习模型可能很难有效地学习数据中的模式。


微信图片_20220113000305.png


想象一下正三角形的旋转。旋转120度的正三角形与原来的三角形无法区分,导致在方向空间中有相同的表示。然而,通过在三角形的一个角上加一个无穷小的点,表示变得可辨别,违反了连续性。附近的图像映射到相距较远的图像。Facebook AI的研究还表明,拓扑缺陷出现在非对称形状和许多其他常见的变换中。

 

利用等变化算子揭示变化因子

 

与其将每个转换限制为一个表示的一个组件,如果转换可以改变整个表示呢?这种方法的目标是发现能够操纵图像及其表示的操作符ーー每个变化因子的一个操作符。这些被称为等变量。

 


微信图片_20220113000308.png


有一个数学分支「群论」可以教我们应用等变化算子的很多知识。它表明,一个直观的方式来理解变化因素是将他们模拟为一组转换。例如,一个三角形的旋转有一个组的结构: 90度旋转和30度旋转结合起来产生120度旋转。

 

Facebook AI利用这些想法来识别传统解纠缠的缺点,并确定如何训练等变化算子来解纠缠。我们提出了一个等变化算子,称为移位算子。这是一个矩阵,其块体模仿了常见变换的组结构--旋转、平移和重缩放。然后在原始图像和它们的转换上训练一个人工智能模型。


 微信图片_20220113000310.png 


这样就会发现,即使在包含多个类的数据集中,移位算子也能成功地学习变换--这正是传统解纠缠经常失败的条件。

 

未来

 

基于群论的等变模型极大地扩展了解纠缠的研究范围,现有的模型依赖于强有力的监督,例如先验地理解利益的转化,并在模型中加以实施。

 

但是,如何使用最少量的监督发现一个数据集的对称性?以前在这个领域的研究主要应用于合成数据,所以当他们面对不寻常的观察时,如一辆公共汽车侧面或一只狗的嘴里有一个超大的玩具时,基本对称性的知识可以使模型更加可靠。

 

人类通过直观地将不明物体与以前见过的物体进行比较来识别不明物体。模型可以被训练成与图像子部分的变换相等,而且关键的是,当遇到未知对象时,模型可以重新组合子部分。

 

最后,用基于群论的模型处理真实数据集是具有挑战性的,因为群体结构没有得到完全尊重。例如,当在非均匀背景中旋转一个物体时,有许多方法可以推断出旋转后出现的像素值。将这个想法扩展到更真实的设置和数据集,例如没有人工增强的图像,可能会被证明是一个有价值的方法。

 

参考资料:

https://ai.facebook.com/blog/building-ai-that-can-understand-variation-in-the-world-around-us/?utm_source=hootsuite&utm_medium=twitter&utm_term=facebookai&utm_content=05497535-f801-43ff-9b92-c4537125b3aa&utm_campaign=AI%20Blog

相关文章
|
18天前
|
人工智能
巧妙构建歌词结构:写歌词的技巧和方法之关键,妙笔生词AI智能写歌词软件
在音乐世界里,歌词是灵魂的载体,构建其结构至关重要。优秀的歌词需有引人入胜的开头、条理清晰且富变化的主体,以及深刻难忘的结尾。《妙笔生词智能写歌词软件》提供多种功能,帮助创作者克服结构难题,激发灵感,助你写出打动人心的歌词,开启音乐创作的新篇章。
|
11天前
|
人工智能 前端开发 Java
基于开源框架Spring AI Alibaba快速构建Java应用
本文旨在帮助开发者快速掌握并应用 Spring AI Alibaba,提升基于 Java 的大模型应用开发效率和安全性。
基于开源框架Spring AI Alibaba快速构建Java应用
|
10天前
|
人工智能 运维 NoSQL
云栖大会|多模+一体化,构建更高效的AI应用
在2024年云栖大会「NoSQL数据库」专场,多位知名企业和阿里云瑶池数据库团队的技术专家,共同分享了阿里云Lindorm、Tair、MongoDB和MyBase的最新进展与实践。Tair推出Serverless KV服务,解决性能瓶颈和运维难题;Lindorm助力AI和具身智能时代的多模数据处理;MongoDB云原生化提升开发效率;MyBase One打破云边界,提供云边端一体化服务。这些技术进展和最佳实践,展示了阿里云在NoSQL数据库领域的创新能力和广泛应用前景。
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI驱动的个性化学习平台构建###
【10月更文挑战第29天】 本文将深入探讨如何利用人工智能技术,特别是机器学习与大数据分析,构建一个能够提供高度个性化学习体验的在线平台。我们将分析当前在线教育的挑战,提出通过智能算法实现内容定制、学习路径优化及实时反馈机制的技术方案,以期为不同背景和需求的学习者创造更加高效、互动的学习环境。 ###
28 3
|
15天前
|
机器学习/深度学习 人工智能 搜索推荐
人工智能与未来医疗:AI技术如何重塑医疗健康领域###
【10月更文挑战第21天】 一场由AI驱动的医疗革命正在悄然发生,它以前所未有的速度和深度改变着我们对于疾病预防、诊断、治疗及健康管理的认知。本文探讨了AI在医疗领域的多维度应用,包括精准医疗、药物研发加速、远程医疗普及以及患者个性化治疗体验的提升,揭示了这场技术变革背后的深远意义与挑战。 ###
45 6
|
16天前
|
人工智能 API 决策智能
swarm Agent框架入门指南:构建与编排多智能体系统的利器 | AI应用开发
Swarm是OpenAI在2024年10月12日宣布开源的一个实验性质的多智能体编排框架。其核心目标是让智能体之间的协调和执行变得更轻量级、更容易控制和测试。Swarm框架的主要特性包括轻量化、易于使用和高度可定制性,非常适合处理大量独立的功能和指令。【10月更文挑战第15天】
115 6
|
18天前
|
人工智能
写歌词的技巧和方法:构建独特歌词结构的策略,妙笔生词AI智能写歌词软件
歌词创作如同搭建艺术殿堂,独特的歌词结构是其基石。掌握构建策略,让你的歌词脱颖而出。开头营造神秘氛围或出人意料的情感,主体部分采用倒叙、插叙或融合矛盾情感,结尾带来情感反转或深邃思考。《妙笔生词智能写歌词软件》提供 AI 智能写词、押韵优化等功能,助你轻松获取灵感,打造独特歌词结构。
|
17天前
|
人工智能 自动驾驶 数据安全/隐私保护
人工智能的伦理困境:我们如何确保AI的道德发展?
【10月更文挑战第21天】随着人工智能(AI)技术的飞速发展,其在各行各业的应用日益广泛,从而引发了关于AI伦理和道德问题的讨论。本文将探讨AI伦理的核心问题,分析当前面临的挑战,并提出确保AI道德发展的建议措施。
|
17天前
|
人工智能 搜索推荐 安全
人工智能与未来社会:探索AI在教育领域的革命性影响
本文深入探讨了人工智能(AI)技术在教育领域的潜在影响和变革。通过分析AI如何个性化学习路径、提高教学效率以及促进教育资源的公平分配,我们揭示了AI技术对教育模式的重塑力量。文章还讨论了实施AI教育所面临的挑战,包括数据隐私、伦理问题及技术普及障碍,并提出了相应的解决策略。通过具体案例分析,本文旨在启发读者思考AI如何助力构建更加智能、高效和包容的教育生态系统。
|
24天前
|
人工智能 Android开发
1024 云上见 构建AI总结助手,实现智能文档摘要 领罗马仕安卓充电器
1024 云上见 构建AI总结助手,实现智能文档摘要 领罗马仕安卓充电器
50 1