让AI认出「生狗」?Facebook构建能感知变化算子的人工智能

简介: Facebook AI的最新研究在如何训练人工智能像人类一样感知周遭的细微变化方面取得了一些进展。

                    微信图片_20220113000253.jpg

 新智元报道  

来源:Facebook AI

编辑:LQ

【新智元导读】Facebook AI的最新研究在如何训练人工智能像人类一样感知周遭的细微变化方面取得了一些进展。


一条狗,即使是之前从未见过的品种、颜色,我们也能一眼认出它。

 

对周遭任何变化的感知是人类与生俱来的能力。

 

但是人工智能系统就不一样了,即使级别SOTA,能完成无数人类完成不了的任务,但也有很多对人类来说轻而易举的事情,它却搞不定,比如,让金毛换个角度:正面、侧面、前面、后面,人工智能可能会识别地很挣扎。

 

深度学习模型擅长解释像素和标签之间的统计模式,但却很难通过许多潜在的自然变化正确识别对象。

 

那是扫雪机在路上扫雪吗?还是一辆校车侧翻了?


微信图片_20220113000257.png

上图是根据M.A. Alcorn等人的 "Strike(with)a pose: Neural networks are easily fooled by strange poses of familiar objects"绘制,显示了一个深度神经网络将一辆公共汽车错误地分类为扫雪车。 


人类可以瞬间知道,但是颜色、大小和透视等因素使情况复杂化,增加了人工智能模型的预测难度。

 

Facebook AI一直在探索如何更好地捕捉自然变化,在这方面,传统解决方案有很大局限性,即所谓的解纠缠(disentanglement)。我们最近还提出了等变化移位算子(equivariant shift operator)的概念,这是一种替代解的概念证明,可以帮助模型理解通过模拟最常见的变换,物体可能会发生怎样的变化。

 

目前,Facebook AI在这方面的工作主要是理论性的,但是对于深度学习模型,特别是计算机视觉潜力巨大: 增加了可解释性和准确性,即使在小数据集上训练也有更好的性能,并提高了泛化能力。Facebook AI希望这些贡献能够使计算机视觉向前推进一步,更好地理解视觉世界的复杂性。

 

现行方法的局限


目前的解纠缠方法试图通过将模型中的每个因子编码到模型内部表示的一个单独的子空间中,来学习模型中对象的基本变换。

 

例如,解纠缠可能将狗图像的数据集编码为姿态、颜色和品种子空间。




微信图片_20220113000300.png



这种方法在识别刚性数据集的变化因素方面很有优势,比如一个单一的 MNIST 数字或者一个单一的对象,比如一把椅子,但是我们已经发现,在多个分类中,解纠缠的表现很差。

 

想象一下多个旋转的形状,比如三角形和正方形。解纠缠模型试图将物体的形状和方向这两个变化因素分离成两个变化因素。

 

下图说明了传统的解纠缠是无法在多个形状的数据集中孤立旋转的。我们期望高亮显示的形状会旋转,但是由于解纠缠失败,形状仍然是固定的。


 微信图片_20220113000302.png


解纠缠还带来了拓扑缺陷,这是一系列众多变换中的另一个问题。拓扑缺陷违背连续性——深度学习模型的本质属性。如果没有连续性,深度学习模型可能很难有效地学习数据中的模式。


微信图片_20220113000305.png


想象一下正三角形的旋转。旋转120度的正三角形与原来的三角形无法区分,导致在方向空间中有相同的表示。然而,通过在三角形的一个角上加一个无穷小的点,表示变得可辨别,违反了连续性。附近的图像映射到相距较远的图像。Facebook AI的研究还表明,拓扑缺陷出现在非对称形状和许多其他常见的变换中。

 

利用等变化算子揭示变化因子

 

与其将每个转换限制为一个表示的一个组件,如果转换可以改变整个表示呢?这种方法的目标是发现能够操纵图像及其表示的操作符ーー每个变化因子的一个操作符。这些被称为等变量。

 


微信图片_20220113000308.png


有一个数学分支「群论」可以教我们应用等变化算子的很多知识。它表明,一个直观的方式来理解变化因素是将他们模拟为一组转换。例如,一个三角形的旋转有一个组的结构: 90度旋转和30度旋转结合起来产生120度旋转。

 

Facebook AI利用这些想法来识别传统解纠缠的缺点,并确定如何训练等变化算子来解纠缠。我们提出了一个等变化算子,称为移位算子。这是一个矩阵,其块体模仿了常见变换的组结构--旋转、平移和重缩放。然后在原始图像和它们的转换上训练一个人工智能模型。


 微信图片_20220113000310.png 


这样就会发现,即使在包含多个类的数据集中,移位算子也能成功地学习变换--这正是传统解纠缠经常失败的条件。

 

未来

 

基于群论的等变模型极大地扩展了解纠缠的研究范围,现有的模型依赖于强有力的监督,例如先验地理解利益的转化,并在模型中加以实施。

 

但是,如何使用最少量的监督发现一个数据集的对称性?以前在这个领域的研究主要应用于合成数据,所以当他们面对不寻常的观察时,如一辆公共汽车侧面或一只狗的嘴里有一个超大的玩具时,基本对称性的知识可以使模型更加可靠。

 

人类通过直观地将不明物体与以前见过的物体进行比较来识别不明物体。模型可以被训练成与图像子部分的变换相等,而且关键的是,当遇到未知对象时,模型可以重新组合子部分。

 

最后,用基于群论的模型处理真实数据集是具有挑战性的,因为群体结构没有得到完全尊重。例如,当在非均匀背景中旋转一个物体时,有许多方法可以推断出旋转后出现的像素值。将这个想法扩展到更真实的设置和数据集,例如没有人工增强的图像,可能会被证明是一个有价值的方法。

 

参考资料:

https://ai.facebook.com/blog/building-ai-that-can-understand-variation-in-the-world-around-us/?utm_source=hootsuite&utm_medium=twitter&utm_term=facebookai&utm_content=05497535-f801-43ff-9b92-c4537125b3aa&utm_campaign=AI%20Blog

相关文章
|
20天前
|
人工智能 运维 安全
阿里云通过ISO42001人工智能管理认证,引领AI治理推动协同共治
9月19日,在杭州云栖大会「AI治理与安全论坛」上,阿里云宣布通过人工智能技术的全生命周期管理ISO42001体系认证。该项认证由国际标准化组织(ISO)和国际电工委员会(IEC)制定,是第一部可认证的人工智能国际管理体系标准。
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来的开发环境:AI 驱动的代码助手
随着人工智能技术的进步,AI驱动的代码助手成为提升软件开发效率和代码质量的关键工具。本文探讨了其潜在功能、技术实现及对未来开发的影响。优势包括自动化任务、实时错误检测、个性化辅助和知识共享。技术上,它结合了机器学习、自然语言处理和深度学习,实现代码理解和推荐、智能补全、自动化测试、代码审查及性能优化等功能,使开发更加高效智能。
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
构建智能化编程环境:AI 与代码编辑器的融合
在人工智能的推动下,未来的代码编辑器将转变为智能化编程环境,具备智能代码补全、自动化错误检测与修复、个性化学习支持及自动化代码审查等功能。本文探讨了其核心功能、技术实现(包括机器学习、自然语言处理、深度学习及知识图谱)及应用场景,如辅助新手开发者、提升高级开发者效率和优化团队协作。随着AI技术进步,智能化编程环境将成为软件开发的重要趋势,变革开发者工作方式,提升效率,降低编程门槛,并推动行业创新。
|
21天前
|
机器学习/深度学习 传感器 人工智能
AI与未来医疗:重塑健康管理新格局随着人工智能(AI)技术的飞速发展,医疗行业正迎来一场前所未有的变革。AI不仅在数据分析、诊断支持方面展现出巨大潜力,还在个性化治疗、远程医疗等多个领域实现了突破性进展。本文将探讨AI技术在医疗领域的具体应用及其对未来健康管理的影响。
人工智能(AI)正在彻底改变医疗行业的面貌。通过深度学习算法和大数据分析,AI能够迅速分析海量的医疗数据,提供精准的诊断和治疗建议。此外,AI在远程医疗、药物研发以及患者管理等方面也展现出了巨大的潜力。本文将详细探讨这些技术的应用实例,并展望其对健康管理的深远影响。
|
21天前
|
人工智能 JSON 数据格式
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
【9月更文挑战第6天】RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
|
9天前
|
机器学习/深度学习 人工智能 搜索推荐
AI人工智能辅助的神经康复
人工智能辅助的神经康复是通过应用人工智能(AI)技术来改善神经系统损伤患者的康复过程。此领域结合了深度学习、数据分析和机器人技术,旨在提升康复效果、个性化治疗方案和监测进展。
40 12
|
21天前
|
机器学习/深度学习 人工智能 运维
|
8天前
|
机器学习/深度学习 人工智能 监控
AI与未来医疗:重塑健康产业的双刃剑随着科技的迅猛发展,人工智能(AI)正以前所未有的速度融入各行各业,其中医疗领域作为关系到人类生命健康的重要行业,自然也成为AI应用的焦点之一。本文将探讨AI在未来医疗中的潜力与挑战,分析其对健康产业可能带来的革命性变化。
在医疗领域,人工智能不仅仅是一种技术革新,更是一场关乎生死存亡的革命。从诊断到治疗,从后台数据分析到前端临床应用,AI正在全方位地改变传统医疗模式。然而,任何技术的发展都有其两面性,AI也不例外。本文通过深入分析,揭示AI在医疗领域的巨大潜力及其潜在风险,帮助读者更好地理解这一前沿技术对未来健康产业的影响。
|
14天前
|
人工智能 自然语言处理 API
深入浅出 LangChain 与智能 Agent:构建下一代 AI 助手
我们小时候都玩过乐高积木。通过堆砌各种颜色和形状的积木,我们可以构建出城堡、飞机、甚至整个城市。现在,想象一下如果有一个数字世界的乐高,我们可以用这样的“积木”来构建智能程序,这些程序能够阅读、理解和撰写文本,甚至与我们对话。这就是大型语言模型(LLM)能够做到的,比如 GPT-4,它就像是一套庞大的乐高积木套装,等待我们来发掘和搭建。
|
15天前
|
人工智能
解决方案评测|10分钟构建AI客服并应用到聊天系统中获奖名单公布
10分钟构建AI客服并应用到聊天系统中获奖名单公布!!!