在大家热议Vicarious AI那篇Science论文时,我们和这家公司的CTO聊了聊(回应LeCun批判)

简介: 上周,Vicarious AI 发表在 Science 上的一篇论文引发了业内热议,有褒有贬,甚至有媒体挖出了 Yann LeCun 2013 年对 Vicarious AI 的批判。在论文发布后,机器之心对 Vicarious AI 的 CTO Dileep George 进行了专访,谈到了概率生成模型、Yann LeCun 的批判等话题。


微信图片_20211129135347.jpg

Dileep George


Vicarious AI 是一家硅谷的人工智能 (A.I.) 初创公司,致力于从人脑中获得启发,实现拥有高等智能的机器人。在 Vicarious AI 的办公室里,到处可见其标语——Our Frontier, Human-like AI。


上周,Vicarious AI 发表的一篇论文《A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs》引发了 AI 界的热议。作者在论文中提出了一个不同于深度学习的模型——递归皮质网络(Recursive Cortical Network),突破了基于文本的全自动区分计算机和人类的图灵测试 CAPTCHA。和主流的深度学习算法相比,Vicarious AI 的递归皮质网络在场景文字识别中体现了 300 倍的训练数据使用效率。


文本 CAPTCHA,也就是验证码,是用来防止机器人恶意登录网站的网络安全软件。人类是很容易识别出 CATPCHA 中形状怪异的文字,但对机器而言,CAPTCHA 则成了看不懂的鬼画符,所以这也被视为是一种图灵测试。



微信图片_20211129135343.jpg


早在 2013 年,Vicarious AI 就声称已经攻克 CAPTCHA,但公司直到上周才发表了论文。其中一个主要原因是,当时 CAPTCHA 还在被广泛使用,Vicarious AI 担心发表论文会引发不小的网络安全问题。现在,依旧使用 CAPTCHA 作为验证手段的公司已经不多了,正是发表论文的好时机。


对 Vicarious AI 来说,攻克 CAPTCHA 只是通往 Human-like A.I. 的一个中继站。「我们的目标是解决所有人类擅长解决的问题,尤其是在面对自然视觉信号时,」George 说。


「如果一生只解决一个问题,我肯定选择人脑。」


George 本科毕业于印度理工学院,随后来到美国斯坦福大学就读电气工程,同时钻研机器学习。到了第二年,Dileep 开始对神经科学产生兴趣。「我曾经在初中读过很多心理学的书,在本科的时候全放弃了。这种兴趣在研二的时候又突然回来了,这让我开始侧重对神经科学的研究。」


George 在斯坦福大学读博士期间,遇到了 Jeff Hawkins——《人工智能的未来》作者,也是硅谷掌上电脑公司 Palm 的创始人(Palm 在 2011 年被惠普收购)。Hawkins 是神经科学领域的大牛,和 George 意气相投,两人在 2005 年共同创建了 Numenta——一家致力于机器智能的软件公司。


Numenta 并不满足于 George 对神经科学和机器学习的探索,所以在 2010 年,他准备重新创立一家新公司。碰巧在那个时候,D. Scott Phoenix 也就是 Vicarious AI 的现任 CEO 找到了他。创立 Vicarious AI 之前,Phoenix 曾有过一次创业经历,公司被硅谷知名的孵化器 Y Combinator 收录。之后,他又加入风投 Founders Fund,成为合伙人。


Phoenix 看中 George 在神经科学和工程学上的造诣,决定与他一同创建 Vicarious AI。从公司创立之初,他们的目标就很明确——从人脑获得启发,实现拥有高等智能的 A.I.。


「人脑就是一个通用学习的基础框架,可以在这个世界里学习各种各样的问题,」Phoenix 在接受高盛投资公司的采访中说。


微信图片_20211129135339.jpg

D. Scott Phoenix


当时,提出这个想法的公司很少,但硅谷向来不缺慧眼识人的投资家,比如 Facebook 的天使投资人以及 Paypal 的创始人 Peter Thiel。Thiel 在 2010 年年底给 Vicarious AI 一笔种子轮融资。到了 2014 年,Vicarious AI 完成了 4000 万美元的 B 轮融资,包括 Facebook 的创始人 Mark Zuckerberg,Y Combinator 的 CEO Sam Altman,以及 Tesla 的创始人 Elon Musk 都参与其中。截止目前,Vicarious AI 的融资总额已经超过了 1.3 亿美元。


和融资额形成强烈反差的,是公司至今不过 50 人的规模以及缓慢的扩张速度。George 透露说,直到 2013 年,Vicarious AI 的团队才只有六个人。


「不是不想招人,我们花了很长时间才确定了一条我们自认为正确的研究方向。」George 说。这条方向就是让机器获得感知。


机器理解世界,需要画面感


A.I. 界有一句戏言——「无法理解自然语言的通用人工智能都是耍流氓」。但是,Vicarious AI 在创立之初却决定先回避对自然语言的研究,从计算机视觉领域入手。George 看来,如果机器无法感知这个世界,它也无法理解自己到底在干什么。


「一根垂直插在墙上的钉子和一根垂直插在地上的钉子,哪根钉子是横向的?」George 举了个简单的例子。很明显,插在墙上的钉子是答案。「通常来说,人们不是单纯地从字面上得到这个答案,而是在脑中想象这个画面。得到这个画面前,你必须有关于墙的物理知识和墙与钉子的交互方式,这也是为什么 Vicarious AI 要从视觉下手。」


在计算机视觉领域,如今的主流算法是以卷积神经网络(Convolutional Neural Network) 为代表的深度学习算法。但是,深度学习算法只对固定的问题有效,一旦问题出现变化,算法就不管用了。


「现在的强化学习已经可以玩打砖块游戏了,可如果下面的接受盘往上升三个像素,那么这个模型就会崩溃,」George 说完,还特别强调了「三个像素(only three pixels)」。


大量的数据和计算能力同样是制约深度学习的条件,至少人类下一盘围棋只需要一双手和一杯咖啡提提神,而基于深度学习的 AlphaGo 则要花上 3000 美金;重叠问题则是困扰卷积神经网络许久的「阿喀琉斯之踵」,一旦两张图片重叠,且重叠部分的颜色完全一致,那么卷积神经网络就很难分辨出来。


因此,Vicarious AI 选择了不同于深度学习的生成概率模型,能够模拟和生成图像中物体的轮廓、外形,从而理解物体。生成模型有两个明显的好处:更好的泛化能力和处理对抗样本的能力。在 Vicarious AI 最新的论文中,递归皮质网络就是一种能在多种计算机视觉任务中实现强大的性能和高数据效率的生成模型。


研究生成模型的挑战在于:研究问题的边界是未知的,这反而成了深度学习算法的优势——只让机器做一件事情,它就可以做得很好。Vicarious AI 的团队花了很长时间挑选研究的课题,既能解决计算机视觉中对物体的检测和识别,也能体现泛化的能力。最后,Vicarious AI 选中了 CAPTCHA。


著名的哲学家 Douglas Hofstadter 曾说过:「AI 的核心问题就是理解字母 A(the central problem of AI to understand is the letter 『A』)」,George 对这句话深信不疑。


微信图片_20211129135336.jpg

代表字母 A 的四层递归皮质网络结构


「我认为 CAPTCHA 是一个『完全的 AI 问题』。如果你完全地解决了这种类型的问题,那你就得到了通用人工智能。」George 告诉记者,为了能彻底识别 CAPTCHA,模型必须能识别任何文本。不只是验证码,即使有人在纸上随便写什么形式的字体(就像 PPT 里的艺术字一样),模型也需要识别出来。


想要研究 CAPTCHA 的科学家不止 George 和他的团队,很多科学家都意识到识别 CAPTCHA 的重要性。麻省理工大学的认知科学教授 Josh Tenenbaum 同样在使用生成概率模型解决 CAPTCHA 的问题。


而 Vicarious AI 的解决方法和其他研究最大的区别是——将脑科学的研究成果应用到生成模型中。

人脑已经为机器搭好了框架


在实现通用人工智能的方法上,如今的 A.I. 界出现了巨大的分歧:偏向于借鉴人脑先天机制的「自然派」与相信机器自身发展的「机器派」。今年 10 月,A.I. 界的两位旗手——纽约大学心理学和神经科学教授 Gary Marcus 和 Facebook A.I. 研究所主管 Yann LeCun 就这个问题展开了两个多小时的辩论。Marcus 支持前者,LeCun 则是机器派。


Vicarious AI 选择了站队「自然派」:对人类大脑的研究是实现通用人工智能的关键。「所有的学习算法到头来都是搜索,如果撇开人脑,这样的搜索量实在是太大了;所以,我们认为需要借鉴人脑的特征来实现。」目前,Vicarious AI 有 20% 的成员是研究神经科学的专家,这些对人脑皮质的研究成果也在最新的这篇论文中体现。


在这篇论文中,最典型的例子就是利用视觉皮层中的横向连接(lateral connections)。在人类的视觉系统中,横向连接能够保证人类理解物体轮廓的连续性;将人类视觉的特征应用到递归皮质网络上时,横向连接允许递归皮质网络在池化的过程中不会失去特异性,从而增加不变性。


另一个例子则是「自上而下的注意力机制」。即使是高度重叠且重叠部分透明的字母 A 和 B,人类也可以轻松地分开识别这些字母,这是依靠了注意力机制。当这种特性应用在递归皮质网络时,就可以允许网络拥有组合型(compositionality),允许用多个对象来表示场景。


「我们的研究需要一个称之为『脚手架(scaffold)』的东西,」George 进一步解释道。脚手架原本是编程中的专用词,程序员会建造一个框架(脚手架)让他们方便地访问函数。同样的,递归皮质网络没有采取和 CNN 或者其他深度学习网络的方法,从一张白纸开始从头分析图像;而是基于人类识别图像的这个框架,让机器拥有和人类视觉系统一样的特征。


从结果上来看,递归皮质网络在场景文本识别基准的数据效率是深度学习算法的 300 倍甚至更多。递归皮质网络在 reCAPTCHA 上的准确率达到 66.6%,BotDetect 64.4%,Yahoo 57.4%,PayPal 57.1%。只要准确率高于 1%,就被认为是攻破了 CAPTCHA。


当 2013 年 Vicarious AI 公布结果时,业界褒贬不一,Vicarious AI 没有拿出有效的研究方法是很多 A.I. 科学家口诛笔伐的主要理由,其中也包括了 LeCun。他在 2013 年对 Vicarious AI 进行了激烈的抨击,并用「这是最糟糕的教科书式的 AI 炒作案例(It is a text example of AI hype of the worst kind)」来谴责 Vicarious AI。


微信图片_20211129135331.jpg


过去的四年里,不少人都问过 George 对 LeCun 这番话的评价,他都不予置评。直到上周的论文发表后,George 告诉机器之心,「这篇论文就是最好的答案。」


递归皮质网络不只是用来攻破 CAPTCHA,它还将被应用在控制、推理、机器人技术上。近两年,Vicarious AI 已经在实验室里研究如何将技术应用到工业机器人上。


据 Vicarious AI 的商业化总监楼兴华博士介绍,Vicarious AI 将提供仓储机器人和工厂机器人所需要的视觉和控制的智能模块,尤其是在柔性制造上(flexible manufacturing)。传统的刚性制造生产线都是非标准自动化,每条生产线针对特定的产品,配置和模具都不一样。柔性制造的概念是自动适应不同的产品,最明显的优势就是让系统满足不同的产品要求进行生产,在场景和需求都变化的情况下,机器人的生产效率也能够被保障。


Vicarious AI 的投资人包括 ABB Group 和 Amazon,这家公司也与众多国内外顶尖机器人公司和制造商建立了合作关系。


工业机器人是目前 Vicarious AI 技术落地的方式,但并不意味着 Vicarious AI 会就此止步。Vicarious AI 希望在 2040 年前后实现高等智能的 A.I.。


「我不觉得其他公司会比我们先解决这个问题,」George 显得很有信心,「实现高等智能的 A.I. 就像是把人类送上月球一样伟大,这是我们做下去的动力。」 微信图片_20211129132745.jpg



微信图片_20211129135326.jpg


硅谷顶级人工智能大会AI Frontiers将在本周五(美国时间)盛大召开,点击「阅读原文」参与报名。

相关文章
|
3月前
|
存储 人工智能 数据处理
阿里云CTO周靖人:全面投入升级AI大基建
9月19日,在2024杭州云栖大会上,阿里云CTO周靖人表示,阿里云正在围绕AI时代,树立一个AI基础设施的新标准,全面升级从服务器到计算、存储、网络、数据处理、模型训练和推理平台的技术架构体系,让数据中心成为一台超级计算机,为每个AI和应用提供高性能、高效的算力服务。
6404 15
|
3月前
|
人工智能 开发者
Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入
【9月更文挑战第8天】《自然》杂志近日揭露,学术出版商如泰勒·弗朗西斯与微软签订千万美元合约,及威利获高额报酬,将论文提供给科技巨头训练AI模型,引发学界对版权与收益分配的热议。此现象反映了AI对高质量数据的渴求,但亦使研究人员担忧成果被无偿商用,且可能影响学术独立性。尽管AI训练使用学术资源能提升模型科学性,助力科研进展,但如何保障作者权益及维持学术纯粹性仍是亟待解决的问题。https://www.nature.com/articles/d41586-024-02599-9
69 4
|
3月前
|
存储 数据采集 人工智能
外滩大会热议:AI时代数据价值转变,如何打造下一代智能数据体系?
9月5日,2024 Inclusion·外滩大会举办“从DATA for AI到AI for DATA”论坛,蚂蚁集团、上海交通大学和复旦大学联合主办,探讨AI时代数据价值的转变。中国工程院院士郑纬民和新加坡工程院院士颜水成等专家参会,分享了数据技术变化趋势及与AI融合的最新进展。论坛强调大模型对数据技术的需求推动了存储、生产和加工等各环节的技术革新,并探讨了合成数据和智能数据体系的重要性。
|
3月前
|
机器学习/深度学习 人工智能
AI模型提早5年预警乳腺癌,MIT研究登Science获LeCun转发
【9月更文挑战第1天】麻省理工学院(MIT)研究人员开发的深度学习AI模型,在乳腺癌早期预警方面取得突破性进展,相比传统方法提前5年预警癌症,准确率超过90%。此成果不仅在医学界引起轰动,还获得了人工智能领域知名学者Yann LeCun的高度评价。尽管面临准确性和可解释性的挑战,但该研究展示了AI在医疗领域的巨大潜力,有望革新乳腺癌的早期筛查和诊断方式。论文详情见[链接]。
62 3
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
清华首款AI光芯片登上Science,全球首创架构迈向AGI
【4月更文挑战第16天】清华大学研究团队开发出大规模光子芯片“太极”,在《科学》杂志发表,该芯片基于创新的光子计算架构,实现百万神经元级别的ONN,能效比高达160 TOPS/W。实验中,太极芯片成功执行1000类别分类任务,提升AI内容生成质量,为AGI发展开辟新路径。然而,光子集成电路的制造成本高、技术成熟度不足及软件支持限制了其广泛应用。
175 5
清华首款AI光芯片登上Science,全球首创架构迈向AGI
|
7月前
|
机器学习/深度学习 人工智能 数据挖掘
ICLR 49.9%论文疑有AI审稿
【5月更文挑战第20天】ICLR会议上一篇研究引发关注,推测近50%的论文可能由AI进行审稿,挑战传统审稿流程。研究者运用机器学习分析历史审稿数据,发现可能的AI审稿模式。该研究提出AI审稿可减轻审稿人负担,提高效率,但也面临证据不足、理解复杂学术概念限制及审稿行为多样性等问题。学术界需谨慎评估AI在审稿中的角色,以确保质量和公正性。[论文链接](https://arxiv.org/abs/2405.02150)
108 1
|
7月前
|
人工智能
AI大咖说-如何评价论文的创新性
《AI大咖说》探讨论文创新性,强调新意、有效性和领域研究问题的重要性。创新点在于用新颖方法有效解决研究问题。评价公式:价值=问题大小*有效性*新意度。该观点源于《跟李沐学AI》视频,提供1-100分评分标准,助力评估论文价值。5月更文挑战第14天
97 3
|
7月前
|
机器学习/深度学习 人工智能
辉瑞 AI 方法登 Science,揭示数以万计的配体-蛋白质相互作用
【5月更文挑战第15天】辉瑞研究人员在《Science》发表论文,利用深度学习模型PLIN预测和分析数以万计的蛋白质-配体相互作用,有望加速药物研发,提高药物效果和安全性。实验显示模型在1000多对数据上表现良好,但对复杂相互作用和泛化能力仍有待改进。[链接](https://www.science.org/doi/10.1126/science.adk5864)
55 3
|
7月前
|
机器学习/深度学习 人工智能
论文介绍:AI击败最先进全球洪水预警系统,提前7天预测河流洪水
【5月更文挑战第4天】研究人员开发的AI模型(基于LSTM网络)成功击败全球最先进的洪水预警系统,能在未设测站流域提前7天预测洪水,显著提升预警时间,降低灾害影响。该模型使用公开数据集,减少了对长期观测数据的依赖,降低了预警系统的成本,有望帮助资源有限的地区。然而,模型的性能可能受特定流域条件影响,泛化能力和预测解释性仍有待改进。[论文链接](https://www.nature.com/articles/s41586-024-07145-1)
173 11
|
7月前
|
机器学习/深度学习 人工智能
ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
【2月更文挑战第25天】ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
100 7
ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文