为什么说具身智能是通往AGI值得探索的方向?上海交大教授卢策吾深度解读(2)

简介: 为什么说具身智能是通往AGI值得探索的方向?上海交大教授卢策吾深度解读

目前有三个领域在做这件事情:计算机视觉、机器人学和计算机图形学。为什么之前的领域做不好呢?首先,如果你用计算机视觉方法去标的话,这些点是很稀疏、很残破的,而且不一定对,所以你产生不了一个密集的标签。如果用机器人学的方法去做,你得到的标签量是很有限的,因为它一天也抓不了几个。如果你用计算机图形学方法,它又不是真实的,这也会有很大的问题。所以,在我们之前,没有一种可行的方法可以廉价地产生大量 x 到 y 的 pair。


那么,我们是怎么做的呢?我们先扫描物体的模型,得到一个数字孪生。有关物体抓取的力觉模型会在上面起作用。我们可以把它迁移过去,迁移完成后我们什么都有了,然后我们就可以产生这样的一个 pair。


当然,大家可能会说,每次都要扫描、产生孪生模型好累啊。其实,我们采用了半自动的 data collection and labeling,能够非常快速地产生 20 亿个抓取点位。你想要再增加十倍的数据也很容易,但我们发现 20 亿个已经够用了。

有了这个东西之后,我们就要开始训练了。我们把「grasp」这个问题分解为 where(去哪里抓)和 how(怎么去抓)的贝叶斯问题,分别去估测网络。这个方法的准确率远远高于其他方法。


下面是一个抓取瓷器碎片的结果。我们怎么证明我们的方法是通用的呢?就是这种没见过的物体也可以抓起来。这个问题是有难度的,因为你把瓷器敲碎的瞬间,每个碎片都是独一无二的。但是,我们的方法能把每一片都稳定地抓起来。其实,我们能把几千个物体都稳定地抓起来。我们也能抓取一些小的或者动态的物体。这是世界上首个能抓取未知动态物体的机器人。此外,我们还能进行透明物体的抓取。透明物体为什么难?因为它的点云是缺失的。



我们这个论文两年内引用量达到 150+。我们在其中提出了新的数据、标准、算法以及系统。基于这些,我们可以做一个平台,让你不需要真机就能够去验证。这个事情就相当于,你看到的是真实的点云,看到之后你给我一些抓取的姿态,我就能给你返回你的成功率。我们也能做到超越人类水平,达到和人相媲美的 99.5% 的准确率。


以上就是我们前面提到的三个模块,我们也在逐步完善这样一个框架。它们也已经有了一些实际的应用。


具身智能与通用人工智能

接下来分享一下我们对具身智能与通用人工智能的看法。

为什么说具身智能可能是很好的一个走向未来的方案?人工智能是很多概念的总和。其中有些概念很难被测量或验证,比如让机器理解什么是社会,什么是责任。虽然它能给你输出一个表征,但我们很难检验机器是不是真的理解了这些概念,毕竟对于这些概念,每个人都有自己的看法。所以我们可以先在一些可验证、可测量的概念上面做出个闭环。而具身智能刚好是这样一个闭环,它很容易理解什么是锤子。所以我们认为,这样的具身智能可能是迈向通用智能的一个很好的起点,因为它可测量、可解释、可检验。


在交大,我们做了一个开源系统 ——Robotflow(https://robotflow.ai/),接入了二十几种机器人的程序,非常易于开发和部署,大家可以下载使用。


具身智能的脑认知

人体是最大的一个具身智能体。我们想知道人体在操作过程中,是一个什么样的机制催生它去做这样一件事情。这就涉及到脑科学,比如人切菜的时候,脑神经在干嘛;跳芭蕾的时候,脑神经又在干嘛。

我们要解决的第一个问题就是:我们看到的这样的视觉表征,和脑神经是否有一个稳定的映射关系。


这件事情在人身上其实很难验证(需要做侵入式实验),所以我们普遍是先做小鼠的实验:去看大规模的小鼠的行为,同时观测他的神经信号。如果二者有稳定的映射,我们就认为这个规律是存在的。

在这样的情况下,我们就通过训练,去提取大量的脑信号标签以及它的行为标签。这里面发挥很大作用的是我们提出的一整套非常鲁棒的行为检测系统,不然行为标签可能存在大量的错误。为什么要自动去检测呢?因为那么多小鼠的数据,人看是看不过来的。我们的实验结果是 93%,证明这种映射是相对稳定的。


当然,这里面有很多的挑战。我们需要去解决一个重大的问题:行为理解。就是说,理解小鼠的行为其实是一件困难的事情,我们在这方面也做了很多工作。

通过实验我们可以看到,小鼠的神经观测结果和行为的视觉表现是能对得上的,这是一件很神奇的事情。从长远的角度来讲,我们是不是可以把小鼠或者说生物体在做某种行为的时候,它的脑神经状态的表征,作为我们具身智能的一些表征?这个东西可能近 5 年内都没有办法做出来,但其实它对具身智能的发展来说是一个非常好的重点方向。

我们还有一些副产品非常有意思,就是对行为神经学、生物学的一些贡献。如果我们做神经回路,很多时候你要激活某个神经去分析行为。这种方式非常麻烦,不能产生大规模的自动分析结果,导致复杂行为(如社会行为)的神经解析仍然十分困难。有了这套系统之后,我们就能用人工智能的方法去解决它。这其实形成了一种范式的转变。


在大规模的视频跟踪中,我们可以同步小鼠的脑神经信号,去指定它是在哪个地方发生的,控制它的回路是在哪里。通过这种方法,我们成功地定位了控制小鼠社会等级行为的神经回路。这是神经学里面长期存在的一个难题。


我们的相关工作发表在《自然》杂志上。我是这篇文章的通讯作者之一,文章的另一位通讯作者是一位生物学家。我们已经把研究代码和新工具都开源了。有些人给了我们比较好的评价,认为我们是基于人工智能的一种探索行为神经机制的新方法,也有人认为说我们提出了一种很有前景的新算法。

我的讲座就到这里,谢谢大家。

相关文章
|
存储 传感器 自动驾驶
几种常见的点云格式数据解析与在线预览
3D模型在线转换网站支持pcd、pts、xyz、las、laz、asc、ply等点云格式文件在线预览,同时支持将点云格式在线转换为ply、xyz等模型格式。
5798 1
|
12月前
|
运维 自然语言处理 Cloud Native
云栖实录 | 智能运维年度重磅发布及大模型实践解读
阿里云大数据运维团队重磅发布云原生大规模集群场景的 GitOps 方案,该方案基于 OAM 云原生模型,促进研发与运维人员协作,同时兼顾变更的过程管理和终态管理,可实现变更的自动化、代码化、透明化。此外,阿里云大数据运维团队分享了大模型在大数据智能运维场景的应用实践,通过引入检索增强生成(RAG)方法和其他优化策略,大幅提高了在智能问答和智能诊断方面知识的关联性和检索精度,并基于多智能体框架建立高效的数据分析和决策支持系统。
|
9月前
|
存储 人工智能 自然语言处理
海量数据的智能处理及在网盘场景中的应用实践
本次分享主题为海量数据的智能处理及在网盘场景中的应用实践,涵盖面向非结构化数据的多样化处理能力、数据处理智能化演进、企业网盘基于智能媒体管理的应用转型以及智能化和内容结构化能力。通过丰富的AI算子和智能媒体管理,实现图片、音视频等多媒体数据的高效处理,并支持多模态检索、知识库构建与AI助手等功能,助力企业网盘智能化升级,提升用户体验和数据管理效率。
241 7
|
10月前
|
存储 SQL 人工智能
Lindorm:AI和具身智能时代的海量多模数据服务
本次分享由阿里云资深技术专家沈春辉介绍Lindorm数据库在AI和具身智能时代的应用。Lindorm定位于提供海量多模数据服务,融合了结构化、半结构化及非结构化数据的处理能力,支持时序、地理位置、文本、向量等多种数据类型。其核心特点包括多模一体化、云原生分布式架构、异步攒批写入、冷热数据分离、深度压缩优化、丰富索引和Serverless计算等,旨在提升研发效率并降低成本。Lindorm已广泛应用于车联网领域,覆盖60%国内头部车企,支撑近百PB数据规模,带来90%业务成本下降。
|
数据采集 人工智能 自然语言处理
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
【8月更文挑战第17天】在人工智能领域,具身智能正成为研究焦点。它强调智能体在现实世界中的感知与交互。近期,鹏城实验室与中山大学联合发布的首篇全球具身智能综述,调研近400篇文献,总结了该领域的理论和技术进展。文章探讨了具身感知、交互及仿真到现实的适应性等关键议题,并指出了面临的挑战如数据质量、模型泛化等,为通向通用人工智能铺路。论文已发表于IEEE会议记录中。
507 60
|
12月前
|
存储 安全 机器人
MemoryScope:为LLM聊天机器人配备的长期记忆系统
如何选择合适的方法构建自己的智能体助理呢?这里向您介绍强大、低延迟、安全可控的MemoryScope开源项目。
|
存储 弹性计算 网络协议
阿里云hpc8ae服务器ECS高性能计算优化型实例性能详解
阿里云ECS的HPC优化型hpc8ae实例搭载3.75 GHz AMD第四代EPYC处理器,配备64 Gbps eRDMA网络,专为工业仿真、EDA、地质勘探等HPC工作负载设计。实例提供1:4的CPU内存配比,支持ESSD存储和IPv4/IPv6,操作系统限于特定版本的CentOS和Alibaba Cloud Linux。ecs.hpc8ae.32xlarge实例拥有64核和256 GiB内存,网络带宽和eRDMA带宽均为64 Gbit/s。适用于CFD、FEA、气象预报等场景。
|
机器学习/深度学习 传感器 人工智能
为什么说具身智能是通往AGI值得探索的方向?上海交大教授卢策吾深度解读(1)
为什么说具身智能是通往AGI值得探索的方向?上海交大教授卢策吾深度解读
607 0
|
缓存 NoSQL Java
一次访问Redis延时高问题排查与总结
作者抽丝剥茧的记录了一次访问Redis延时高问题的排查和总结。
|
消息中间件 算法 Kafka
Kafka入门,这一篇就够了(安装,topic,生产者,消费者)
Kafka入门,这一篇就够了(安装,topic,生产者,消费者)
691 0