首页> 标签> 自动驾驶
"自动驾驶"
共 3052 条结果
全部 问答 文章 公开课 课程 电子书 技术圈 体验
带你玩转 3D 检测和分割(一):MMDetection3D 整体框架介绍
由于 3D 本身数据的复杂性和 MMDetection3D 支持任务(点云 3D 检测、单目 3D 检测、多模态 3D 检测和点云 3D 语义分割等)和场景(室内和室外)的多样性,整个框架结构相对复杂,新人用户的上手门槛相对较高。所以我们推出新的系列文章,让各个细分方向的用户都能轻松上手 MMDetection3D,基于框架进行自己的研究和开发。在系列文章的初期,我们会先带大家了解整个框架的设计流程,分析框架中的各种核心组件,介绍数据集的处理方法,然后再对各个细分任务及经典模型进行具体细节的代码层级介绍。我们首先为大家介绍整个代码库的目录结构,让大家有个初步的认识: # MMDetection3D 代码目录结构,展示主要部分 mmdetection3d | |- configs # 配置文件 |- data # 原始数据及预处理后数据文件 |- mmdet3d | |- ops # cuda 算子(即将迁移到 mmcv 中) | |- core # 核心组件 | |- datasets # 数据集相关代码 | |- models # 模型相关代码 | |- utils # 辅助工具 | |- ... |- tools | |- analysis_tools # 分析工具,包括可视化、计算flops等 | |- data_converter # 各个数据集预处理转换脚本 | |- create_data.py # 数据预处理入口 | |- train.py # 训练脚本 | |- test.py # 测试脚本 | |- ... |- ...作为开篇文章,笔者将从任务介绍、算法模型支持、数据预处理、模块抽象以及训练和测试流程给大家带来介绍。1. 任务介绍✦3D 目标检测按照输入数据模态划分可以分为:点云 3D 检测、纯视觉 3D 检测以及多模态 3D 检测(点云+图片)。点云 3D 检测单目 3D 检测单目 3D 检测从目前来说,基于纯视觉(例如单目)的 3D 检测方法在性能上和基于点云的 3D 检测方法仍然有比较大的差距,但是其胜在便捷性和低成本;同时,多模态 3D 检测也是一个在学术界和工业界都很火热的方向,对不同模态的数据各取所长,相互配合从而达到更好的检测效果。上述描述的主要还是室外场景的 3D 检测,最广泛的实际应用场景就是最近火热的自动驾驶领域;而室内场景的 3D 检测同样也有广阔的应用前景,例如室内机器人(扫地机器人)、室内导航等等,而目前室内 3D 检测仍然以点云数据为主。除此以外,MMDetection3D 还拓展到了点云 3D 语义分割领域,目前已经支持了室内点云语义分割,同时会在将来支持室外点云语义分割。2. 算法模型支持✦所有模型相关代码位于 mmdet3d/models 下,MMDetection3D 支持的各个方向的模型大体可以归类如下:总体来说,由于 MMDetection3D 依赖于 MMDetection 和 MMSegmentation, 所以很多的模型及组件都是直接复用或者继承而来。目前在 MMDetection3D 内,整体模型的构建方式会根据任务类型被划分为三种方式,具体如下图所示 (PS: 我们正在进行整体代码的重构,统一所有任务的模型构建方式)点云 3D 检测(包含多模态 3D 检测):对于点云 3D 检测(多模态 3D 检测),我们继承自 MMDetection 中的 BaseDetector 构建了适用于 3D 检测的 Base3DDetector ,再根据检测中的单阶段和二阶段分别构造,需要注意的是不同于 SingleStage3DDetector,为了尽可能的复用已有的代码组件,二阶段检测器 TwoStage3DDetector 同时继承自 Base3DDetector 和 TwoStageDetector。而由于多模态任务的特殊性,我们专门为多模态检测方法设计了 MVXTwoStage3DDetector,图中只列出了部分支持的模型算法。单目 3D 检测:对于单目 3D 检测,考虑到和 2D 检测输入数据的一致性,同时方便做 2D 检测的同学能快速的上手单目 3D 检测,我们继承自 MMDetection 中的 SingleStageDetector, 构建了 SingleStageMono3DDetector,目前所支持的单目 3D 检测算法都是基于该类构建的。点云 3D 语义分割 :对于点云 3D 语义分割,我们继承自 MMSegmentation 中的 BaseSegmentor 构建了适用于点云分割的 Base3DSegmentor,而目前所支持的点云分割算法都是遵循 EncoderDecoder3D 模式。3. 数据预处理✦该部分对应于 tools/create_data.py ,各个数据集预处理脚本位于 tools/data_converter 目录下。由于 3D 数据集的多样性,MMDetection3D 会对数据集做预处理。我们在官方文档里面介绍了不同的数据集的格式转换方法和命令,在这里我们从整体视角来看一下数据预处理的文件生成过程:在 MMDetection3D 中,不同的任务和不同的场景(室内或室外)的数据预处理都会存在一定的区别,如上图所示,会产生不同的预处理后的文件,便于后续训练。对所有的任务和场景,我们统一使用数据处理脚本转换后的 pkl 文件,该文件包含数据集的各种信息,包括数据集路径、calib 信息和标注信息等等,从而做到各个数据集内部格式尽可能的统一。对于点云 (多模态)3D 检测,室内和室外数据集生成的文件是不一样的:对于某些室外数据集,我们会借助 pkl 文件的信息进一步提取 reduced_point_cloud 和 gt_database:前者是仅包含前方视野的点云文件,通常存在于 kitti 数据集处理过程中,因为 kitti 数据集仅包含前方视野的标注;后者则是将包含在训练数据集的每个 3D 边界框中的点云数据分别提取出来得到的各个物体的点云文件,常用来在数据增强时使用(copy-paste)。而对于室内数据集,由于室内点云较为密集的特点,通常会进行点云的下采样处理,保存在points内。对于单目 3D 检测,由于在前面提到,整个模型构建的流程是遵循 2D 检测的,同样的在数据处理的过程中,在生成基本的 pkl 文件后,还需要将其转换为 coco 标注格式的 json 文件,该过程中会对 pkl 的标注信息做相应处理,实际在该任务中,pkl 文件用来提供 data 信息,json 文件提供标注信息。对于点云 3D 语义分割,目前 MMDetection3D 仅支持室内点云分割,相对于检测任务,如图所示需要生成额外的文件:instance_mask 包含每个点云的实例标签,semantic_mask 包含每个点云的语义标签,seg_info 包含额外的辅助训练的信息。我们在这里对数据预处理生成的文件有个初步的认识,在后续的文章中我们会按照场景为数据集进行分类,对处理过程做具体介绍,方便大家的理解和使用自己的数据集训练模型。做数据转换的过程主要是为了尽可能统一各个数据的格式,从而简化训练的过程,整个数据预处理的部分是相对独立的。4. 模块抽象✦和 MMDetection 一脉相承,整个 MMDetection3D 的模块内部抽象流程也主要包括 Pipeline、DataParallel、Model、Runner 和 Hooks。如果对DataParallel、Runner 和 Hooks这三个抽象模块不熟悉的同学,我们非常推荐大家先参考轻松掌握 MMDetection 整体构建流程(二)这篇文章中的【第二层模块抽象】部分了解这些抽象概念。在这里我们重点介绍不同的 Pipeline 和 Model。4.1 Pipeline具体在 Pipeline 方面由于数据模态的不同,所以在数据处理过程中包含不同的信息。上图展示了三个比较典型的 3D 检测 pipeline, 流程自上而下分别是点云 3D 检测、多模态 3D 检测和单目 3D 检测,从上述的流程可以,pipeline 其实是由一系列的按照插入顺序运行的数据处理模块组成,接受数据字典,输出经过处理后的数据字典,MMDetection3D 对于点云 3D 检测提供了很多常用的 pipeline 模块,比如 GlobalRotScaleTrans(点云的旋转缩放)、PointsRangeFilter / ObjectRangeFilter(限定了点云和物体的范围)、PointShuffle(打乱点云数据);而对于单目 3D 检测基本就是直接调用 MMDetection 的数据处理模块,比如 Resize (图片缩放)、Normalize (正则化)、Pad (图片填充);多模态检测则兼用两者。我们可以看到其实这些任务共享了部分的 pipeline 模块,比如 LoadAnnotations3D (标签载入)、RandomFlip3D(会对点云和图片同时进行翻转)、DefaultFormatBundle3D(数据格式化)、Collect3D (选取需要用于训练的数据和标签),这些代码都在 mmdet3d/datasets/pipeline 目录下。4.2 Model在该部分我们按照任务类型分类,对于整个模型内部做抽象介绍。和 2D 检测类似, 3D 检测器通常也包含了几个核心组件:Backbone 用于提取特征、Neck 进行特征融合和增强、Head 用于输出需要的结果。1)点云 3D 检测模型目前点云目标检测按照对点云数据的处理方式,可以分为体素处理方法 (Voxel-based) 和原始点云处理方法 (Point-based),这两种方法其实在构建模型的时候会有一定的区别,整体的模型构建按照下图流程所示:- 基于体素的模型通常需要 Encoder 来对点云体素化,如 HardVFE 和 PointPillarScatter等,采用的稀疏卷积或者 Pillars 的方法从点云中生成 2D 特征图,然后基本可以套用 2D 检测流程进行 3D 检测。- 基于原始点云模型通常直接采用 3D Backbone (Pointnet / Pointnet++ 等) 提取点的特征,再针对提取到的点云特征采用 RoI 或者 Group 等方式回归 3D bounding box。有关的具体内容我们会在后续的文章中针对典型的方法进行分析介绍。2)单目 3D 检测模型由于单目 3D 检测的输入是图片,输出是 3D bounding box, 所以整体的检测流程和模型组成来说基本和 2D 检测保持一致,具体检测方法同样也会在后续文章中进行解析。3)多模态 3D 检测模型多模态的检测模型从组成来看可以看成 2D 检测模型和点云检测模型的拼接。4) 点云 3D 语义分割模型MMDetection3D 内部支持的 3D 分割模型都是符合 EncoderDecoder 结构的,需要 backbone 来 encode feature, decode_head 用来预测每个点云的类别的进行分割,目前主要只支持室内场景的 3D 语义分割,具体的分割模型方法同样会在后续文章中进行解析。5. 训练和测试流程✦在轻松掌握 MMDetection 整体构建流程(二)中的 【第三层代码抽象】部分中,按照训练和测试整体代码抽象流程-> Runner 训练和验证代码抽象 -> Model 训练和测试代码抽象的方式给大家进行了介绍,在这里我们简要概括前两部分:首先我们训练和验证调用的是 tools/train.py 脚本,先进行 Dataset、Model 等相关类初始化,然后我们构建了一个 runner,最终模型的训练和验证过程是发生在 runner 内部的,而训练和验证的时候实际上是 runner 调用了 model 内部的 train_step 和 val_step 函数。对如何从 tools/train.py 脚本开始到调用 train_step 和 val_step 函数的细节过程可以参考前述文章的【第三层代码抽象】部分,而理解了这两个函数调用流程就理解了 MMDetection3D 训练和测试流程。笔者在这一部分主要以 PointPillars 为例分析 MMDetection3D 中 Model 的训练和测试代码:5.1 train 和 val 流程1) 调用 runner 中的 train_step 或者 val_step 【该部分内容来自前序文章】在 runner 中调用 train_step 或者 val_step,代码如下: #=================== mmcv/runner/epoch_based_runner.py ================== if train_mode: outputs = self.model.train_step(data_batch,...) else: outputs = self.model.val_step(data_batch,...)实际上,首先会调用 DataParallel 中的 train_step 或者 val_step ,其具体调用流程为: # 非分布式训练 #=================== mmcv/parallel/data_parallel.py/MMDataParallel ================== def train_step(self, *inputs, **kwargs): if not self.device_ids: inputs, kwargs = self.scatter(inputs, kwargs, [-1]) # 此时才是调用 model 本身的 train_step return self.module.train_step(*inputs, **kwargs) # 单 gpu 模式 inputs, kwargs = self.scatter(inputs, kwargs, self.device_ids) # 此时才是调用 model 本身的 train_step return self.module.train_step(*inputs[0], **kwargs[0]) # val_step 也是的一样逻辑 def val_step(self, *inputs, **kwargs): inputs, kwargs = self.scatter(inputs, kwargs, self.device_ids) # 此时才是调用 model 本身的 val_step return self.module.val_step(*inputs[0], **kwargs[0])可以发现,在调用 model 本身的 train_step 前,需要额外调用 scatter 函数,前面说过该函数的作用是处理 DataContainer 格式数据,使其能够组成 batch,否则程序会报错。如果是分布式训练,则调用的实际上是 mmcv/parallel/distributed.py/MMDistributedDataParallel,最终调用的依然是 model 本身的 train_step 或者 val_step。2) 调用 model 中的 train_step 或者 val_step训练流程: #=================== mmdet/models/detectors/base.py/BaseDetector ============= def train_step(self, data, optimizer): # 调用本类自身的 forward 方法 losses = self(**data) # 解析 loss loss, log_vars = self._parse_losses(losses) # 返回字典对象 outputs = dict( loss=loss, log_vars=log_vars, num_samples=len(data['img_metas'])) return outputs #=================== mmdet/models/detectors/base.py/Base3DDetector =========== # Base3DDetector 主要是重写了 forward,改变了模型输入数据的类型,可同时传入点云数据和图片数据,从而满足多模态检测的需求 @auto_fp16(apply_to=('img', 'points')) def forward(self, return_loss=True, **kwargs): if return_loss: # 训练模式 return self.forward_train(**kwargs) else: # 测试模式 return self.forward_test(**kwargs) forward_train 和 forward_test 需要在不同的算法子类中实现,输出是 Loss 或者 预测结果。3) 调用子类中的 forward_train 方法PointPillars 采用的是 VoxelNet 检测器,核心逻辑还是比较通用的。#============= mmdet/models/detectors/voxelnet.py/VoxelNet ============ def forward_train(self, points, img_metas, gt_bboxes_3d, gt_labels_3d, gt_bboxes_ignore=None): # 先进行点云的特征提取 x = self.extract_feat(points, img_metas) # 主要是调用 bbox_head 内部的 forward_train 方法,得到 head 输出 outs = self.bbox_head(x) loss_inputs = outs + (gt_bboxes_3d, gt_labels_3d, img_metas) # 将 head 部分的输出和数据的 label 送入计算 loss losses = self.bbox_head.loss( *loss_inputs, gt_bboxes_ignore=gt_bboxes_ignore) return losses 4) 调用 model 中的 _parse_losses 方法 #=================== mmdet/models/detectors/base.py/BaseDetector ================== def _parse_losses(self, losses): # 返回来的 losses 是一个dict, 我们需要对 loss 进行求和 log_vars = OrderedDict() for loss_name, loss_value in losses.items(): if isinstance(loss_value, torch.Tensor): log_vars[loss_name] = loss_value.mean() elif isinstance(loss_value, list): log_vars[loss_name] = sum(_loss.mean() for _loss in loss_value) else: raise TypeError( f'{loss_name} is not a tensor or list of tensors') loss = sum(_value for _key, _value in log_vars.items() if 'loss' in _key) log_vars['loss'] = loss for loss_name, loss_value in log_vars.items(): # reduce loss when distributed training if dist.is_available() and dist.is_initialized(): loss_value = loss_value.data.clone() dist.all_reduce(loss_value.div_(dist.get_world_size())) log_vars[loss_name] = loss_value.item() return loss, log_vars 5.2 test 流程test 流程如上图所示, 我们可以看见在 test 的时候流程相比 train / val 更为简单,没有调用 runner 对象。1) 调用 model 中的 forward_test #=================== mmdet/models/detectors/base.py/Base3DDetector =========== def forward_test(self, points, img_metas, img=None, **kwargs): num_augs = len(points) if num_augs != len(img_metas): raise ValueError( 'num of augmentations ({}) != num of image meta ({})'.format( len(points), len(img_metas))) # 根据 points list 长度判断是 simple_test 还是 aug_test if num_augs == 1: img = [img] if img is None else img return self.simple_test(points[0], img_metas[0], img[0], **kwargs) else: return self.aug_test(points, img_metas, img, **kwargs)2) 调用子类 的 simple_test 或 aug_test #============= mmdet/models/detectors/voxelnet.py/VoxelNet ============ def simple_test(self, points, img_metas, imgs=None, rescale=False): # 无数据增强测试 # 提取特征 x = self.extract_feat(points, img_metas) # 调用 head outs = self.bbox_head(x) # 根据 head 输出结果生成 bboxes bbox_list = self.bbox_head.get_bboxes( *outs, img_metas, rescale=rescale) # 对检测结果进行格式调整 bbox_results = [ bbox3d2result(bboxes, scores, labels) for bboxes, scores, labels in bbox_list ] return bbox_results def aug_test(self, points, img_metas, imgs=None, rescale=False): # 数据增强测试 feats = self.extract_feats(points, img_metas) # 目前只支持单个 sample 的 aug_test aug_bboxes = [] for x, img_meta in zip(feats, img_metas): outs = self.bbox_head(x) bbox_list = self.bbox_head.get_bboxes( *outs, img_meta, rescale=rescale) bbox_list = [ dict(boxes_3d=bboxes, scores_3d=scores, labels_3d=labels) for bboxes, scores, labels in bbox_list ] aug_bboxes.append(bbox_list[0]) # 将增强后的 bboxes 进行 merge 合并操作 merged_bboxes = merge_aug_bboxes_3d(aug_bboxes, img_metas, self.bbox_head.test_cfg) return [merged_bboxes]以上我们主要分析了整体的框架流程,在下一篇文章中我们会为大家带来 MMDetection3D 中的各种核心组件的分析和介绍,包括 3D 检测中令人困惑的坐标系问题,敬请期待~文章来源:【 OpenMMLab】2022-03-09 18:15
文章
数据采集  ·  JSON  ·  算法  ·  自动驾驶  ·  机器人  ·  测试技术  ·  数据处理  ·  计算机视觉  ·  数据格式
2022-05-09
点云语义分割,现已正式加入 MMDet3D 全家桶!
近年来,随着自动驾驶和机器人等领域的飞速发展,3D 点云处理得到了学术界和工业界的广泛关注,基于点云的物体识别、检测、分割等任务中涌现出了一大批优越的算法。有感于此,MMDet3D 项目上线以来,致力于集成最经典和最前沿的点云感知算法,至今已一年有余,得到了社区 (还算) 热烈的反响。但是,如果有用户认为 MMDet3D 库如其名,只支持 3D 点云检测,那想必这位朋友没有认真看我们的README和每月的 Release Highlights (虽然笔者也几乎没有看过,以及,程序员讨厌看文档不是天性吗 )——我们还支持多模态 3D 检测、纯视觉 3D 检测以及 3D 语义分割模型。纯视觉方法已经在这篇中得到介绍,本文将主要语义分割方面的工作。本文内容点云语义分割简介相关工作介绍主流数据集小白都能懂的 MMDet3D 分割教程1.  点云语义分割简介与 2D 图像的语义分割任务类似,3D 点云语义分割的输入是一个无序点集输出则是逐点的语义标签其中 C 是点云除了坐标以外的特征数,常见的有 RGB 颜色、归一化坐标和反射强度等。值得注意的是,和基于点云的 3D 检测类似,点云语义分割在室内和室外场景下有很大的不同,这是由于室内点云往往点的分布较为均匀,而室外点云存在近处稠密、远处稀疏的问题。虽有模型旨在打通二者之间的壁垒,但当前主流算法的推理策略大都大相径庭——对于室内点云,采取类似滑动窗口 (sliding window) 的方法,将完整的场景截取为多个点数固定的小块,模型只需处理局部点云块;对于室外点云这显然是行不通的,因为不同块点云密度的差异会严重影响模型性能,此外出于速度的考虑,这些模型往往直接作用于全场景点云。图1:室内和室外场景点云对比,左图取自 S3DIS 室内数据集,右图取自 SemanticKITTI 室外数据集由于 MMDet3D 目前只支持了室内点云语义分割的算法,本文将聚焦这一方向,等将来支持了室外分割算法再拿来水一篇 PR (雾)。2. 相关工作介绍相比基于点云的 3D 检测,点云语义分割是一个稠密预测的问题,不存在 anchor 设计、loss target 分配等复杂的问题。已有点云分割器大多采用经典的 U-Net 结构,由一个编码器不断降采样点云并提取特征,再由一个解码器上采样点云并实现特征融合,最终预测点云的语义分割掩码。这是由于这一任务设定上相对简单,因此几乎所有提出新的点云特征提取机制的文章都会包含分割实验来证明其方法的有效性。在笔者看来,室内点云分割任务最重要的就是如何有效提取局部点云的几何特征,有以下几种代表性的方法:- 只基于全局特征的 PointNet,及其变体 PointNet++,这类方法缺少近邻点之间的互动 (interaction)- 挖掘邻域点关系的模型,例如基于图卷积网络的 DGCNN 等,基于注意力机制 (attention) 的 PointASNL 等和基于 RNN 的 RSNet 等- 基于点卷积 (point convolution) 的方法,最近两三年非常流行,例如 PointConv, KPConv, PAConv,这类方法的显存占用和计算复杂度是一个问题- 基于 Transformer 的方法,例如 Point Transformer,效果也是非常惊人图2:形式 U-Net 的点云分割网络结构图,该图摘自 PointNet++,注意红框标注为分割对应支路这里也稍微提一下室外场景分割的做法,因为需要一次性处理所有场景点,受限于显存和计算量等,大多算法都将 3D 点云变换到 2D 网格 (grid),再用 2D CNN 处理,常见的 2D 网格表征有前视图 (frontal view-image), range image, 鸟瞰图 (bird's-eye-view, BEV image) 等;当然也有直接对点进行操作的方法,例如 RandLA-Net 等。这部分 Cylinder3D 一文进行了很详尽的回顾,顺带一提 Cylinder3D 也是我们目标复现的算法之一,并以此为基础在 MMDet3D 中支持室外场景分割任务,敬请期待。3. 主流数据集目前最常见的室内点云语义分割数据集是 S3DIS 和 ScanNet,室外数据集有 SemanticKITTI, Semantic3D, nuScenes 等。我们着重介绍前两者,因为它们也是 MMDet3D 现在支持的数据集。S3DIS:S3DIS 数据集包含了 3 栋建筑中 6 个区域的一共 271 间房间,房间类型涵盖了常见的室内场景,如会议室、办公室、过道、储藏间等。该数据集总共扫描有约 2.73 亿个点,每个点包含三维坐标及 RGB 颜色信息,并标注有一个明确的语义标签。S3DIS 数据集共有 13 类标注,分别为:天花板、地板、墙壁、横梁 (beam)、支柱 (column)、窗户、门、桌子、椅子、沙发、书架、挂板 (board,如白板) 和其他类 (clutter)。由于官方没有提供训练-验证-测试集的划分,MMDet3D 支持灵活的选择一个区域进行留一验证,例如论文中最常见的在区域 1, 2, 3, 4, 6 训练,在区域 5 上测试。ScanNet:ScanNet 数据集共包含 1,613 个扫描场景,其中训练集 1,201 个、验证集 312 个、测试集 100 个。该数据集中每个点同样提供三维坐标及 RGB 颜色信息,但是,有的点并无标注信息(unannotated)。遵循前人工作,MMDet3D 选取其中 20 类进行实验,分别是:墙壁、地板、橱柜、床、椅子、沙发、餐桌、门、窗户、书架、挂画、柜台、办公桌、窗帘、冰箱、浴帘、马桶、水槽、浴缸和其他类。我们遵循了该数据集官方的训练-验证-测试集划分,并提供指令便于用户生成提交到官方在线 benchmark 的结果。值得一提的是,相比使用 RGB-D 相机扫描而得的 S3DIS 数据,ScanNet 数据由 Matterport 仪器采集,物体部分 (part) 缺失的情况比 S3DIS 严重,看起来显得更加“支离破碎”。图3:S3DIS 和 ScanNet 上数据样例,左图取自 S3DIS,右图取自 ScanNet。明显可以看出 S3DIS 数据的点密度更大、分布均匀,而 ScanNet 的桌椅都有较大的缺失(此图由 MMDet3D 可视化工具直接生成,可任意旋转缩放,欢迎体验!)(你问我为什么这么卖力地宣传?因为可视化这块代码也是我负责的啊 x)4. 小白都能懂的 MMDet3D 分割教程现在 MMDet3D 已经实现了 PointNet++ 和 PAConv 两个点云语义分割算法,DGCNN 也预计一周内将要完成。如前所述,一个分割器只由编码器和解码器组成,这里我们以 PointNet++ (SSG) 为例展示一下如何用 MMDet3D 快速搭建点云分割模型。demo我们提供了 PointNet++ (SSG) 在 ScanNet 数据集上的 demo,可以让用户体验我们强大的可视化工具 (并检验一下环境配好没有,因为引入 MMSeg 导致的依赖关系令人头大...)编码器编码器在 MMDet3D 中又称为骨干网络 (backbone,为了和 3D 检测模型一致),PointNet++ 的编码器由四个 PointSAModule (set abstraction) 构成,分别进行降采样点和特征提取。 backbone=dict( type='PointNet2SASSG', in_channels=6, num_points=(1024, 256, 64, 16), radius=(0.1, 0.2, 0.4, 0.8), num_samples=(32, 32, 32, 32), sa_channels=((32, 32, 64), (64, 64, 128), (128, 128, 256), (256, 256, 512)), fp_channels=(), norm_cfg=dict(type='BN2d'), sa_cfg=dict( type='PointSAModule', pool_mod='max', use_xyz=True, normalize_xyz=False))解码器PointNet++ 的解码器由四个 PointFPModule (feature propagation) 构成。损失函数采用了简单的交叉熵损失,值得注意的是,这里使用了 `class_weight` 这一参数,这是为了解决点云分割中不同类别物体点数极度不均衡的问题,经试验对结果会有 ~1% mIoU 的影响。 decode_head=dict( type='PointNet2Head', num_classes=20, ignore_index=20, fp_channels=((768, 256, 256), (384, 256, 256), (320, 256, 128), (128, 128, 128, 128)), channels=128, dropout_ratio=0.5, conv_cfg=dict(type='Conv1d'), norm_cfg=dict(type='BN1d'), act_cfg=dict(type='ReLU'), loss_decode=dict( type='CrossEntropyLoss', use_sigmoid=False, # computed in pre-processing class_weight=[ 2.389689, 2.7215734, 4.5944676, 4.8543367, 4.096086, 4.907941, 4.690836, 4.512031, 4.623311, 4.9242644, 5.358117, 5.360071, 5.019636, 4.967126, 5.3502126, 5.4023647, 5.4027233, 5.4169416, 5.3954206, 4.6971426 ], loss_weight=1.0))数据流程 (pipeline)数据预处理相比 3D 检测也简单许多,简单拆解如下:- `PointSegClassMapping`:将原始分割掩码的标签 id 转换为连续标签 (例如训练 20 类就转换成 [0, 20)),不使用的类转换为 `ignore_index`,便于计算时忽略- `IndoorPatchPointSample`:如前所述,将整个场景的点云进行切块作为网络输入。有的情况下`use_normalized_coord=True`,这意味着我们使用归一化坐标作为额外的特征,即绝对 XYZ 坐标除以该场景点云最大的 XYZ 值。这一特征的意义在于,例如 `normalized_z` 接近 0 则该点很可能属于地板,而接近 1 则很可能是天花板- `NormalizePointsColor`:将点的 RGB 颜色信息归一化至 [0, 1]train_pipeline = [ dict( type='LoadPointsFromFile', coord_type='DEPTH', shift_height=False, use_color=True, load_dim=6, use_dim=[0, 1, 2, 3, 4, 5]), dict( type='LoadAnnotations3D', with_bbox_3d=False, with_label_3d=False, with_mask_3d=False, with_seg_3d=True), dict( type='PointSegClassMapping', valid_cat_ids=(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14, 16, 24, 28, 33, 34, 36, 39), max_cat_id=40), dict( type='IndoorPatchPointSample', num_points=num_points, block_size=1.5, ignore_index=len(class_names), use_normalized_coord=False, enlarge_size=0.2, min_unique_num=None), dict(type='NormalizePointsColor', color_mean=None), dict(type='DefaultFormatBundle3D', class_names=class_names), dict(type='Collect3D', keys=['points', 'pts_semantic_mask']) ]出于复现的目的,我们这里仅仅使用了 PointNet++ 原文的数据增广策略;在 PAConv 中我们还实现了诸如旋转、缩放、扰动和颜色丢弃多种增广方法,实验表明对性能有 ~3% mIoU 的提升。优化器我们采用了 Cosine 衰减的 Adam 优化器,它比原文的 Step 衰减有巨大的提升 (>5% mIoU);我们采用了极大的 `weight_decay=1e-2` 作为正则项,相比 `1e-4` 有 ~2% mIoU 的提升;最后,更长的训练轮数也有很小的帮助,相比训练 150 轮,训练 200 轮提升了 ~0.2% mIoU。 optimizer = dict(type='Adam', lr=0.001, weight_decay=0.01) optimizer_config = dict(grad_clip=None) lr_config = dict(policy='CosineAnnealing', warmup=None, min_lr=1e-5) runner=dict(type='EpochBasedRunner', max_epochs=200)5. 后记本文简要介绍了点云语义分割这一任务和 MMDet3D 的支持算法,欢迎大家使用 MMDet3D 来支持自己的研究和工作。实际上笔者有幸于今年四月加入 MMDet3D 团队实习,初与 mentor 交流时,听说要做分割也很意外,不过几个月尝试下来,确实有很多可以复用的代码,也重构了一些模块,使 MMDet3D 更加通用高效,此前和同事打趣说,我们真应该改名叫 MMScene3D hhh最后放个卫星,MMDet3D 正在进行一个巨大坐标系重构项,以解决代码里现存的不少令人费解的 hack/trick,我们将统一 LiDAR, Depth, Camera 三大坐标系 (虽然语义分割并未受到影响),敬请期待 MMDet3D 之后的 PR 介绍! 文章来源:公众号【OpenMMLab】2021-09-22 19:23
文章
机器学习/深度学习  ·  数据采集  ·  算法  ·  数据可视化  ·  自动驾驶  ·  机器人  ·  程序员  ·  计算机视觉  ·  UED
2022-05-07
破壁人AI百度:科技公司反内卷的典型样本
互联网整个行业都在陷入被动且尴尬的局面。去年开始流行的“内卷”一词,恰如其分的描述了互联网的现状,比如抖音开始做外卖,微信强推视频号,一直硝烟弥漫的电商市场,更是激战在社区团购上。内卷背后也有人感慨,互联网到了尽头。支撑这一论述的是,移动互联网的人口红利已经消失,几款国民型APP用户增长都固定在了10亿这个级别,只能依靠自然人口的增长和迁移。这一幕如同刘慈欣小说《三体》里所描述的,智子封锁的地球科技一样,被信息干扰,或引导至错误方向发展,困在原地,做困兽之斗,无法自拔。“内卷论”与“尽头论”的流行,让我们看到,中国科技产业尤其是互联网,需要自己的“破壁人”计划,突破封锁,尤其是跳出原有的路径依赖。我们不应该只是一味的看到消费互联网的互联网产业,却不见更为广阔的产业互联网未来。科技的未来,不是消费互联网,而是产业互联网。黄奇帆在中国互联网大会上斩钉截铁地说,“今后十年是产业互联网时代”。互联网的未来是产业互联网,产业互联网的价值以及远景是怎样的?2021年8月18日的百度世界大会,告诉我们关于未来的某些可能性,从某种意义上来说,百度正在扮演着中国科技的“破壁人”角色。硬科技背后需要软实力沉淀和积累百度世界大会,是百度公司的一个传统,这既是百度向公众披露其运营和战略的路演,也是公众了解百度的一个窗口。2021年的百度世界大会与以往最大的不同,可能是,这一次百度发布了更多的“硬科技”产品。比如惊艳一时的百度汽车机器人,比如温情脉脉的小度智能巨屏电视、小度智能词典笔、小度主动降噪智能耳机Pro、添添旋转智能屏,以及宣布量产的百度第二代昆仑AI芯片“昆仑芯2”。一致的行业现象是,科技企业都在逐渐从它们软件的实力向硬件渗透。百度这些“硬科技”的背后,是其软件实力的支撑。比如,百度的“汽车机器人”,它需要多重能力:首先具备L5级别自动驾驶能力,不仅无需人类驾驶,而且比人类驾驶更安全;其次具备语音、人脸识别等多模交互能力,分析用户潜在需求,主动提供服务;此外,汽车机器人还具备自我学习和不断升级能力,是服务各种场景的智慧体。百度的这款“汽车机器人”已经达到了L5级别的自动驾驶,它是一辆没有方向盘汽车,这是自动驾驶的终极形态,无需人类驾驶的同时,还能有更多驾驶之外的服务。这也是命名“汽车机器人”的原因所在吧。又比如,小度发布的四款产品,是百度AI人格化和服务化两大发展方向上各种技术沉淀和积累的集中展现。譬如语音识别技术,百度的语音识别技术准确率达到了98%,甚至超过人耳水平。这四款是将语音识别技术、百度AI等与智能生活结合,针对不同场景开发的产品,用户可以通过语音控制家中的电器、窗帘、台灯,通过智能词典笔,可以识别翻译各种外语,通过添添旋转屏可以K歌、刷短视频、点外卖、在线支付等。小度这四款硬件科技,将百度APP智能搜索、百度健康医典、AI智慧社区等一些列内容沉淀与技术积累集合在一起。这一系列的硬科技的背后,延续了一句传统的老话,“科技以人文本”。值得注意的是,这一系列的硬科技产品的“爆发式”发布,绝非一蹴而就,严格来说,这是百度在AI领域持续投入超过十年的一次检验。百度的案例预示着,产业互联网是软硬结合的。互联网未来是产业基础,云计算+AI有人说,互联网的未来是云与智能,将两者的结合,可能就是AI。百度世界大会前一天,2021年8月17日,国务院签署并公布了《关键信息基础设施安全保护条例》,该条例与《网络安全法》相呼应,一系列法规的制定和执行落地,预示一点:互联网已经成为国民生活和国民经济的基础设施。这也意味着,云计算将是基础之一,在云计算的基础上,则是AI智能。云计算是对产业数字化的支撑,人工智能则是加速产业的智能化升级,“赋能千行百业”。云计算市场是目前国内一众科技企业中竞争最为激烈的,国际市场上有亚马逊、微软、阿里云、Google,国内除了阿里云,还有腾讯、华为。百度云起步较阿里云稍晚,但这并不妨碍它的后发优势。前不久百度公布了2021年第二季度财报, 云计算的增长尤为抢眼,它保持了同比71%的增速,领跑中国云计算市场,跻身第四。从2018年到2020年,百度云智能服务收入分别为30亿、64亿和92亿,按照71%的增速,今年将突破150亿元大关。百度云的“后发优势”,是云计算与AI的结合,百度采用了“AI云”作为标识与其他公有云做区别。可以将“AI云”看作是,“数字化底座”+“智能化引擎”的结合,这也意味着,AI云能够在制造、能源、城市、金融、医疗、媒体等领域,给客户数字化转型和智能化升级一步到位。体现在财务上,也许是,“AI云”毛利要远高于公有云。今年的百度世界大会,主题是“AI这时代,星辰大海”,李彦宏在直播中说,“AI,也是爱,是技术和温度结合在一起。”,“让每一个人都感受到技术带来的改变,这就是技术的价值”。AI的发展,一方面是融入到每个人的衣食住行,变得触手可及,另一方面则是产业智能化升级赋能。消费互联网与产业互联网的升级,体现在这一次百度发布的“百度大脑7.0”,百度大脑融合创新,降低门槛的优势。在泉州,百度为泉州水务搭建了“水务大脑”,百度智能云提供的AI用水量预测模型可结合历史用水数据、天气、季节等变化因素,精准预测用水量,实现按需供水。同时,加压泵站精准调压应用,通过分析运行工况,可动态调整泵站流量、压力、频率等参数,大大降低泵机功耗,科学准确调控水压。在新疆,艰苦的人力电力巡检工作也正在被百度AI代替。机器设备将拍摄的影像资料传回,通过AI技术可以快速判断线路是否存在故障,这样巡检效率得到了大幅提升,与此同时,巡检工人的工作环境也得到巨大改善,保障了边疆人民千家万户的用电安全。应该说,产业互联网是千行百业拥抱互联网,也是AI商业化的标志。透过这次百度世界大会,我们看到百度AI的商业化步伐明显加快,AI远比我们所预想的更快进入落地周期,与此同时,随着国内数字新基建的开启,有更早AI布局和更久技术沉淀的企业将在新的周期里全面提速。告别路径依赖,未来从畅想变现实随着滴滴因数据问题受到调查,新一轮的移动出行大战也上演了。与其他互联网不同的是,移动出行网约车大战,被认为是互联网改造传统行业的先声。这一轮出行大战,如高德、美团、T3等也重复着历史,延续了往日滴滴最为成功的补贴方式。很多互联网从业者未曾想过,这种疯狂烧钱的补贴,也是今天互联网备受争议和指责的原因之一。黄奇帆曾说,当前消费互联网领域的四个问题是:烧钱扩规模以取得行业垄断,利用人性弱点设计产品,利用垄断地位采集信息侵犯隐私,互联网杀熟。烧钱扩规模的前提是构建在存量市场。互联网的下一阶段,产业互联网这种烧钱扩大规模的方式或许不在适用,真正应该做的,是寻求产业的增量和效率最大化。如果将滴滴为代表的移动出行视为产业互联网的先声,那么出行领域的未来一定是更为智能的自动驾驶。财报分析师会议上,李彦宏确认,百度最新的robotaxi的软硬件系统,实现了60%的成本骤降,并且有望最快在2025年低于网约车。截至2021年上半年,百度Apollo自动驾驶出行服务已累计接待乘客超过40万人次,测试里程超过1400万公里,自动驾驶专利数量达3000件。李彦宏曾经分享过“3,30,3000”计划,即3年、30城、3000辆Robo Taxi,这是一个循序渐进的过程。从滴滴出行到百度的未来驾驶业务,我们可以看出,产业互联网与消费互联网的本质差异:滴滴为代表的移动出行,更多的是通过互联网的手段,做交易信息的匹配;未来的驾驶业务,则是在交易信息匹配的基础上,做更多产业端的供给侧结构性改革——通过智能化、数据化方式,降低供给侧的成本,提升消费端的体验和效率。百度的“汽车机器人”就是建立在Robotaxi技术和运营沉淀基础上,除了惊艳的“汽车机器人”,更让大众兴奋的可能是,百度发布的无人车出行服务平台——“萝卜快跑”。“萝卜快跑”并不是简单的为“Robotaxi”赋予一个中文名字这么简单,更为重要的是,Robotaxi象征着概念、研发和技术沉淀,“萝卜快跑”则意味着,经过8年发展,百度Apollo已经从技术验证阶段进入到规模化商业运营阶段。IHS 报告显示,预计整个共享出行市场的市场规模在2030年将达到2.25万亿元人民币,复合增长率在20% - 28%之间。在共享出行市场中,Robotaxi将占到60%以上,市场规模超过1.3万亿。这也意味着,未来出行市场将转向无人车服务场景。造车新势力与网约车激战的当下,萝卜快跑的上线显得格外有意义,这意味着,自动驾驶下半场的角逐已经开启,规模化商业运营成为行业发展的重点,这也是对传统网约车赛道的一次换道超越。百度Apollo在过去两年,分别在北京、长沙、广州、沧州四个城市运营,目前也增获25个城市的运营牌照,距离30城的计划又进一步。萝卜快跑的上线,随着城市、乘客、公里数的不断增加和累积,也会进一步优化百度汽车机器人的迭代和升级。也就是说,萝卜快跑兼顾了科技的商业现实和未来畅想。
文章
人工智能  ·  自然语言处理  ·  自动驾驶  ·  安全  ·  机器人  ·  语音技术  ·  云计算  ·  计算机视觉  ·  AI芯片
2022-05-06
图灵奖获得者 Yann LeCun :学习“世界模型”的能力是构建人类级 AI 的关键所在
尽管人工智能研究最近取得了显著进展,但我们离创造出像人一样善于思考和学习的机器还很远。正如 Meta AI 首席人工智能科学家 Yann LeCun 所指出的那样,一个从未摸过方向盘的青少年可以在大约 20 个小时内学会开车,而当今最好的自动驾驶系统也需要数百万甚至数十亿带标签的训练数据和数百万次虚拟环境中的强化学习试验。即便如此,它们驾驶汽车也还是不如人类可靠。构建接近人类水平的人工智能需要什么?仅仅是更多的数据和更大的人工智能模型吗?作为 2022 年 2 月 23 日 Meta AI 实验室内部活动的一部分,LeCun 勾勒了一个构建人类级 AI 的愿景。LeCun 提出,学习“世界模型”的能力——关于世界如何运作的内部模型——可能是关键所在。Meta AI 在此简要分享下 LeCun 的一些想法,包括他对模块化、可配置的自主智能架构的建议,以及人工智能研究界为构建这样一个系统必须解决的关键挑战。我们通常在研究完成后,通过发表论文、代码和数据集以及博客文章来分享我们的研究成果。但为了与 Meta AI 开放科学方法保持一致,我们借此机会介绍下我们的研究愿景和思路,希望激发人工智能研究人员之间的讨论与合作。一个简单的事实是,我们需要共同合作来解决这些极具挑战性的、令人兴奋的问题。我们计划在即将发布的建议书中分享有关 LeCun 愿景的更多细节。能够模拟世界运作方式的人工智能“人类和非人类动物似乎能够通过观察和少量难以理解的互动,以一种与任务无关的、无监督的方式学习关于世界如何运作的大量背景知识,“LeCun 说。”根据推测,这样积累的知识可能就构成了我们通常所说的常识的基础。”而常识可以看作是世界模型的集合,可以解释什么可能,什么合理,什么不可能。这使得人类能够在不熟悉的情况下有效地进行计划。例如,那个青少年司机可能以前没有在雪地上开过车,但他(很可能)知道雪地会很滑,如果开得太猛,车就会打滑。常识性知识使动物不仅能够预测未来的结果,而且能够填补缺失的信息,无论是时间上的还是空间上的。当司机听到附近有金属撞击的声音时,马上就知道发生了事故——即使没有看到相关的车辆。人类、动物和智能系统使用世界模型的想法可以追溯到几十年前的心理学和工程领域,如控制与机器人学。LeCun 提出,当今人工智能最重要的挑战之一是设计学习范式和架构,使机器能够以自监督的方式学习世界模型,然后使用这些模型进行预测、推理和规划。 他在纲要中重新组合了不同学科提出的观点,如认知科学、系统神经科学、最优控制、强化学习和“传统”人工智能,并将它们与机器学习的新概念相结合,如自监督学习和联合嵌入架构。自主智能架构LeCun 提出了一个自主智能的架构,它由六个独立的模块组成。每个模块都是可微分的,因为它可以很容易地计算出一些目标函数相对于其自身输入的梯度估计,并将梯度信息传播给上游模块。自主智能的系统架构。配置器从其他模块获得输入,但为了简化图表,我们省略了这些箭头。配置器模块负责执行控制。给定一个要执行的任务,它会针对这项任务预先配置感知模块、世界模型、成本和行为者,可能是通过调整这些模块的参数。感知模块接收来自传感器的信号并估计世界当前的状态。对于一个特定的任务,感知到的世界状态只有一小部分是相关和有用的。配置器模块预先通知感知系统,从感知到的状态中提取与当前任务相关的信息。世界模型模块是这个架构中最复杂的部分。它有两个作用:(1)评估感知未能提供的关于世界状态的缺失信息;(2)合理预测世界的未来状态。世界模型可以预测世界的自然演变,也可以预测由行为者模块采取的一系列行动所产生的未来世界状态。世界模型就像是一个与当前任务相关的这部分世界的模拟器。由于世界充满了不确定性,该模型必须能够代表多种可能的预测。司机可能会在靠近十字路口时放慢速度,以防另一辆靠近十字路口的车没有停在停车标志前。成本模块会计算输出一个标量,预测代理的不适程度。它由两个子模块组成:内在成本模块,这是固有的,不可改变(不可训练),它负责计算即时不适(如对代理的损害,违反硬编码的行为约束等);批评者模块是一个可训练的模块,负责预测内在成本的未来值。代理的最终目标是长期保持内在成本最小化。LeCun 说:“这是基本的行为驱动和内在动机。“因此,它将考虑到内在成本,如不浪费能量以及特定于当前任务的成本。"因为成本模块是可微分的,所以成本的梯度可以通过其他模块反向传播,用于规划、推理或学习。”行为者模块计算行动序列的建议。”行为者可以找到一个最佳行动序列,使预估的未来成本最小,并输出最佳序列中的第一个行动,其方式类似于经典的最优控制,“LeCun 说。短期记忆模块记录了当前和预测的世界状态,以及相关成本。世界模型架构和自监督训练该架构的核心是预测性世界模型。构建这样一个模型的关键挑战是如何使它能够代表多种多样的合理预测。现实世界并不是完全可预测的:一个特定的情况可能有许多演变方式,而且,一个情况有许多细节与当前任务无关。当我开车时,我可能需要预测周围的汽车会做什么,但我不需要预测道旁树上个别树叶的准确位置。世界模型怎么样才能习得世界的抽象表示,保留重要的细节信息而忽略不相关的,并在抽象表示的空间里进行预测?联合嵌入预测架构(JEPA)是解决方案的一个关键因素。JEPA 可以捕获两个输入 x 和 y 之间的依赖关系。例如,x 可能是一个视频片段,而 y 是该视频的下一个片段。将 x 和 y 输入可训练的编码器,提取出它们的抽象表示 sx 和 sy。训练一个预测器模块,它可以从 sx 预测 sy。预测器可以使用一个潜在变量 z 来表示 sy 中存在而 sx 中不存在的信息。JEPA 用两种方式处理预测的不确定性:(1) 编码器可以选择放弃 y 中难以预测的信息;(2)潜变量 z 在一个集合中取值时,预测也会在一组可信的预测中变化。我们如何训练 JEPA?直到最近,还只有对比法一种方法,包括显示 x 和 y 兼容的例子,以及许多 x 和 y 不兼容的例子。但当向量表示维数很高时,就很不可行了。过去两年里出现了另一种训练策略:正则化方法。当应用于 JEPA 时,该方法使用四个标准:使 x 的表示包含 x 的最大信息量;使 y 的表示包含 y 的最大信息量;能从 x 的表示最大限度地预测 y 的表示;使预测器尽可能少地使用潜在变量来表示预测的不确定性。这些标准可以通过各种方式转化为可微分的成本函数。一种方法是VICReg方法,其中 VICReg 是变量(Variance)、不变性(Invariance)、协方差正则化(Covariance Regularization)的缩写。VICReg 是通过保持 x 和 y 的分量的方差在某个阈值之上,并使这些分量尽可能地相互独立,来最大化 x 和 y 的表示包含的信息量。同时,该模型试图使 y 的表示可以从 x 的表示预测出来。此外,通过离散化、低维化、稀疏化或噪声化,使潜变量的信息量最小化。JEPA 之美在于它自然生成了输入的信息性抽象表示,去掉了不相关的细节,并且可以用它来进行预测。这使得 JEPA 可以一层层叠加,习得更高层次的抽象表示,用于进行更长期的预测。例如有一个场景,在比较高的层次上可以描述为“一个厨师正在做法式薄饼”。我们可以预测,厨师会去拿面粉、牛奶和鸡蛋;混合原材料;把面糊舀到锅里;让面糊炸开;翻转可丽饼;然后重复上述过程。在较低的层次上,倒勺子包括舀一些面糊并在锅里摊开。再往下,可以精确到厨师的手每一毫秒的准确轨迹。在手的轨迹这么低的层次上,我们的世界模型只能做出短期的准确预测。但在更高的抽象层次上,它可以进行长期预测。分层 JEPA 可用于在多个抽象层次和多个时间尺度上进行预测。它如何训练呢?主要是通过被动观察,少数时候通过互动。婴儿在出生后的头几个月里主要是通过观察来了解世界的运作。她知道世界是三维的,一些物体在另一些物体的前面,当一个物体被遮挡时,它仍然存在。最终,在 9 个月大的时候,婴儿学会了直观的物理学知识,例如,没有支撑的物体在重力作用下坠落。希望分层 JEPA 可以通过观看视频和与环境互动来学习世界的运作方式。通过训练自己预测视频中会发生什么,来生成世界的分层表示。通过在世界中采取行动并观察结果,世界模型将学会预测行动后果,使它能够进行推理和计划。感知-行动过程通过适当的训练将分层 JEPA 变成世界模型,代理可以对复杂的行动进行分层规划,将复杂的任务分解成一系列不太复杂、不太抽象的子任务,一直到效应器上的底层行动为止。典型的感知-行动过程是这样的。该图说明了两层结构的情况。感知模块提取世界状态的层次表示(图中 s1[0]=Enc1(x),s2[0]=Enc2(s[0]))。然后,根据第二层行为者提出的抽象行动序列,多次应用第二层预测器预测未来状态。行动者会优化第二层行动序列,使总成本最小化(图中的 C(s2[4]))。这个过程类似于最优控制中的模型预测控制。这个过程会多次对二级潜变量进行重复绘制,可能产生不同的高层场景。由此产生的高层行动并不构成真正的行动,而只是定义了低层状态序列必须满足的约束条件(例如,各要素是否正确混合?) 。它们构成了真正的子目标。整个过程在较低的层次上重复:运行低层预测器,优化低层行动序列以最小化来自上层的中间成本,并重复这一过程对低层潜变量进行多次绘制。一旦这个过程完成,代理就将第一个低层行动输出给效应器,整个过程可以重复进行。如果我们成功构建了这样一个模型,所有模块都是可微分的,那么整个行动优化过程就可以用基于梯度的方法进行。人工智能向人类级智能迈进这样一篇简短的博文无法聊透 LeCun 的愿景,前方还有许多困难的挑战。其中最有趣也最困难的是将世界模型的架构和训练过程实例化。事实上,可以说,训练世界模型是未来几十年人工智能真正有所进展需要克服的主要挑战。但架构的许多其他方面仍有待定义,包括如何精确地训练批评者,如何构建和训练配置器,以及如何使用短期记忆来跟踪世界状态并存储世界状态的历史、行动和相关的内在成本来优化批评者。LeCun 和 Meta AI 的其他研究人员期待在未来几个月甚至几年内探索这些问题,并与该领域的其他人交流想法及相互学习。创造能够像人类一样有效学习和理解的机器需要长期的科学努力——而且不能保证成功。但我们相信,基础研究将继续加深我们对思维和机器的理解,并将使每个人工智能用户从中受益。查看英文原文:https://ai.facebook.com/blog/yann-lecun-advances-in-ai-research?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJhdWQiOiJhY2Nlc3NfcmVzb3VyY2UiLCJleHAiOjE2NTE4Mjg0NTEsImZpbGVHVUlEIjoiZTFBejRPTzlnOFVkUlZxVyIsImlhdCI6MTY1MTgyODE1MSwidXNlcklkIjoyMDQxOTA5MH0.CjoZETnyH4qKFZfOXMw9oBEBklUtHQEqGky9ZVtVJQ4
文章
机器学习/深度学习  ·  存储  ·  传感器  ·  人工智能  ·  自动驾驶
2022-05-07
破壁人AI百度:科技公司反内卷的典型样本
互联网整个行业都在陷入被动且尴尬的局面。去年开始流行的“内卷”一词,恰如其分的描述了互联网的现状,比如抖音开始做外卖,微信强推视频号,一直硝烟弥漫的电商市场,更是激战在社区团购上。内卷背后也有人感慨,互联网到了尽头。支撑这一论述的是,移动互联网的人口红利已经消失,几款国民型APP用户增长都固定在了10亿这个级别,只能依靠自然人口的增长和迁移。这一幕如同刘慈欣小说《三体》里所描述的,智子封锁的地球科技一样,被信息干扰,或引导至错误方向发展,困在原地,做困兽之斗,无法自拔。“内卷论”与“尽头论”的流行,让我们看到,中国科技产业尤其是互联网,需要自己的“破壁人”计划,突破封锁,尤其是跳出原有的路径依赖。我们不应该只是一味的看到消费互联网的互联网产业,却不见更为广阔的产业互联网未来。科技的未来,不是消费互联网,而是产业互联网。黄奇帆在中国互联网大会上斩钉截铁地说,“今后十年是产业互联网时代”。互联网的未来是产业互联网,产业互联网的价值以及远景是怎样的?2021年8月18日的百度世界大会,告诉我们关于未来的某些可能性,从某种意义上来说,百度正在扮演着中国科技的“破壁人”角色。硬科技背后需要软实力沉淀和积累百度世界大会,是百度公司的一个传统,这既是百度向公众披露其运营和战略的路演,也是公众了解百度的一个窗口。2021年的百度世界大会与以往最大的不同,可能是,这一次百度发布了更多的“硬科技”产品。比如惊艳一时的百度汽车机器人,比如温情脉脉的小度智能巨屏电视、小度智能词典笔、小度主动降噪智能耳机Pro、添添旋转智能屏,以及宣布量产的百度第二代昆仑AI芯片“昆仑芯2”。一致的行业现象是,科技企业都在逐渐从它们软件的实力向硬件渗透。百度这些“硬科技”的背后,是其软件实力的支撑。比如,百度的“汽车机器人”,它需要多重能力:首先具备L5级别自动驾驶能力,不仅无需人类驾驶,而且比人类驾驶更安全;其次具备语音、人脸识别等多模交互能力,分析用户潜在需求,主动提供服务;此外,汽车机器人还具备自我学习和不断升级能力,是服务各种场景的智慧体。百度的这款“汽车机器人”已经达到了L5级别的自动驾驶,它是一辆没有方向盘汽车,这是自动驾驶的终极形态,无需人类驾驶的同时,还能有更多驾驶之外的服务。这也是命名“汽车机器人”的原因所在吧。又比如,小度发布的四款产品,是百度AI人格化和服务化两大发展方向上各种技术沉淀和积累的集中展现。譬如语音识别技术,百度的语音识别技术准确率达到了98%,甚至超过人耳水平。这四款是将语音识别技术、百度AI等与智能生活结合,针对不同场景开发的产品,用户可以通过语音控制家中的电器、窗帘、台灯,通过智能词典笔,可以识别翻译各种外语,通过添添旋转屏可以K歌、刷短视频、点外卖、在线支付等。小度这四款硬件科技,将百度APP智能搜索、百度健康医典、AI智慧社区等一些列内容沉淀与技术积累集合在一起。这一系列的硬科技的背后,延续了一句传统的老话,“科技以人文本”。值得注意的是,这一系列的硬科技产品的“爆发式”发布,绝非一蹴而就,严格来说,这是百度在AI领域持续投入超过十年的一次检验。百度的案例预示着,产业互联网是软硬结合的。互联网未来是产业基础,云计算+AI有人说,互联网的未来是云与智能,将两者的结合,可能就是AI。百度世界大会前一天,2021年8月17日,国务院签署并公布了《关键信息基础设施安全保护条例》,该条例与《网络安全法》相呼应,一系列法规的制定和执行落地,预示一点:互联网已经成为国民生活和国民经济的基础设施。这也意味着,云计算将是基础之一,在云计算的基础上,则是AI智能。云计算是对产业数字化的支撑,人工智能则是加速产业的智能化升级,“赋能千行百业”。云计算市场是目前国内一众科技企业中竞争最为激烈的,国际市场上有亚马逊、微软、阿里云、Google,国内除了阿里云,还有腾讯、华为。百度云起步较阿里云稍晚,但这并不妨碍它的后发优势。前不久百度公布了2021年第二季度财报, 云计算的增长尤为抢眼,它保持了同比71%的增速,领跑中国云计算市场,跻身第四。从2018年到2020年,百度云智能服务收入分别为30亿、64亿和92亿,按照71%的增速,今年将突破150亿元大关。百度云的“后发优势”,是云计算与AI的结合,百度采用了“AI云”作为标识与其他公有云做区别。可以将“AI云”看作是,“数字化底座”+“智能化引擎”的结合,这也意味着,AI云能够在制造、能源、城市、金融、医疗、媒体等领域,给客户数字化转型和智能化升级一步到位。体现在财务上,也许是,“AI云”毛利要远高于公有云。今年的百度世界大会,主题是“AI这时代,星辰大海”,李彦宏在直播中说,“AI,也是爱,是技术和温度结合在一起。”,“让每一个人都感受到技术带来的改变,这就是技术的价值”。AI的发展,一方面是融入到每个人的衣食住行,变得触手可及,另一方面则是产业智能化升级赋能。消费互联网与产业互联网的升级,体现在这一次百度发布的“百度大脑7.0”,百度大脑融合创新,降低门槛的优势。在泉州,百度为泉州水务搭建了“水务大脑”,百度智能云提供的AI用水量预测模型可结合历史用水数据、天气、季节等变化因素,精准预测用水量,实现按需供水。同时,加压泵站精准调压应用,通过分析运行工况,可动态调整泵站流量、压力、频率等参数,大大降低泵机功耗,科学准确调控水压。在新疆,艰苦的人力电力巡检工作也正在被百度AI代替。机器设备将拍摄的影像资料传回,通过AI技术可以快速判断线路是否存在故障,这样巡检效率得到了大幅提升,与此同时,巡检工人的工作环境也得到巨大改善,保障了边疆人民千家万户的用电安全。应该说,产业互联网是千行百业拥抱互联网,也是AI商业化的标志。透过这次百度世界大会,我们看到百度AI的商业化步伐明显加快,AI远比我们所预想的更快进入落地周期,与此同时,随着国内数字新基建的开启,有更早AI布局和更久技术沉淀的企业将在新的周期里全面提速。告别路径依赖,未来从畅想变现实随着滴滴因数据问题受到调查,新一轮的移动出行大战也上演了。与其他互联网不同的是,移动出行网约车大战,被认为是互联网改造传统行业的先声。这一轮出行大战,如高德、美团、T3等也重复着历史,延续了往日滴滴最为成功的补贴方式。很多互联网从业者未曾想过,这种疯狂烧钱的补贴,也是今天互联网备受争议和指责的原因之一。黄奇帆曾说,当前消费互联网领域的四个问题是:烧钱扩规模以取得行业垄断,利用人性弱点设计产品,利用垄断地位采集信息侵犯隐私,互联网杀熟。烧钱扩规模的前提是构建在存量市场。互联网的下一阶段,产业互联网这种烧钱扩大规模的方式或许不在适用,真正应该做的,是寻求产业的增量和效率最大化。如果将滴滴为代表的移动出行视为产业互联网的先声,那么出行领域的未来一定是更为智能的自动驾驶。财报分析师会议上,李彦宏确认,百度最新的robotaxi的软硬件系统,实现了60%的成本骤降,并且有望最快在2025年低于网约车。截至2021年上半年,百度Apollo自动驾驶出行服务已累计接待乘客超过40万人次,测试里程超过1400万公里,自动驾驶专利数量达3000件。李彦宏曾经分享过“3,30,3000”计划,即3年、30城、3000辆Robo Taxi,这是一个循序渐进的过程。从滴滴出行到百度的未来驾驶业务,我们可以看出,产业互联网与消费互联网的本质差异:滴滴为代表的移动出行,更多的是通过互联网的手段,做交易信息的匹配;未来的驾驶业务,则是在交易信息匹配的基础上,做更多产业端的供给侧结构性改革——通过智能化、数据化方式,降低供给侧的成本,提升消费端的体验和效率。百度的“汽车机器人”就是建立在Robotaxi技术和运营沉淀基础上,除了惊艳的“汽车机器人”,更让大众兴奋的可能是,百度发布的无人车出行服务平台——“萝卜快跑”。“萝卜快跑”并不是简单的为“Robotaxi”赋予一个中文名字这么简单,更为重要的是,Robotaxi象征着概念、研发和技术沉淀,“萝卜快跑”则意味着,经过8年发展,百度Apollo已经从技术验证阶段进入到规模化商业运营阶段。IHS 报告显示,预计整个共享出行市场的市场规模在2030年将达到2.25万亿元人民币,复合增长率在20% - 28%之间。在共享出行市场中,Robotaxi将占到60%以上,市场规模超过1.3万亿。这也意味着,未来出行市场将转向无人车服务场景。造车新势力与网约车激战的当下,萝卜快跑的上线显得格外有意义,这意味着,自动驾驶下半场的角逐已经开启,规模化商业运营成为行业发展的重点,这也是对传统网约车赛道的一次换道超越。百度Apollo在过去两年,分别在北京、长沙、广州、沧州四个城市运营,目前也增获25个城市的运营牌照,距离30城的计划又进一步。萝卜快跑的上线,随着城市、乘客、公里数的不断增加和累积,也会进一步优化百度汽车机器人的迭代和升级。也就是说,萝卜快跑兼顾了科技的商业现实和未来畅想。
文章
人工智能  ·  自然语言处理  ·  自动驾驶  ·  安全  ·  机器人  ·  语音技术  ·  云计算  ·  计算机视觉  ·  AI芯片
2022-05-06
破壁人AI百度:科技公司反内卷的典型样本
互联网整个行业都在陷入被动且尴尬的局面。去年开始流行的“内卷”一词,恰如其分的描述了互联网的现状,比如抖音开始做外卖,微信强推视频号,一直硝烟弥漫的电商市场,更是激战在社区团购上。内卷背后也有人感慨,互联网到了尽头。支撑这一论述的是,移动互联网的人口红利已经消失,几款国民型APP用户增长都固定在了10亿这个级别,只能依靠自然人口的增长和迁移。这一幕如同刘慈欣小说《三体》里所描述的,智子封锁的地球科技一样,被信息干扰,或引导至错误方向发展,困在原地,做困兽之斗,无法自拔。“内卷论”与“尽头论”的流行,让我们看到,中国科技产业尤其是互联网,需要自己的“破壁人”计划,突破封锁,尤其是跳出原有的路径依赖。我们不应该只是一味的看到消费互联网的互联网产业,却不见更为广阔的产业互联网未来。科技的未来,不是消费互联网,而是产业互联网。黄奇帆在中国互联网大会上斩钉截铁地说,“今后十年是产业互联网时代”。互联网的未来是产业互联网,产业互联网的价值以及远景是怎样的?2021年8月18日的百度世界大会,告诉我们关于未来的某些可能性,从某种意义上来说,百度正在扮演着中国科技的“破壁人”角色。硬科技背后需要软实力沉淀和积累百度世界大会,是百度公司的一个传统,这既是百度向公众披露其运营和战略的路演,也是公众了解百度的一个窗口。2021年的百度世界大会与以往最大的不同,可能是,这一次百度发布了更多的“硬科技”产品。比如惊艳一时的百度汽车机器人,比如温情脉脉的小度智能巨屏电视、小度智能词典笔、小度主动降噪智能耳机Pro、添添旋转智能屏,以及宣布量产的百度第二代昆仑AI芯片“昆仑芯2”。一致的行业现象是,科技企业都在逐渐从它们软件的实力向硬件渗透。百度这些“硬科技”的背后,是其软件实力的支撑。比如,百度的“汽车机器人”,它需要多重能力:首先具备L5级别自动驾驶能力,不仅无需人类驾驶,而且比人类驾驶更安全;其次具备语音、人脸识别等多模交互能力,分析用户潜在需求,主动提供服务;此外,汽车机器人还具备自我学习和不断升级能力,是服务各种场景的智慧体。百度的这款“汽车机器人”已经达到了L5级别的自动驾驶,它是一辆没有方向盘汽车,这是自动驾驶的终极形态,无需人类驾驶的同时,还能有更多驾驶之外的服务。这也是命名“汽车机器人”的原因所在吧。又比如,小度发布的四款产品,是百度AI人格化和服务化两大发展方向上各种技术沉淀和积累的集中展现。譬如语音识别技术,百度的语音识别技术准确率达到了98%,甚至超过人耳水平。这四款是将语音识别技术、百度AI等与智能生活结合,针对不同场景开发的产品,用户可以通过语音控制家中的电器、窗帘、台灯,通过智能词典笔,可以识别翻译各种外语,通过添添旋转屏可以K歌、刷短视频、点外卖、在线支付等。小度这四款硬件科技,将百度APP智能搜索、百度健康医典、AI智慧社区等一些列内容沉淀与技术积累集合在一起。这一系列的硬科技的背后,延续了一句传统的老话,“科技以人文本”。值得注意的是,这一系列的硬科技产品的“爆发式”发布,绝非一蹴而就,严格来说,这是百度在AI领域持续投入超过十年的一次检验。百度的案例预示着,产业互联网是软硬结合的。互联网未来是产业基础,云计算+AI有人说,互联网的未来是云与智能,将两者的结合,可能就是AI。百度世界大会前一天,2021年8月17日,国务院签署并公布了《关键信息基础设施安全保护条例》,该条例与《网络安全法》相呼应,一系列法规的制定和执行落地,预示一点:互联网已经成为国民生活和国民经济的基础设施。这也意味着,云计算将是基础之一,在云计算的基础上,则是AI智能。云计算是对产业数字化的支撑,人工智能则是加速产业的智能化升级,“赋能千行百业”。云计算市场是目前国内一众科技企业中竞争最为激烈的,国际市场上有亚马逊、微软、阿里云、Google,国内除了阿里云,还有腾讯、华为。百度云起步较阿里云稍晚,但这并不妨碍它的后发优势。前不久百度公布了2021年第二季度财报, 云计算的增长尤为抢眼,它保持了同比71%的增速,领跑中国云计算市场,跻身第四。从2018年到2020年,百度云智能服务收入分别为30亿、64亿和92亿,按照71%的增速,今年将突破150亿元大关。百度云的“后发优势”,是云计算与AI的结合,百度采用了“AI云”作为标识与其他公有云做区别。可以将“AI云”看作是,“数字化底座”+“智能化引擎”的结合,这也意味着,AI云能够在制造、能源、城市、金融、医疗、媒体等领域,给客户数字化转型和智能化升级一步到位。体现在财务上,也许是,“AI云”毛利要远高于公有云。今年的百度世界大会,主题是“AI这时代,星辰大海”,李彦宏在直播中说,“AI,也是爱,是技术和温度结合在一起。”,“让每一个人都感受到技术带来的改变,这就是技术的价值”。AI的发展,一方面是融入到每个人的衣食住行,变得触手可及,另一方面则是产业智能化升级赋能。消费互联网与产业互联网的升级,体现在这一次百度发布的“百度大脑7.0”,百度大脑融合创新,降低门槛的优势。在泉州,百度为泉州水务搭建了“水务大脑”,百度智能云提供的AI用水量预测模型可结合历史用水数据、天气、季节等变化因素,精准预测用水量,实现按需供水。同时,加压泵站精准调压应用,通过分析运行工况,可动态调整泵站流量、压力、频率等参数,大大降低泵机功耗,科学准确调控水压。在新疆,艰苦的人力电力巡检工作也正在被百度AI代替。机器设备将拍摄的影像资料传回,通过AI技术可以快速判断线路是否存在故障,这样巡检效率得到了大幅提升,与此同时,巡检工人的工作环境也得到巨大改善,保障了边疆人民千家万户的用电安全。应该说,产业互联网是千行百业拥抱互联网,也是AI商业化的标志。透过这次百度世界大会,我们看到百度AI的商业化步伐明显加快,AI远比我们所预想的更快进入落地周期,与此同时,随着国内数字新基建的开启,有更早AI布局和更久技术沉淀的企业将在新的周期里全面提速。告别路径依赖,未来从畅想变现实随着滴滴因数据问题受到调查,新一轮的移动出行大战也上演了。与其他互联网不同的是,移动出行网约车大战,被认为是互联网改造传统行业的先声。这一轮出行大战,如高德、美团、T3等也重复着历史,延续了往日滴滴最为成功的补贴方式。很多互联网从业者未曾想过,这种疯狂烧钱的补贴,也是今天互联网备受争议和指责的原因之一。黄奇帆曾说,当前消费互联网领域的四个问题是:烧钱扩规模以取得行业垄断,利用人性弱点设计产品,利用垄断地位采集信息侵犯隐私,互联网杀熟。烧钱扩规模的前提是构建在存量市场。互联网的下一阶段,产业互联网这种烧钱扩大规模的方式或许不在适用,真正应该做的,是寻求产业的增量和效率最大化。如果将滴滴为代表的移动出行视为产业互联网的先声,那么出行领域的未来一定是更为智能的自动驾驶。财报分析师会议上,李彦宏确认,百度最新的robotaxi的软硬件系统,实现了60%的成本骤降,并且有望最快在2025年低于网约车。截至2021年上半年,百度Apollo自动驾驶出行服务已累计接待乘客超过40万人次,测试里程超过1400万公里,自动驾驶专利数量达3000件。李彦宏曾经分享过“3,30,3000”计划,即3年、30城、3000辆Robo Taxi,这是一个循序渐进的过程。从滴滴出行到百度的未来驾驶业务,我们可以看出,产业互联网与消费互联网的本质差异:滴滴为代表的移动出行,更多的是通过互联网的手段,做交易信息的匹配;未来的驾驶业务,则是在交易信息匹配的基础上,做更多产业端的供给侧结构性改革——通过智能化、数据化方式,降低供给侧的成本,提升消费端的体验和效率。百度的“汽车机器人”就是建立在Robotaxi技术和运营沉淀基础上,除了惊艳的“汽车机器人”,更让大众兴奋的可能是,百度发布的无人车出行服务平台——“萝卜快跑”。“萝卜快跑”并不是简单的为“Robotaxi”赋予一个中文名字这么简单,更为重要的是,Robotaxi象征着概念、研发和技术沉淀,“萝卜快跑”则意味着,经过8年发展,百度Apollo已经从技术验证阶段进入到规模化商业运营阶段。IHS 报告显示,预计整个共享出行市场的市场规模在2030年将达到2.25万亿元人民币,复合增长率在20% - 28%之间。在共享出行市场中,Robotaxi将占到60%以上,市场规模超过1.3万亿。这也意味着,未来出行市场将转向无人车服务场景。造车新势力与网约车激战的当下,萝卜快跑的上线显得格外有意义,这意味着,自动驾驶下半场的角逐已经开启,规模化商业运营成为行业发展的重点,这也是对传统网约车赛道的一次换道超越。百度Apollo在过去两年,分别在北京、长沙、广州、沧州四个城市运营,目前也增获25个城市的运营牌照,距离30城的计划又进一步。萝卜快跑的上线,随着城市、乘客、公里数的不断增加和累积,也会进一步优化百度汽车机器人的迭代和升级。也就是说,萝卜快跑兼顾了科技的商业现实和未来畅想。
文章
人工智能  ·  自然语言处理  ·  自动驾驶  ·  安全  ·  机器人  ·  语音技术  ·  云计算  ·  计算机视觉  ·  AI芯片
2022-05-05
破壁人AI百度:科技公司反内卷的典型样本
互联网整个行业都在陷入被动且尴尬的局面。去年开始流行的“内卷”一词,恰如其分的描述了互联网的现状,比如抖音开始做外卖,微信强推视频号,一直硝烟弥漫的电商市场,更是激战在社区团购上。内卷背后也有人感慨,互联网到了尽头。支撑这一论述的是,移动互联网的人口红利已经消失,几款国民型APP用户增长都固定在了10亿这个级别,只能依靠自然人口的增长和迁移。这一幕如同刘慈欣小说《三体》里所描述的,智子封锁的地球科技一样,被信息干扰,或引导至错误方向发展,困在原地,做困兽之斗,无法自拔。“内卷论”与“尽头论”的流行,让我们看到,中国科技产业尤其是互联网,需要自己的“破壁人”计划,突破封锁,尤其是跳出原有的路径依赖。我们不应该只是一味的看到消费互联网的互联网产业,却不见更为广阔的产业互联网未来。科技的未来,不是消费互联网,而是产业互联网。黄奇帆在中国互联网大会上斩钉截铁地说,“今后十年是产业互联网时代”。互联网的未来是产业互联网,产业互联网的价值以及远景是怎样的?2021年8月18日的百度世界大会,告诉我们关于未来的某些可能性,从某种意义上来说,百度正在扮演着中国科技的“破壁人”角色。硬科技背后需要软实力沉淀和积累百度世界大会,是百度公司的一个传统,这既是百度向公众披露其运营和战略的路演,也是公众了解百度的一个窗口。2021年的百度世界大会与以往最大的不同,可能是,这一次百度发布了更多的“硬科技”产品。比如惊艳一时的百度汽车机器人,比如温情脉脉的小度智能巨屏电视、小度智能词典笔、小度主动降噪智能耳机Pro、添添旋转智能屏,以及宣布量产的百度第二代昆仑AI芯片“昆仑芯2”。一致的行业现象是,科技企业都在逐渐从它们软件的实力向硬件渗透。百度这些“硬科技”的背后,是其软件实力的支撑。比如,百度的“汽车机器人”,它需要多重能力:首先具备L5级别自动驾驶能力,不仅无需人类驾驶,而且比人类驾驶更安全;其次具备语音、人脸识别等多模交互能力,分析用户潜在需求,主动提供服务;此外,汽车机器人还具备自我学习和不断升级能力,是服务各种场景的智慧体。百度的这款“汽车机器人”已经达到了L5级别的自动驾驶,它是一辆没有方向盘汽车,这是自动驾驶的终极形态,无需人类驾驶的同时,还能有更多驾驶之外的服务。这也是命名“汽车机器人”的原因所在吧。又比如,小度发布的四款产品,是百度AI人格化和服务化两大发展方向上各种技术沉淀和积累的集中展现。譬如语音识别技术,百度的语音识别技术准确率达到了98%,甚至超过人耳水平。这四款是将语音识别技术、百度AI等与智能生活结合,针对不同场景开发的产品,用户可以通过语音控制家中的电器、窗帘、台灯,通过智能词典笔,可以识别翻译各种外语,通过添添旋转屏可以K歌、刷短视频、点外卖、在线支付等。小度这四款硬件科技,将百度APP智能搜索、百度健康医典、AI智慧社区等一些列内容沉淀与技术积累集合在一起。这一系列的硬科技的背后,延续了一句传统的老话,“科技以人文本”。值得注意的是,这一系列的硬科技产品的“爆发式”发布,绝非一蹴而就,严格来说,这是百度在AI领域持续投入超过十年的一次检验。百度的案例预示着,产业互联网是软硬结合的。互联网未来是产业基础,云计算+AI有人说,互联网的未来是云与智能,将两者的结合,可能就是AI。百度世界大会前一天,2021年8月17日,国务院签署并公布了《关键信息基础设施安全保护条例》,该条例与《网络安全法》相呼应,一系列法规的制定和执行落地,预示一点:互联网已经成为国民生活和国民经济的基础设施。这也意味着,云计算将是基础之一,在云计算的基础上,则是AI智能。云计算是对产业数字化的支撑,人工智能则是加速产业的智能化升级,“赋能千行百业”。云计算市场是目前国内一众科技企业中竞争最为激烈的,国际市场上有亚马逊、微软、阿里云、Google,国内除了阿里云,还有腾讯、华为。百度云起步较阿里云稍晚,但这并不妨碍它的后发优势。前不久百度公布了2021年第二季度财报, 云计算的增长尤为抢眼,它保持了同比71%的增速,领跑中国云计算市场,跻身第四。从2018年到2020年,百度云智能服务收入分别为30亿、64亿和92亿,按照71%的增速,今年将突破150亿元大关。百度云的“后发优势”,是云计算与AI的结合,百度采用了“AI云”作为标识与其他公有云做区别。可以将“AI云”看作是,“数字化底座”+“智能化引擎”的结合,这也意味着,AI云能够在制造、能源、城市、金融、医疗、媒体等领域,给客户数字化转型和智能化升级一步到位。体现在财务上,也许是,“AI云”毛利要远高于公有云。今年的百度世界大会,主题是“AI这时代,星辰大海”,李彦宏在直播中说,“AI,也是爱,是技术和温度结合在一起。”,“让每一个人都感受到技术带来的改变,这就是技术的价值”。AI的发展,一方面是融入到每个人的衣食住行,变得触手可及,另一方面则是产业智能化升级赋能。消费互联网与产业互联网的升级,体现在这一次百度发布的“百度大脑7.0”,百度大脑融合创新,降低门槛的优势。在泉州,百度为泉州水务搭建了“水务大脑”,百度智能云提供的AI用水量预测模型可结合历史用水数据、天气、季节等变化因素,精准预测用水量,实现按需供水。同时,加压泵站精准调压应用,通过分析运行工况,可动态调整泵站流量、压力、频率等参数,大大降低泵机功耗,科学准确调控水压。在新疆,艰苦的人力电力巡检工作也正在被百度AI代替。机器设备将拍摄的影像资料传回,通过AI技术可以快速判断线路是否存在故障,这样巡检效率得到了大幅提升,与此同时,巡检工人的工作环境也得到巨大改善,保障了边疆人民千家万户的用电安全。应该说,产业互联网是千行百业拥抱互联网,也是AI商业化的标志。透过这次百度世界大会,我们看到百度AI的商业化步伐明显加快,AI远比我们所预想的更快进入落地周期,与此同时,随着国内数字新基建的开启,有更早AI布局和更久技术沉淀的企业将在新的周期里全面提速。告别路径依赖,未来从畅想变现实随着滴滴因数据问题受到调查,新一轮的移动出行大战也上演了。与其他互联网不同的是,移动出行网约车大战,被认为是互联网改造传统行业的先声。这一轮出行大战,如高德、美团、T3等也重复着历史,延续了往日滴滴最为成功的补贴方式。很多互联网从业者未曾想过,这种疯狂烧钱的补贴,也是今天互联网备受争议和指责的原因之一。黄奇帆曾说,当前消费互联网领域的四个问题是:烧钱扩规模以取得行业垄断,利用人性弱点设计产品,利用垄断地位采集信息侵犯隐私,互联网杀熟。烧钱扩规模的前提是构建在存量市场。互联网的下一阶段,产业互联网这种烧钱扩大规模的方式或许不在适用,真正应该做的,是寻求产业的增量和效率最大化。如果将滴滴为代表的移动出行视为产业互联网的先声,那么出行领域的未来一定是更为智能的自动驾驶。财报分析师会议上,李彦宏确认,百度最新的robotaxi的软硬件系统,实现了60%的成本骤降,并且有望最快在2025年低于网约车。截至2021年上半年,百度Apollo自动驾驶出行服务已累计接待乘客超过40万人次,测试里程超过1400万公里,自动驾驶专利数量达3000件。李彦宏曾经分享过“3,30,3000”计划,即3年、30城、3000辆Robo Taxi,这是一个循序渐进的过程。从滴滴出行到百度的未来驾驶业务,我们可以看出,产业互联网与消费互联网的本质差异:滴滴为代表的移动出行,更多的是通过互联网的手段,做交易信息的匹配;未来的驾驶业务,则是在交易信息匹配的基础上,做更多产业端的供给侧结构性改革——通过智能化、数据化方式,降低供给侧的成本,提升消费端的体验和效率。百度的“汽车机器人”就是建立在Robotaxi技术和运营沉淀基础上,除了惊艳的“汽车机器人”,更让大众兴奋的可能是,百度发布的无人车出行服务平台——“萝卜快跑”。“萝卜快跑”并不是简单的为“Robotaxi”赋予一个中文名字这么简单,更为重要的是,Robotaxi象征着概念、研发和技术沉淀,“萝卜快跑”则意味着,经过8年发展,百度Apollo已经从技术验证阶段进入到规模化商业运营阶段。IHS 报告显示,预计整个共享出行市场的市场规模在2030年将达到2.25万亿元人民币,复合增长率在20% - 28%之间。在共享出行市场中,Robotaxi将占到60%以上,市场规模超过1.3万亿。这也意味着,未来出行市场将转向无人车服务场景。造车新势力与网约车激战的当下,萝卜快跑的上线显得格外有意义,这意味着,自动驾驶下半场的角逐已经开启,规模化商业运营成为行业发展的重点,这也是对传统网约车赛道的一次换道超越。百度Apollo在过去两年,分别在北京、长沙、广州、沧州四个城市运营,目前也增获25个城市的运营牌照,距离30城的计划又进一步。萝卜快跑的上线,随着城市、乘客、公里数的不断增加和累积,也会进一步优化百度汽车机器人的迭代和升级。也就是说,萝卜快跑兼顾了科技的商业现实和未来畅想。
文章
人工智能  ·  自然语言处理  ·  自动驾驶  ·  安全  ·  机器人  ·  语音技术  ·  云计算  ·  计算机视觉  ·  AI芯片
2022-05-05
破壁人AI百度:科技公司反内卷的典型样本
这一幕如同刘慈欣小说《三体》里所描述的,智子封锁的地球科技一样,被信息干扰,或引导至错误方向发展,困在原地,做困兽之斗,无法自拔。“内卷论”与“尽头论”的流行,让我们看到,中国科技产业尤其是互联网,需要自己的“破壁人”计划,突破封锁,尤其是跳出原有的路径依赖。我们不应该只是一味的看到消费互联网的互联网产业,却不见更为广阔的产业互联网未来。科技的未来,不是消费互联网,而是产业互联网。黄奇帆在中国互联网大会上斩钉截铁地说,“今后十年是产业互联网时代”。互联网的未来是产业互联网,产业互联网的价值以及远景是怎样的?2021年8月18日的百度世界大会,告诉我们关于未来的某些可能性,从某种意义上来说,百度正在扮演着中国科技的“破壁人”角色。硬科技背后需要软实力沉淀和积累百度世界大会,是百度公司的一个传统,这既是百度向公众披露其运营和战略的路演,也是公众了解百度的一个窗口。2021年的百度世界大会与以往最大的不同,可能是,这一次百度发布了更多的“硬科技”产品。比如惊艳一时的百度汽车机器人,比如温情脉脉的小度智能巨屏电视、小度智能词典笔、小度主动降噪智能耳机Pro、添添旋转智能屏,以及宣布量产的百度第二代昆仑AI芯片“昆仑芯2”。一致的行业现象是,科技企业都在逐渐从它们软件的实力向硬件渗透。百度这些“硬科技”的背后,是其软件实力的支撑。比如,百度的“汽车机器人”,它需要多重能力:首先具备L5级别自动驾驶能力,不仅无需人类驾驶,而且比人类驾驶更安全;其次具备语音、人脸识别等多模交互能力,分析用户潜在需求,主动提供服务;此外,汽车机器人还具备自我学习和不断升级能力,是服务各种场景的智慧体。百度的这款“汽车机器人”已经达到了L5级别的自动驾驶,它是一辆没有方向盘汽车,这是自动驾驶的终极形态,无需人类驾驶的同时,还能有更多驾驶之外的服务。这也是命名“汽车机器人”的原因所在吧。又比如,小度发布的四款产品,是百度AI人格化和服务化两大发展方向上各种技术沉淀和积累的集中展现。譬如语音识别技术,百度的语音识别技术准确率达到了98%,甚至超过人耳水平。这四款是将语音识别技术、百度AI等与智能生活结合,针对不同场景开发的产品,用户可以通过语音控制家中的电器、窗帘、台灯,通过智能词典笔,可以识别翻译各种外语,通过添添旋转屏可以K歌、刷短视频、点外卖、在线支付等。小度这四款硬件科技,将百度APP智能搜索、百度健康医典、AI智慧社区等一些列内容沉淀与技术积累集合在一起。这一系列的硬科技的背后,延续了一句传统的老话,“科技以人文本”。值得注意的是,这一系列的硬科技产品的“爆发式”发布,绝非一蹴而就,严格来说,这是百度在AI领域持续投入超过十年的一次检验。百度的案例预示着,产业互联网是软硬结合的。互联网未来是产业基础,云计算+AI有人说,互联网的未来是云与智能,将两者的结合,可能就是AI。百度世界大会前一天,2021年8月17日,国务院签署并公布了《关键信息基础设施安全保护条例》,该条例与《网络安全法》相呼应,一系列法规的制定和执行落地,预示一点:互联网已经成为国民生活和国民经济的基础设施。这也意味着,云计算将是基础之一,在云计算的基础上,则是AI智能。云计算是对产业数字化的支撑,人工智能则是加速产业的智能化升级,“赋能千行百业”。云计算市场是目前国内一众科技企业中竞争最为激烈的,国际市场上有亚马逊、微软、阿里云、Google,国内除了阿里云,还有腾讯、华为。百度云起步较阿里云稍晚,但这并不妨碍它的后发优势。前不久百度公布了2021年第二季度财报, 云计算的增长尤为抢眼,它保持了同比71%的增速,领跑中国云计算市场,跻身第四。从2018年到2020年,百度云智能服务收入分别为30亿、64亿和92亿,按照71%的增速,今年将突破150亿元大关。百度云的“后发优势”,是云计算与AI的结合,百度采用了“AI云”作为标识与其他公有云做区别。可以将“AI云”看作是,“数字化底座”+“智能化引擎”的结合,这也意味着,AI云能够在制造、能源、城市、金融、医疗、媒体等领域,给客户数字化转型和智能化升级一步到位。体现在财务上,也许是,“AI云”毛利要远高于公有云。今年的百度世界大会,主题是“AI这时代,星辰大海”,李彦宏在直播中说,“AI,也是爱,是技术和温度结合在一起。”,“让每一个人都感受到技术带来的改变,这就是技术的价值”。AI的发展,一方面是融入到每个人的衣食住行,变得触手可及,另一方面则是产业智能化升级赋能。消费互联网与产业互联网的升级,体现在这一次百度发布的“百度大脑7.0”,百度大脑融合创新,降低门槛的优势。在泉州,百度为泉州水务搭建了“水务大脑”,百度智能云提供的AI用水量预测模型可结合历史用水数据、天气、季节等变化因素,精准预测用水量,实现按需供水。同时,加压泵站精准调压应用,通过分析运行工况,可动态调整泵站流量、压力、频率等参数,大大降低泵机功耗,科学准确调控水压。在新疆,艰苦的人力电力巡检工作也正在被百度AI代替。机器设备将拍摄的影像资料传回,通过AI技术可以快速判断线路是否存在故障,这样巡检效率得到了大幅提升,与此同时,巡检工人的工作环境也得到巨大改善,保障了边疆人民千家万户的用电安全。应该说,产业互联网是千行百业拥抱互联网,也是AI商业化的标志。透过这次百度世界大会,我们看到百度AI的商业化步伐明显加快,AI远比我们所预想的更快进入落地周期,与此同时,随着国内数字新基建的开启,有更早AI布局和更久技术沉淀的企业将在新的周期里全面提速。告别路径依赖,未来从畅想变现实随着滴滴因数据问题受到调查,新一轮的移动出行大战也上演了。与其他互联网不同的是,移动出行网约车大战,被认为是互联网改造传统行业的先声。这一轮出行大战,如高德、美团、T3等也重复着历史,延续了往日滴滴最为成功的补贴方式。很多互联网从业者未曾想过,这种疯狂烧钱的补贴,也是今天互联网备受争议和指责的原因之一。黄奇帆曾说,当前消费互联网领域的四个问题是:烧钱扩规模以取得行业垄断,利用人性弱点设计产品,利用垄断地位采集信息侵犯隐私,互联网杀熟。烧钱扩规模的前提是构建在存量市场。互联网的下一阶段,产业互联网这种烧钱扩大规模的方式或许不在适用,真正应该做的,是寻求产业的增量和效率最大化。如果将滴滴为代表的移动出行视为产业互联网的先声,那么出行领域的未来一定是更为智能的自动驾驶。财报分析师会议上,李彦宏确认,百度最新的robotaxi的软硬件系统,实现了60%的成本骤降,并且有望最快在2025年低于网约车。截至2021年上半年,百度Apollo自动驾驶出行服务已累计接待乘客超过40万人次,测试里程超过1400万公里,自动驾驶专利数量达3000件。李彦宏曾经分享过“3,30,3000”计划,即3年、30城、3000辆Robo Taxi,这是一个循序渐进的过程。从滴滴出行到百度的未来驾驶业务,我们可以看出,产业互联网与消费互联网的本质差异:滴滴为代表的移动出行,更多的是通过互联网的手段,做交易信息的匹配;未来的驾驶业务,则是在交易信息匹配的基础上,做更多产业端的供给侧结构性改革——通过智能化、数据化方式,降低供给侧的成本,提升消费端的体验和效率。百度的“汽车机器人”就是建立在Robotaxi技术和运营沉淀基础上,除了惊艳的“汽车机器人”,更让大众兴奋的可能是,百度发布的无人车出行服务平台——“萝卜快跑”。“萝卜快跑”并不是简单的为“Robotaxi”赋予一个中文名字这么简单,更为重要的是,Robotaxi象征着概念、研发和技术沉淀,“萝卜快跑”则意味着,经过8年发展,百度Apollo已经从技术验证阶段进入到规模化商业运营阶段。IHS 报告显示,预计整个共享出行市场的市场规模在2030年将达到2.25万亿元人民币,复合增长率在20% - 28%之间。在共享出行市场中,Robotaxi将占到60%以上,市场规模超过1.3万亿。这也意味着,未来出行市场将转向无人车服务场景。造车新势力与网约车激战的当下,萝卜快跑的上线显得格外有意义,这意味着,自动驾驶下半场的角逐已经开启,规模化商业运营成为行业发展的重点,这也是对传统网约车赛道的一次换道超越。百度Apollo在过去两年,分别在北京、长沙、广州、沧州四个城市运营,目前也增获25个城市的运营牌照,距离30城的计划又进一步。萝卜快跑的上线,随着城市、乘客、公里数的不断增加和累积,也会进一步优化百度汽车机器人的迭代和升级。也就是说,萝卜快跑兼顾了科技的商业现实和未来畅想。
文章
人工智能  ·  自然语言处理  ·  自动驾驶  ·  安全  ·  机器人  ·  语音技术  ·  云计算  ·  计算机视觉  ·  AI芯片
2022-05-05
破壁人AI百度:科技公司反内卷的典型样本
互联网整个行业都在陷入被动且尴尬的局面。去年开始流行的“内卷”一词,恰如其分的描述了互联网的现状,比如抖音开始做外卖,微信强推视频号,一直硝烟弥漫的电商市场,更是激战在社区团购上。内卷背后也有人感慨,互联网到了尽头。支撑这一论述的是,移动互联网的人口红利已经消失,几款国民型APP用户增长都固定在了10亿这个级别,只能依靠自然人口的增长和迁移。这一幕如同刘慈欣小说《三体》里所描述的,智子封锁的地球科技一样,被信息干扰,或引导至错误方向发展,困在原地,做困兽之斗,无法自拔。“内卷论”与“尽头论”的流行,让我们看到,中国科技产业尤其是互联网,需要自己的“破壁人”计划,突破封锁,尤其是跳出原有的路径依赖。我们不应该只是一味的看到消费互联网的互联网产业,却不见更为广阔的产业互联网未来。科技的未来,不是消费互联网,而是产业互联网。黄奇帆在中国互联网大会上斩钉截铁地说,“今后十年是产业互联网时代”。互联网的未来是产业互联网,产业互联网的价值以及远景是怎样的?2021年8月18日的百度世界大会,告诉我们关于未来的某些可能性,从某种意义上来说,百度正在扮演着中国科技的“破壁人”角色。硬科技背后需要软实力沉淀和积累百度世界大会,是百度公司的一个传统,这既是百度向公众披露其运营和战略的路演,也是公众了解百度的一个窗口。2021年的百度世界大会与以往最大的不同,可能是,这一次百度发布了更多的“硬科技”产品。比如惊艳一时的百度汽车机器人,比如温情脉脉的小度智能巨屏电视、小度智能词典笔、小度主动降噪智能耳机Pro、添添旋转智能屏,以及宣布量产的百度第二代昆仑AI芯片“昆仑芯2”。一致的行业现象是,科技企业都在逐渐从它们软件的实力向硬件渗透。百度这些“硬科技”的背后,是其软件实力的支撑。比如,百度的“汽车机器人”,它需要多重能力:首先具备L5级别自动驾驶能力,不仅无需人类驾驶,而且比人类驾驶更安全;其次具备语音、人脸识别等多模交互能力,分析用户潜在需求,主动提供服务;此外,汽车机器人还具备自我学习和不断升级能力,是服务各种场景的智慧体。百度的这款“汽车机器人”已经达到了L5级别的自动驾驶,它是一辆没有方向盘汽车,这是自动驾驶的终极形态,无需人类驾驶的同时,还能有更多驾驶之外的服务。这也是命名“汽车机器人”的原因所在吧。又比如,小度发布的四款产品,是百度AI人格化和服务化两大发展方向上各种技术沉淀和积累的集中展现。譬如语音识别技术,百度的语音识别技术准确率达到了98%,甚至超过人耳水平。这四款是将语音识别技术、百度AI等与智能生活结合,针对不同场景开发的产品,用户可以通过语音控制家中的电器、窗帘、台灯,通过智能词典笔,可以识别翻译各种外语,通过添添旋转屏可以K歌、刷短视频、点外卖、在线支付等。小度这四款硬件科技,将百度APP智能搜索、百度健康医典、AI智慧社区等一些列内容沉淀与技术积累集合在一起。这一系列的硬科技的背后,延续了一句传统的老话,“科技以人文本”。值得注意的是,这一系列的硬科技产品的“爆发式”发布,绝非一蹴而就,严格来说,这是百度在AI领域持续投入超过十年的一次检验。百度的案例预示着,产业互联网是软硬结合的。互联网未来是产业基础,云计算+AI有人说,互联网的未来是云与智能,将两者的结合,可能就是AI。百度世界大会前一天,2021年8月17日,国务院签署并公布了《关键信息基础设施安全保护条例》,该条例与《网络安全法》相呼应,一系列法规的制定和执行落地,预示一点:互联网已经成为国民生活和国民经济的基础设施。这也意味着,云计算将是基础之一,在云计算的基础上,则是AI智能。云计算是对产业数字化的支撑,人工智能则是加速产业的智能化升级,“赋能千行百业”。云计算市场是目前国内一众科技企业中竞争最为激烈的,国际市场上有亚马逊、微软、阿里云、Google,国内除了阿里云,还有腾讯、华为。百度云起步较阿里云稍晚,但这并不妨碍它的后发优势。前不久百度公布了2021年第二季度财报, 云计算的增长尤为抢眼,它保持了同比71%的增速,领跑中国云计算市场,跻身第四。从2018年到2020年,百度云智能服务收入分别为30亿、64亿和92亿,按照71%的增速,今年将突破150亿元大关。百度云的“后发优势”,是云计算与AI的结合,百度采用了“AI云”作为标识与其他公有云做区别。可以将“AI云”看作是,“数字化底座”+“智能化引擎”的结合,这也意味着,AI云能够在制造、能源、城市、金融、医疗、媒体等领域,给客户数字化转型和智能化升级一步到位。体现在财务上,也许是,“AI云”毛利要远高于公有云。今年的百度世界大会,主题是“AI这时代,星辰大海”,李彦宏在直播中说,“AI,也是爱,是技术和温度结合在一起。”,“让每一个人都感受到技术带来的改变,这就是技术的价值”。AI的发展,一方面是融入到每个人的衣食住行,变得触手可及,另一方面则是产业智能化升级赋能。消费互联网与产业互联网的升级,体现在这一次百度发布的“百度大脑7.0”,百度大脑融合创新,降低门槛的优势。在泉州,百度为泉州水务搭建了“水务大脑”,百度智能云提供的AI用水量预测模型可结合历史用水数据、天气、季节等变化因素,精准预测用水量,实现按需供水。同时,加压泵站精准调压应用,通过分析运行工况,可动态调整泵站流量、压力、频率等参数,大大降低泵机功耗,科学准确调控水压。在新疆,艰苦的人力电力巡检工作也正在被百度AI代替。机器设备将拍摄的影像资料传回,通过AI技术可以快速判断线路是否存在故障,这样巡检效率得到了大幅提升,与此同时,巡检工人的工作环境也得到巨大改善,保障了边疆人民千家万户的用电安全。应该说,产业互联网是千行百业拥抱互联网,也是AI商业化的标志。透过这次百度世界大会,我们看到百度AI的商业化步伐明显加快,AI远比我们所预想的更快进入落地周期,与此同时,随着国内数字新基建的开启,有更早AI布局和更久技术沉淀的企业将在新的周期里全面提速。告别路径依赖,未来从畅想变现实随着滴滴因数据问题受到调查,新一轮的移动出行大战也上演了。与其他互联网不同的是,移动出行网约车大战,被认为是互联网改造传统行业的先声。这一轮出行大战,如高德、美团、T3等也重复着历史,延续了往日滴滴最为成功的补贴方式。很多互联网从业者未曾想过,这种疯狂烧钱的补贴,也是今天互联网备受争议和指责的原因之一。黄奇帆曾说,当前消费互联网领域的四个问题是:烧钱扩规模以取得行业垄断,利用人性弱点设计产品,利用垄断地位采集信息侵犯隐私,互联网杀熟。烧钱扩规模的前提是构建在存量市场。互联网的下一阶段,产业互联网这种烧钱扩大规模的方式或许不在适用,真正应该做的,是寻求产业的增量和效率最大化。如果将滴滴为代表的移动出行视为产业互联网的先声,那么出行领域的未来一定是更为智能的自动驾驶。财报分析师会议上,李彦宏确认,百度最新的robotaxi的软硬件系统,实现了60%的成本骤降,并且有望最快在2025年低于网约车。截至2021年上半年,百度Apollo自动驾驶出行服务已累计接待乘客超过40万人次,测试里程超过1400万公里,自动驾驶专利数量达3000件。李彦宏曾经分享过“3,30,3000”计划,即3年、30城、3000辆Robo Taxi,这是一个循序渐进的过程。从滴滴出行到百度的未来驾驶业务,我们可以看出,产业互联网与消费互联网的本质差异:滴滴为代表的移动出行,更多的是通过互联网的手段,做交易信息的匹配;未来的驾驶业务,则是在交易信息匹配的基础上,做更多产业端的供给侧结构性改革——通过智能化、数据化方式,降低供给侧的成本,提升消费端的体验和效率。百度的“汽车机器人”就是建立在Robotaxi技术和运营沉淀基础上,除了惊艳的“汽车机器人”,更让大众兴奋的可能是,百度发布的无人车出行服务平台——“萝卜快跑”。“萝卜快跑”并不是简单的为“Robotaxi”赋予一个中文名字这么简单,更为重要的是,Robotaxi象征着概念、研发和技术沉淀,“萝卜快跑”则意味着,经过8年发展,百度Apollo已经从技术验证阶段进入到规模化商业运营阶段。IHS 报告显示,预计整个共享出行市场的市场规模在2030年将达到2.25万亿元人民币,复合增长率在20% - 28%之间。在共享出行市场中,Robotaxi将占到60%以上,市场规模超过1.3万亿。这也意味着,未来出行市场将转向无人车服务场景。造车新势力与网约车激战的当下,萝卜快跑的上线显得格外有意义,这意味着,自动驾驶下半场的角逐已经开启,规模化商业运营成为行业发展的重点,这也是对传统网约车赛道的一次换道超越。百度Apollo在过去两年,分别在北京、长沙、广州、沧州四个城市运营,目前也增获25个城市的运营牌照,距离30城的计划又进一步。萝卜快跑的上线,随着城市、乘客、公里数的不断增加和累积,也会进一步优化百度汽车机器人的迭代和升级。也就是说,萝卜快跑兼顾了科技的商业现实和未来畅想。
文章
人工智能  ·  自然语言处理  ·  自动驾驶  ·  安全  ·  机器人  ·  语音技术  ·  云计算  ·  计算机视觉  ·  AI芯片
2022-05-05
Transformer将在AI领域一统天下?现在下结论还为时过早
从自然语言处理任务起家,又在图像分类和生成领域大放异彩,所向披靡的 Transformer 会成为下一个神话吗?想象一下你走进一家本地的五金店,在货架上看到一种新型的锤子。你听说过这种锤子:它比其他锤子敲得更快、更准确,而且在过去的几年里,在大多数用途中,它已经淘汰了许多其他锤子。此外,通过一些调整,比如这里加一个附件,那里拧一个螺丝,这种锤子还能变成一把锯,其切割速度能媲美其他任何替代品。一些处于工具开发前沿的专家表示,这把锤子可能预示着所有工具将融合到一个设备中。类似的故事正在人工智能领域上演。这种多功能的新锤子是一种人工神经网络——一种在现有数据上进行训练以「学习」如何完成某些任务的节点网络——称为 Transformer。它最初用于处理语言任务,但最近已经开始影响其他 AI 领域。Transformer 最初出现在 2017 年的一篇论文中:《Attention Is All You Need》。在其他人工智能方法中,系统会首先关注输入数据的局部 patch,然后构建整体。例如,在语言模型中,邻近的单词首先会被组合在一起。相比之下,Transformer 运行程序以便输入数据中的每个元素都连接或关注其他元素。研究人员将此称为「自注意力」。这意味着一旦开始训练,Transformer 就可以看到整个数据集的迹。在 Transformer 出现之前,人工智能在语言任务上的进展一直落后于其他领域的发展。「在过去 10 年发生的这场深度学习革命中,自然语言处理在某种程度上是后来者,」马萨诸塞大学洛厄尔分校的计算机科学家 Anna Rumshisky 说,「从某种意义上说,NLP 曾落后于计算机视觉,而 Transformer 改变了这一点。」Transformer 很快成为专注于分析和预测文本的单词识别等应用程序的引领者。它引发了一波工具浪潮,比如 OpenAI 的 GPT-3 可以在数千亿个单词上进行训练并生成连贯的新文本。Transformer 的成功促使人工智能领域的研究者思考:这个模型还能做些什么?答卷正在徐徐展开——Transformer 被证明具有惊人的丰富功能。在某些视觉任务中,例如图像分类,使用 Transformer 的神经网络比不使用 Transformer 的神经网络更快、更准确。对于其他人工智能领域的新兴研究,例如一次处理多种输入或完成规划任务,Transformer 也可以处理得更多、更好。「Transformer 似乎在机器学习领域的许多问题上具有相当大的变革性,包括计算机视觉,」在慕尼黑宝马公司从事与自动驾驶汽车计算机视觉工作的 Vladimir Haltakov 说。就在十年前,AI 的不同子领域之间还几乎是互不相通的,但 Transformer 的到来表明了融合的可能性。「我认为 Transformer 之所以如此受欢迎,是因为它展示出了通用的潜力,」德克萨斯大学奥斯汀分校的计算机科学家 Atlas Wang 说:「我们有充分的理由尝试在整个 AI 任务范围内尝试使用 Transformer。」从「语言」到「视觉」在《Attention Is All You Need》发布几个月后,扩展 Transformer 应用范围的最有希望的动作就开始了。Alexey Dosovitskiy 当时在谷歌大脑柏林办公室工作,正在研究计算机视觉,这是一个专注于教授计算机如何处理和分类图像的 AI 子领域。Alexey Dosovitskiy。与该领域的几乎所有其他人一样,他一直使用卷积神经网络 (CNN) 。多年来,正是 CNN 推动了深度学习,尤其是计算机视觉领域的所有重大飞跃。CNN 通过对图像中的像素重复应用滤波器来进行特征识别。基于 CNN,照片应用程序可以按人脸给你的照片分门别类,或是将牛油果与云区分开来。因此,CNN 被认为是视觉任务必不可少的。当时,Dosovitskiy 正在研究该领域最大的挑战之一,即在不增加处理时间的前提下,将 CNN 放大:在更大的数据集上训练,表示更高分辨率的图像。但随后他看到,Transformer 已经取代了以前几乎所有与语言相关的 AI 任务的首选工具。「我们显然从正在发生的事情中受到了启发,」他说,「我们想知道,是否可以在视觉上做类似的事情?」 这个想法某种程度上说得通——毕竟,如果 Transformer 可以处理大数据集的单词,为什么不能处理图片呢?最终的结果是:在 2021 年 5 月的一次会议上,一个名为 Vision Transformer(ViT)的网络出现了。该模型的架构与 2017 年提出的第一个 Transformer 的架构几乎相同,只有微小的变化,这让它能够做到分析图像,而不只是文字。「语言往往是离散的,」Rumshisky 说:「所以必须使图像离散化。」ViT 团队知道,语言的方法无法完全模仿,因为每个像素的自注意力在计算时间上会非常昂贵。所以,他们将较大的图像划分为正方形单元或 token。大小是任意的,因为 token 可以根据原始图像的分辨率变大或变小(默认为一条边 16 像素),但通过分组处理像素,并对每个像素应用自注意力,ViT 可以快速处理大型训练数据集,从而产生越来越准确的分类。Transformer 能够以超过 90% 的准确率对图像进行分类,这比 Dosovitskiy 预期的结果要好得多,并在 ImageNet 图像数据集上实现了新的 SOTA Top-1 准确率。ViT 的成功表明,卷积可能不像研究人员认为的那样对计算机视觉至关重要。与 Dosovitskiy 合作开发 ViT 的谷歌大脑苏黎世办公室的 Neil Houlsby 说:「我认为 CNN 很可能在中期被视觉 Transformer 或其衍生品所取代。」他认为,未来的模型可能是纯粹的 Transformer,或者是为现有模型增加自注意力的方法。一些其他结果验证了这些预测。研究人员定期在 ImageNet 数据库上测试他们的图像分类模型,在 2022 年初,ViT 的更新版本仅次于将 CNN 与 Transformer 相结合的新方法。而此前长期的冠军——没有 Transformer 的 CNN,目前只能勉强进入前 10 名。Transformer 的工作原理ImageNet 结果表明,Transformer 可以与领先的 CNN 竞争。但谷歌大脑加州山景城办公室的计算机科学家 Maithra Raghu 想知道,它们是否和 CNN 一样「看到」图像。神经网络是一个难以破译的「黑盒子」,但有一些方法可以窥探其内部——例如通过逐层检查网络的输入和输出了解训练数据如何流动。Raghu 的团队基本上就是这样做的——他们将 ViT 拆开了。Maithra Raghu她的团队确定了自注意力在算法中导致不同感知的方式。归根结底,Transformer 的力量来自于它处理图像编码数据的方式。「在 CNN 中,你是从非常局部的地方开始,然后慢慢获得全局视野,」Raghu 说。CNN 逐个像素地识别图像,通过从局部到全局的方式来识别角或线等特征。但是在带有自注意力的 Transformer 中,即使是信息处理的第一层也会在相距很远的图像位置之间建立联系(就像语言一样)。如果说 CNN 的方法就像从单个像素开始并用变焦镜头缩小远处物体的像的放大倍数,那么 Transformer 就是慢慢地将整个模糊图像聚焦。这种差异在 Transformer 最初专注的语言领域更容易理解,思考一下这些句子:「猫头鹰发现了一只松鼠。它试图用爪子抓住它,但只抓住了尾巴的末端。」第二句的结构令人困惑:「它」指的是什么?只关注「它」邻近的单词的 CNN 会遇到困难,但是将每个单词与其他单词连接起来的 Transformer 可以识别出猫头鹰在抓松鼠,而松鼠失去了部分尾巴。显然,Transformer 处理图像的方式与卷积网络有着本质上的不同,研究人员变得更加兴奋。Transformer 在将数据从一维字符串(如句子)转换为二维数组(如图像)方面的多功能性表明,这样的模型可以处理许多其他类型的数据。例如,Wang 认为,Transformer 可能是朝着实现神经网络架构的融合迈出的一大步,从而产生了一种通用的计算机视觉方法——也许也适用于其他 AI 任务。「当然,要让它真正发生是有局限性的,但如果有一种可以通用的模型,让你可以将各种数据放在一台机器上,那肯定是非常棒的。」关于 ViT 的展望现在研究人员希望将 Transformer 应用于一项更艰巨的任务:创造新图像。GPT-3 等语言工具可以根据其训练数据生成新文本。在去年发表的一篇论文《TransGAN: Two Pure Transformers Can Make One Strong GAN, and That Can Scale Up》中,Wang 组合了两个 Transformer 模型,试图对图像做同样的事情,但这是一个困难得多的问题。当双 Transformer 网络在超过 200000 个名人的人脸上进行训练时,它以中等分辨率合成了新的人脸图像。根据初始分数(一种评估神经网络生成的图像的标准方法),生成的名人面孔令人印象深刻,并且至少与 CNN 创建的名人一样令人信以为真。Wang 认为,Transformer 在生成图像方面的成功比 ViT 在图像分类方面的能力更令人惊讶。「生成模型需要综合能力,需要能够添加信息以使其看起来合理,」他说。与分类领域一样,Transformer 方法正在生成领域取代卷积网络。Raghu 和 Wang 还看到了 Transformer 在多模态处理中的新用途。「以前做起来比较棘手,」Raghu 说,因为每种类型的数据都有自己的专门模型,方法之间是孤立的。但是 Transformer 提出了一种组合多个输入源的方法。「有很多有趣的应用程序可以结合其中一些不同类型的数据和图像。」例如,多模态网络可能会为一个系统提供支持,让系统除了听一个人的声音外,还可以读取一个人的唇语。「你可以拥有丰富的语言和图像信息表征,」Raghu 说,「而且比以前更深入。」这些面孔是在对超过 200000 张名人面孔的数据集进行训练后,由基于 Transformer 的网络创建的。新的一系列研究表明了 Transformer 在其他人工智能领域的一系列新用途,包括教机器人识别人体运动、训练机器识别语音中的情绪以及检测心电图中的压力水平。另一个带有 Transformer 组件的程序是 AlphaFold,它以快速预测蛋白质结构的能力,解决了五十年来蛋白质分子折叠问题,成为了名噪一时的头条新闻。Transformer isn’t all you need即使 Transformer 有助于整合和改进 AI 工具,但和其他新兴技术一样,Transformer 也存在代价高昂的特点。一个 Transformer 模型需要在预训练阶段消耗大量的计算能力,才能击败之前的竞争对手。这可能是个问题。「人们对高分辨率的图像越来越感兴趣,」Wang 表示。训练费用可能是阻碍 Transformer 推广开来的一个不利因素。然而,Raghu 认为,训练障碍可以借助复杂的滤波器和其他工具来克服。Wang 还指出,尽管视觉 transformer 已经在推动 AI 领域的进步,但许多新模型仍然包含了卷积的最佳部分。他说,这意味着未来的模型更有可能同时使用这两种模式,而不是完全放弃 CNN。同时,这也表明,一些混合架构拥有诱人的前景,它们以一种当前研究者无法预测的方式利用 transformer 的优势。「也许我们不应该急于得出结论,认为 transformer 就是最完美的那个模型,」Wang 说。但越来越明显的是,transformer 至少会是 AI shop 里所有新型超级工具的一部分。原文链接:https://www.quantamagazine.org/will-transformers-take-over-artificial-intelligence-20220310/
文章
机器学习/深度学习  ·  人工智能  ·  编解码  ·  自然语言处理  ·  自动驾驶  ·  NoSQL  ·  机器人  ·  atlas  ·  计算机视觉  ·  网络架构
2022-04-30
1
...
11 12 13 14 15 16 17 18 19 20
跳转至:
人工智能
2623 人关注 | 9276 讨论 | 68494 内容
+ 订阅
  • autojs-KNN算法手写数字识别的OpenCV实现
  • autojs查找图片相似轮廓
  • Android Studio OpenCV 4.5.2环境搭建
查看更多 >
安全
1059 人关注 | 23287 讨论 | 56060 内容
+ 订阅
  • 插件未购买或已到期,请重新绑定帐号后重试,如操作无效,请将服务器出口IP改为:8XX.XXX.XX.XX
  • Flutter(三)之Flutter的基础Widget(下)
  • 网络安全工作要点:第二篇 安全自查之账号安全审查
查看更多 >
云计算
21617 人关注 | 57898 讨论 | 39060 内容
+ 订阅
  • 云起第一期学习体会(报告)
  • 冬季训练营第一期学习心得
  • JVM 输出 GC 日志导致 JVM 卡住,我 TM 人傻了
查看更多 >
开发与运维
5243 人关注 | 125834 讨论 | 202214 内容
+ 订阅
  • autojs9新版群员测评
  • autojs查找透明图
  • 阿里云服务器·实践
查看更多 >
大数据
184482 人关注 | 23063 讨论 | 57065 内容
+ 订阅
  • autojs9新版群员测评
  • autojs查找透明图
  • autojs-KNN算法手写数字识别的OpenCV实现
查看更多 >