导航定位向高精定位的演进与实践
导读地图软件现在已成为人们出行必备的重要辅助工具。为了实现准确的导航,首先必须准确确定人或车的当前位置。因此,定位技术就是实现导航功能的基石。
本文较系统的介绍了手机、车机导航定位中使用的关键技术,以及高德地图在这些关键技术中的进展。最后,讨论了在传统导航向自动驾驶的演进过程中,定位技术的演进路径。
1.导航定位框架
导航定位的核心业务目标是为导航服务提供连续可靠的定位依据,包括:当前在哪条路上,是否偏离路线,距离下一个路口有多远,等等。
为实现这一目标,首先需要接收定位信号输入。最常见的定位信号是GPS,其可以提供全域米级精度(5~10m)的位置信息。在此基础上,大部分手机同时配置了惯性传感器(陀螺仪、加速度计)和磁力计,还有部分手机配置了气压计,可以感知高程方向的位置变化。
对于车机,通过CAN总线获取的车速脉冲、方向盘转角等信息是另一类重要的定位输入。基于上述定位信号,应用姿态融合、航位推算等算法,计算出连续可靠的位置和姿态。再依据地图数据将人/车的实际位置与地图道路关联,实时判断当前是否已经偏离导航路线,或更新当前在导航路线中的相对位置。
图1 导航定位框架
在上述定位框架中,针对不同端的形态(手机/车机),输入定位信号的配置不同,使用的定位技术及覆盖的定位场景也不同。
对于手机,存在步行、骑行、驾车等多种使用场景,需要对用户行为进行识别。在步行场景下,由于速度较低,GPS方向不准确,手机姿态通过融合惯导和磁力计计算实现。在驾车场景下,位置和姿态主要由GPS提供,针对GPS跳跃、漂移等复杂情况设计可靠的地图匹配算法是手机定位重点要解决的问题。
对于车机,只存在驾车使用场景。同时,由于车机具备稳定的安装状态并可以提供更丰富的车辆CAN总线信息,基于这些信息设计航位推算及融合算法,解决隧道、高架、平行路等复杂场景的连续定位问题是车机定位的重点。
2.手机导航定位
2.1.姿态融合技术
常用的姿态融合技术又称为AHRS(Attitude and heading reference system )。对于六轴惯性传感器融合,包含陀螺仪和加速度计,其AHRS算法如下图所示。陀螺仪测量的是角速度,角速度积分即可得到某一时间段内的角度变化。加速度计测量的是物体的加速度,包含重力加速度,当静止时,通过获得重力加速度在三个轴上的分量可以计算相对倾斜角度。AHRS算法采用滤波方法,如互补滤波、Kalman滤波,对不同传感器姿态进行融合。
图2 AHRS融合算法
对于九轴传感器,额外提供了三个轴向的磁力计方向,同样利用上面的算法框架进行融合。
2.2.地图匹配技术
传统的地图匹配方法是在定位点附近道路中,根据距离、方向接近等一些判断准则找到最可能是汽车行驶道路的匹配道路。这种方法实现简单,但通常GPS定位误差是十米,在信号干扰、遮挡的情况下可以达到几十米甚至上百米,而地图测绘误差、地图简化误差同样可以达到十几到几十米。在各种误差条件下,单纯依靠距离、方向这样的几何特征判断做策略匹配是很不稳定的。
对于一个好的地图匹配算法,为了稳定准确的确定匹配道路,需要综合利用定位源和地图的各种输入数据,做融合计算,并根据汽车行驶的特点对各种特殊场景做处理。对于多源信息融合,隐马尔可夫(HMM)是一个比较常用并且有效的方法,因此我们采用HMM作为匹配算法的核心,并辅以场景策略算法,实现地图匹配。
在HMM地图匹配算法中,匹配道路是未知的,作为隐藏变量zn。每个时刻观测到的GPS定位信息是观测变量xn。地图匹配的目标是在已知定位信息的情况下对匹配道路进行估计:
对上述问题,可以采用维特比算法用递推的方法进行计算。
在HMM框架下建立地图匹配模型,核心在于确定发射概率模型和转移概率模型。发射概率模型的确定依据定位位置和方向。
1)对定位位置,与道路距离越接近概率越大,反之概率越小。同时考虑匹配道路的选择对横向距离误差较敏感,对纵向距离误差不敏感。采用正态分布建立模型。
2)对定位方向,与道路方向越接近概率越大,反之概率越小。同时概率与速度有关,速度越大越可信。采用Von Mises分布,以速度为超参数建立模型。
图3 位置发射概率 图4 方向发射概率
转移概率模型的确定依据道路距离、道路转角对汽车行驶的约束建立。
道路转弯的角度越大,速度较大的概率越低。采用Von Mises分布,以速度为超参数建立模型。根据车速和时间差计算移动距离,该距离和路径移动距离越接近,概率越大。采用指数分布建立模型。
图5 速度转移概率 图6 移动距离转移概率
上述算法在高德地图手机APP上实现了落地,为驾车导航提供准确的定位匹配结果,用于导航的引导播报等功能。对比原来使用策略的地图匹配方法,HMM算法在匹配准确率和稳定性上都有显著提升。
3.车机导航定位
3.1.车机定位方案
对于车机导航,如何充分利用车辆传感器和总线信息,优化驾车导航各种复杂场景体验是定位要解决的核心问题。其中,复杂场景包括:隧道、地下停车场定位失效,城市峡谷区域定位漂移等。
解决上述痛点问题的关键在于多传感器融合技术。例如,当GPS漂移或失效时,利用车速脉冲与惯导融合的航位推算技术进行持续定位,但航位推算会产生累计误差,需要地图数据进行反馈矫正,同时地图数据和GPS又可以对惯导参数进行标定,提升航位推算精度。
在实际车机导航项目中,传感器配置不同,又会衍生出不同的定位方案,如下表所示。
其中,纯GNSS方案无法使用任何传感器融合手段,定位效果最差。前端融合方案实现了惯导和车速的前置融合,可以满足部分GPS失效场景的持续定位,但由于累积误差的影响,提升有限。车辆模型方案和后端融合方案都实现了传感器、GPS与地图数据的完整融合,因此定位效果更好,其中车辆模型方案使用车辆CAN总线的传感器数据,而后端融合使用车机安装的惯导传感器,在对传感器选型及安装使用方式进行精细适配之后,可获得最佳的定位效果。
3.2.传感器融合技术
以后端融合为例,传感器融合算法框架如下。
图7 传感器融合算法框架
融合算法有两个目的:第一,将不同技术的导航信息融合成唯一导航信息,使之可靠性高于未融合前的;第二,估计器件误差(陀螺仪零偏、测速仪尺度误差等)。
融合算法基于Kalman滤波实现,其关键在于模型建立和模型参数设置。Kalman滤波模型由状态转移方程和观测方程构成。状态转移方程表示相邻导航状态之间的转移关系,它通过构建导航误差微分方程实现;模型参数是指状态转移噪声和观测噪声,观测噪声的设置与GPS质量评估模块相关。经Kalman滤波处理后,得到导航误差的最优估计。
实现了完整信息融合的传感器融合技术可以在使用低成本传感器条件下达到甚至超过高成本专业惯导设备的定位效果。
下图展示了采用后端融合方案的车机导航定位效果。图中蓝色是GPS位置,红色是高精度基准设备的定位轨迹,绿色是车机导航定位轨迹。可以看到,在GPS被遮挡的停车场,或GPS被干扰的区域,车机导航定位始终可以持续稳定的输出高精度的定位位置,保证了车载导航功能的可靠运行。
图8 停车场定位效果 图9 信号干扰区定位效果
4.高精定位演进
传统的导航定位仅需要解决道路级的定位问题,对定位精度的要求不高。但随着辅助驾驶、自动驾驶等越来越多的应用场景出现,对定位精度的要求也不断提高,如下图。
图10 高精定位演进
对于车道级导航,定位需要能分辨出汽车当前所在的车道,这就要求定位精度达到米甚至亚米级,而对于更先进的智能驾驶应用,为保证安全,需要定位精度达到厘米级。
为达到更高精度的定位能力,需要对现有的定位手段进行升级。一种升级的方法是,对现有的定位输入源直接升级,如普通GPS升级为更高精度的RTK-GPS,低成本MEMS惯导升级为高精度惯导,这样可以在基本不改变原有算法框架的基础上直接获得高精度的定位能力。但缺点是,原有算法的缺陷,如长时间GPS丢失场景的累积误差问题依然存在,且成本较高。另一种方法是引入新的定位源,如激光雷达、毫米波雷达、摄像头等。这就需要针对这些新的传感器开发新的融合定位算法。不同的高精定位方案对比如下表。
上面方案中,高德与千寻合作开发了基于千寻RTK服务的高精定位解决方案“知途”,实际道路评测在高速及普通道路场景下的定位精度可达到10cm以内。该方案不依赖于其他任何传感器或地图数据,具有全域高精度的特点,可作为独立的高精度定位解决方案。
图11 “知途”高精定位样机
在基于环境特征匹配的相对定位方案中,激光雷达方案是较成熟可靠的,也是自动驾驶早期原型阶段最普遍采用的定位方案。但受制于激光雷达的成本和可靠性问题,量产落地仍存在风险。基于视觉的相对定位方案成本更低,同时受益于近年来视觉算法和计算芯片领域突飞猛进的发展,在当前的量产自动驾驶中已经逐渐成为主流的定位方案。基于高德自身的图像及定位能力建设,将在三个业务方向上进行高精定位的业务实践。
1)面向L3自动驾驶的系统级定位:基于外部输入的视觉语义信息(如Mobileye发送的车道线形状、类型等),与高精地图数据(HD Map)匹配,并结合GPS/RTK和IMU等其他定位源,实时计算车道级高精定位结果,并驱动高精数据播发引擎(EHP)发送高精数据,为自动驾驶功能提供定位及数据服务。
2)车道级导航定位:基于自研的视觉算法和云端图像定位能力,实现全域覆盖的车道级定位能力,驱动传统道路级导航向车道级导航升级。
3)用于高精数据众包采集的软硬一体化高精定位:基于自研的低成本视觉+RTK+IMU硬件,实现基于vSlam技术的高精度绝对定位,为高精数据的采集、重建,并最终快速更新迭代提供支撑。
小结传统导航定位采用10m精度的GPS定位为基础,针对手机/车机不同端,考虑他们独特的运动特征及输入信号配置,设计传感器融合算法、行为判断算法、地图匹配算法,最终满足导航对于全场景道路级定位的精度要求。未来面向半自动、全自动驾驶应用,要求定位精度向车道级甚至厘米级演进,这需要在考虑实际落地场景的基础上进行传感器和算法迭代,这是下一阶段定位技术演进的重要方向。
文章
传感器 · 算法 · 自动驾驶 · 前端开发 · 安全 · 定位技术 · 芯片 · 流计算
2020-03-09
带你读《5G NR物理层技术详解:原理、模型和组件》之三:传播和信道建模
点击查看第一章点击查看第二章
第3章 传播和信道建模
无线电波传播知识是无线通信发展的基石。传播代表了移动和固定电信两个最重要的区别。第一个区别是电磁波传播的物理介质不同。固网的传输介质主要是传输线缆,例如光纤和同轴铜电缆。而移动通信则与之相反,介质是包含发射机和接收机在内的整个环境。物质密度越大,吸收和反射的无线电波能量越大,在这些物质之间传播的主要媒介是自由空间。尽管可以通过使用先进的天线技术控制发送信号指向所需的接收机方向,然而由于传播环境无法做到链路之间的完全隔离,因此接收机收到的通常是混合了从不同源发出的信号,从而造成了大量干扰。移动通信与固网第二个区别是信道随时间和空间的变化剧烈。熟知这些变化的特征在优化传输技术以及进行网络规划时至关重要。本章全面概述了移动通信中无线传播信道的影响,并对一些关键领域做了详细阐述。章节安排如下,3.1节基于电磁波理论解释无线电波传播的基本原理。3.2节介绍通常用于表征传播信道的特征量,而相应的试验结果在3.3节中进行详解。3.4节介绍3GPP和ITU-R提供的最新的5G信道建模。将重点放在理解模型以及建模的精确度和真实性的程度。并且指出模型组件需要进一步改进的地方。最后,在3.5节中对本章进行了总结,并提出未来的工作方向。
3.1 传播的基本原理
本节介绍了传播的一些基本原理,来帮助理解在移动通信环境中对无线电波信道进行表征和建模。关于电磁波理论的全面描述读者可参考标准教科书如参考文献。传播主要关注的是发射天线和接收天线之间的无线电波路径。有时在传播建模中将天线与传播的影响混合在一起会是个问题,我们将会在3.1.2节中解决这个问题。当然在传播研究中也许无法避免涉及天线,虽然研究的主要目的是测量特定空间点或特定传播方向的电磁场。本节阐述了一些无线电波传播的基本方面。3.1.1节解释了什么是电磁波。3.1.2节讨论自由空间传播,3.1.3节介绍了基本的传播机制。
3.1.1 电磁波
麦克斯韦方程组在无源空间区域的解集定义了电磁波的基本定律。解集可以用不同系列的展开来表示。我们将在这里专注于平面波展开,这对理解传播特性非常有用。而且,平面波是标准信道模型中最常见的表现形式。对于平面波,电场E和磁场H是相等的,彼此正交并与Poynting矢量正交:
它指向传播方向。定义一个标准正交参考系(e1, e2, e3),平面波的电场由下式给出:
其中x是空间坐标,t是时间,k=,其中λ是波长,是波的角频率。相应的磁场由下式给出:
其中和分别是介电常数和磁导率。图3-1给出了由下面三种电场定义的平面波的三种情况:
其中1)对应于线性极化;2)对应于圆极化;3)对应于椭圆极化。可以清楚地看到,E场和H场在每个时刻都是正交的并且强度相等。平面波由六个相应的自由度定义:1)极化椭圆轴比;2)极化椭圆主轴旋转角度;3)场幅度;4)波相位;5)Poynting矢量极角;6)Poynting矢量方位角。这些自由度也可以由空间点处的电矢量场和磁矢量场表示。在这种情况下电磁波场被视为一系列平面波的总和,这样就导致磁场和电场是不相关的。然而,对于任何波矢量k,平面波仅支持两个正交极化状态。
3.1.2 自由空间传播
为了理解基本的传播原理,必须全面了解自由空间传播。原则上,传播应排除天线的影响。然而在现实中,在不使用天线的情况下研究传播是不可能的。这里我们将关注一些基本天线的情况,在这些情况下我们很清楚哪些影响是由天线产生的,哪些影响是由于传播造成的。通常用全向辐射天线作参考。在自由空间里,这样两个天线之间的传输损耗(如图3-2所示)称为自由空间基本传输损耗(由ITU-R定义[8]),以dB为单位给出:
其中d是天线之间的距离,是波长。虽然全向天线通常作为参考天线使用,但是已经证明它并不实用[16, 33]。任意天线方向图所对应的表达式为:
其中Gt和Gr分别是发射机和接收机的天线增益。应当注意到,公式(3-6)是基于发射和接收天线在方向和极化上完全匹配的假设。从图3-2可以清楚地看出,自由空间基本传输损耗与频率相关。这同样适用于公式(3-6)中指定天线方向图的任何类型的天线(偶极子、喇叭、贴片等)。由于给定类型的天线形状不随频率而改变,因此远场辐射也不会随频率变化。然而,天线的尺寸与波长成正比,因此,天线孔径(有效天线面积)与2成正比。因此使用任何类型的天线(固定增益和天线方向图)通过自由空间传输接收到的功率与频率f有关,用dB表示就是–20logf。这确实是符合公式(3-6)固定天线增益的结果。需要注意到,这种频率依赖性是纯天线作用。从传播角度,当用固定增益天线发射功率时,没有频率依赖性,因为在这种情况下,任何远场处的功率通量密度都与频率无关。
替代固定接收天线增益的另外一种方式是保持接收天线孔径恒定,不随频率改变。当使用固定发射增益天线时,接收信号功率与接收机的功率通量密度成正比,而与频率无关。当在自由空间链路的发送端也使用固定天线孔径时,随着频率升高传输损耗确实会减少,与–20log(f)成正比。这可以通过天线增益来解释,固定天线孔径的天线增益随频率升高而增加,接收机信号强度相应增大。然而,该增益仅在天线的远场中有效。对于毫米波范围内的高频,远场可能在相当远的距离处,这取决于天线孔径的大小。在近场区域中,发射波瓣宽度也许远小于接收天线孔径。在这种情况下,传输损耗实际上可以忽略不计(0 dB)。但应注意,由于物理原因,无法获得传输增益(即损耗 < 0 dB)。而且,大孔径天线的天线方向需要指向链路另一端的天线,才能具有高增益和窄波瓣。上述所有情况如图3-3所示,其中仿真了100 m自由空间传输链路,其中固定增益天线(G = 5 dBi),固定正方形的天线孔径为(30 cm×30 cm)。该固定孔径在500 MHz频率时天线增益为5 dBi,在100 GHz频率时天线增益为51 dBi。图中清楚地显示了当传输链路的两端都使用固定孔径的天线时,从远场区域到近场区域的过渡介于200~500 GHz之间。自由空间基本传输损耗在文献中通常被称为自由空间路径损耗。这可能有其历史原因。然而,这种用法有些问题,因为给人的印象是自由空间传播损耗可能与频率有关,但如上所述,事实并非如此。因此,本书中避免使用路径损耗,而是使用更恰当的传输损耗的概念。
3.1.3 散射和吸收
真实环境中的传播条件很少与自由空间相似。通常传输链路所处环境中结构复杂、物体众多,会发散电磁波的传播。在城市环境中,通常是些人造物体,如建筑物和车辆。而在农村环境中,主要是植被和地理构造。散射可以分为几种基本类型:
镜面反射和折射:在足够平坦和较大的表面上,电磁波散射符合菲涅耳(Fresnel)反射和折射公式。在光学中,这种类型的散射会导致镜面反射和图像折射。根据菲涅耳公式,散射要求表面的尺寸必须比一个菲涅耳区大很多。
衍射:当平坦表面的尺寸在一个菲涅耳区级别或更小时,可以用衍射理论来更准确地描述散射。对于处在阻挡电磁波传播的物体后面的阴影区也适用于此种情况。
漫射:任何物体或结构在几个菲涅耳区都不是光滑和均匀的,那么电磁波将以漫射的方式散射。这通常是受物体粗糙表面(如石头或砖墙、植被和地面)的影响。
吸收:在某些场景下,对波的吸收也是需要考虑的一个重要方面。例如,传输时植被吸收的能量可能很大。从室外到位于建筑物内位置的传输也是如此。另外,远程传输时,也必须考虑大气的吸收。
3.2 传播信道特性
了解无线传播信道的特性对开发无线传输技术至关重要。在接近自由空间的传播条件下(如微波链路),面临的主要挑战是如何确定直接路径的时变传输损耗。在这种情况下,损耗变化主要由降雨引起,因此降雨强度的概率是值得关注的。然而,蜂窝通信信道的特征基于散射环境、终端移动性和一些非静止的散射物体。因此,接收信号可能随时间和空间变化很大。而且,在蜂窝场景中,信号传播受到多径传播的影响,即接收到的信号是大量信号波的混合,在环境中被散射的信号波以不同的方向和时延到达接收端。对于多径信道,通常用一组在接收天线合并的离散(平面)波来建模。每个离散波是由从发射天线通过散射(直接路径除外)到达接收天线的路径决定。在典型的移动通信场景中,信道表征所需的路径数量可能非常大,可高达几万。对于在发射天线单元n和接收天线单元m之间信道Hmn的平面波展开,用数学公式表征为:
其中Al是N个平面波中第l个复极化幅度矩阵,和是对应于波矢量和的复极化天线方向图矢量,和是相对于天线参考点的接收和发射天线单元的位置矢量,w是角频率,是发射和接收天线参考点之间的波传播时延,是多普勒角频率,t是时间。天线方向图基于局部参考系来定义。因此使用固定局部坐标系(x,y,z,或极坐标)。基于固定参考系,使用额外的方向相关参考系来指定不同方向上相应的极化方向图分量。图3-4表示了方向相关参考系的坐标轴的定义,包括:指向方位角增加方向的单位矢量,仰角方向和半径增加的距离。自由空间传播并且使用单位增益天线的极化幅度由下式给出:
其中负号是由于接收机坐标系相对于发射机坐标系旋转了180度。发射天线和接收天线满足公式(3-4)中三种极化情况中的任何一种,信道增益将由下式给出:
正如预期的那样,对应于公式(3-5)给出的自由空间损耗Lbf。当接收天线极化方向与发射天线极化方向正交时,我们有:
公式(3-4)中,对应的正交极化由下式给出:
3.2.1 频率–时延域
公式(3-7)的信道响应定义在域,即它是无线频率f的函数。有一种互补的等效方法,通过信道的冲击响应,即时延的函数,在时延域中来定义信道。这两个域之间的关系由相应的傅里叶变换给出:
无线数据传输使用了围绕特定载波频率f0的连续波调制。调制速度和相应的比特率与所用带宽B成正比。信道带限滤波器的特性决定了相应冲激响应的形状。这可以通过具有单个时延为正的多径分量的信道来示例,信道有一个均匀带通滤波器:
对于f0 = 2 GHz,B = 200 MHz和1= 10 ns的信道响应如图3-5所示。在通带中,由于载波频率?,产生h()的快速振荡是很明显的。而且,实际信道响应需要H(f)的正负频率。为方便起见,信道通常在基带来描述,即频率被转换为零均值,即f' = f – f0:
在下文中,如果没有特别指出是通带的情况下,都将使用基带信道,f表示基带的频率。公式(3-14)中的均匀频率滤波器在时延域的主脉冲周围产生大量的振铃或旁瓣。通过选择不同的频率滤波器可以减轻此类影响,比如常用的Hann滤波器:
图3-6给出了均匀频率滤波器和Hann滤波器的信道响应。Hann滤波器的旁瓣明显小于均匀滤波器的旁瓣。
当在频域中对信道建模时,会使用一些具有不同时延和不同幅度的不同波的总和,由此模拟环境中散射的结果。我们将通过典型的指数衰减信道来说明这一点:
其中是随机相位,是均方根(Root Mean Square,RMS)时延扩展,定义如下:
对于时延扩展明显大于1/B(B是带宽)的场景,即>1/B,信道具有频率选择性,意味着信号在该频带上衰减显著。图3-7中显示了对应于 = 20 ns和 = 100 ns时的信道。以及两种带宽配置,B = 10 MHz和B = 100 MHz,在时延域中应用Hann滤波来抑制旁瓣。由于时延域的分辨率与所用带宽成正比,因此在较大带宽下可以辨析更多的多径分量。如图3-7D所示,对于小于解析多径分量所需带宽的信道,在整个带宽上具有频率平坦性,这是一个重要的信道属性。通常表征频率选择性的度量是相干带宽,其定义为信道在一定程度上相关的带宽,相关性典型值是大于0.9。对于图3-7中的信道, = 100 ns对应的相干带宽为1 MHz, = 20 ns 对应的相干带宽为5 MHz。
3.2.2 多普勒–时域
多普勒–时域中的信道特性与频率–时延域完全类似。在这种情况下,信道在时间t上的变化由多径分量对应的多普勒频率fD决定。
当在时域中对信道建模时,使用具有不同多普勒频率的不同波的总和。具有不同多普勒频率的主要原因是无线链路的任一端或两端正在移动,当天线朝向(远离)电波方向移动时导致多普勒频率上移(下移)。另一个原因是环境中的重大散射体(如车辆和树木)可能会移动。我们将通过一个信道进行演示,此信道在移动终端周围的水平面具有均匀的方向分布。其所对应的多普勒分布被称为经典多普勒分布,我们有:
其中v是终端速度。与频率–时延域类似,相干时间与RMS多普勒扩展fD成反比,
图3-8所示,是一个经典的多普勒信道,最大频率fDmax = 100 Hz,相干时间是1 ms。图3-8C和图3-8D是增加一条平稳路径的情况,此路径的功率比其他路径的功率总和高10 dB。这种情况对应的应用场景是在具有大量移动散射体的环境中使用静止的发射机和接收机,如在交通繁忙的街道。在这种情况下,相干时间无穷大,因为时间的相关性永远不会低于0.9。
3.2.3 方向域
方向域与多普勒域直接相关:
其中是速度v和波矢量kl之间的角度。方向信息可以从多普勒信息中的矢量k获得:
其中u是方向单位矢量。实际中,通过对三维空间信道样本进行傅里叶变换,可以获得相应的方向谱,如下面3.3.2.1节所述。方向扩展通常用方位角和仰角(或极化角)的角度扩展来表征。但是因为角度扩展都是循环的和非欧几里得的,因此角度扩展存在问题。为了克服角度循环的问题,角度范围的切割可以放置在扩展最小的点上。另一个问题更为严重,即角度是非欧几里得变量。当通过方位角和仰角扩展来表征信道时,信道在坐标系的旋转下无法保持不变。针对上述这些问题,参考文献中提出了另一种方向扩展的定义。它基于三维归一化的多普勒扩展,当扩展很小时,等于角度扩展。方向扩展定义如下:
其中n对应于三个空间分量(x, y, z),代表了相应方向的扩展。应该注意的是,总扩展相对于坐标系旋转是不变的。
3.3 试验信道特性
前一节奠定了无线电波传播的理论基础。本节主要是通过试验结果,加深理解和表征真实的移动通信传播信道。为此,需要了解测量技术和分析方法。为了能够完整地表征信道,频率–时延域和多普勒–时域都不可或缺。此外,为了更好地理解和使用天线特性(比如方向图、波瓣宽度和MIMO),还需要信道在空间/方向域进行表征。然而,如上节所述,空间/方向域实际上等效于多普勒–时域。本节将对这些方面做深入讨论。
3.3.1 测量技术
目前有几种或多或少具有先进性的传播测量技术。相应的硬件设计可能会非常复杂。在此会对最常用于测量无线信道响应和传输损耗的设备类型和技术做简要描述。
3.3.1.1 连续波
连续波(Continuous Wave,CW)方法通常仅用于测量传输损耗。它是基于以固定频率发送正弦波信号并在接收机使用窄频滤波器。与高发射功率和接收机的低噪声放大器相结合,从而可能获得非常高的灵敏度。硬件方案通常相对紧凑且简单,可实现以快速方便的方式对大面积范围内不同信号强度进行广泛采样。然而,有一个缺点是,没有解决信道的多径问题,从而导致较大的空间衰落。图3-9显示了在非视距(NLoS)条件下的街道微蜂窝测量路线中一个5.1 GHz的测量CW信号。为了减少多径引起的衰落,采用了每1.7 m进行滑动平均。
3.3.1.2 矢量网络分析仪
与CW测量相比,矢量网络分析仪(Vector Network Analyzer,VNA)支持最大可能的测量带宽。其基本原理是对超过预定义带宽的信道进行频率扫描采样。为了能够在时延域中提供相应的信道响应,可以很方便地采用离散傅里叶变换(DFT)方法。因为VNA的测量原理是基于测量发射信号和接收信号之间的完全相干比,因此发射机和接收机天线必须通过射频电缆连接到VNA。优点是接收信号与发送信号完全同步,因而可以进行绝对时延测量和长时间的相干平均来抑制噪声。一个实质性的缺点是移动性受到射频线缆的限制。而且,单个频率扫描也许需要几秒钟的时间,具体取决于接收机的SNR,这就需要链路两端是静止的。另一个缺点是范围受限,主要是受到射频电缆对信号衰减的影响,根据频率不同,每米衰减可能有几个dB。然而,通过用光纤替换射频电缆,以及射频光电转换器,测量范围可以极大扩展到很多公里。在图3-10中,针对NLoS微蜂窝街道场景,测量在58.7 GHz的信号带宽为2 GHz的信道响应[22]。在这个具体的测量中,采用光纤将测量范围扩展到100 m以上。大带宽可以解析此信道富多径的大部分分量。
3.3.1.3 基于相关性的信道探测
基于相关性的信道探测器的主要优点是它们都是移动的和宽带的。为此,定期发送专用的探测信号,然后在接收机根据时延进行相关运算。通常,OFDM或伪随机序列与时延滑动相关器一起使用。该技术支持移动和宽带测量。需要在信道采样率和噪声抑制之间取得折中。而且,因为发送信号的相位和幅度都被调制,会受限于放大器的非线性。参考文献中对此类设备有更详细的介绍。
3.3.1.4 方向特性
当载波频率进入到毫米波范围时,信道传播的方向特性将更为重要。由于天线孔径减小使得传输损耗大幅增加,在这些频率上使用全向天线将会大大缩小覆盖范围。因此,需要波束赋形技术在传播方向上集中传输和接收,将损耗减到最小。为达到此目的,在传播测量中主要有两种基本的方法。第一种方法是使用物理定向天线(如喇叭和抛物面反射器天线),它们在仰角和方位角上旋转以扫描空间角度。这种方法对时变信道条件不敏感,因此适用于CW和基于相关性的信道探测。第二种方法是使用所谓的虚拟天线方法。该方法利用传播信道的空间采样,通过机器人天线定位系统将单个物理天线移动到不同的空间位置。然后通过阵列天线技术离线确定测量信道的方向特性。这种方法的优点是可以获得非常高的分辨率和对天线旁瓣有很好的抑制。缺点是空间采样意味着测量的时间很长,对于大型天线阵列测量时间可达数小时,因此需要发射机和接收机相位锁定以及静态信道条件。这个方法适用于基于VNA的信道探测。
3.3.2 分析方法
获取高质量的测量数据需要相当大的努力和技巧。但是,如果没有彻底和准确的分析,原始数据几乎没有用处。提供可靠和准确的分析结果比执行实际测量需要付出更多的努力。本节将介绍几种常用的分析方法及其相应的优缺点。此外,本节亦提供了不同测量或频率范围之间的可比性要求。
3.3.2.1 谱分析
谱分析法基于对测量信号和相应功率分布的直接分析,使用傅里叶技术进行频率和时延之间以及多普勒域和时域之间转换,如3.2.2节和3.2.1节所述。可以用定向物理天线或虚拟天线的直接角度信道采样来进行方向分析。对于平稳信道,空间样本类似于移动终端的时间样本。当在三个空间维度中对信道进行采样时,就有可能确定相应波矢量k的所有三个分量的功率谱。图3-11给出此方法的一个示例,采用了25^3 = 625个样本的立方虚拟天线。在三个空间方向上使用Hann滤波器,通过DFT将空间样本变换到k域,从而减少了天线旁瓣。通过具有固定半径的k域立方体过滤掉多余值从而获得相应的方向谱。这种方法对旁瓣的抑制超过50 dB,性能令人印象深刻。相比之下,使用物理天线对旁瓣电平的抑制通常小于30 dB。将测量的信道代入公式(3-7)的离散形式,多维频谱测量信道数据的每个峰值被标识为一个多径分量及与之对应的相位和幅度。室内NLoS场景的一个示例如图3-12所示,其中直接测量的信道与相应的合成信道一起显示,合成信道大约有400个估计的多径分量(MultiPath Component,MPC)。显然,建模信道与直接测量信道吻合得很好。
3.3.2.2 超分辨率方法
假设离散平面波模型公式(3-7)有效,理论上,准确度仅仅受限于信噪比。文献中报道了许多超分辨率方法,其中最受欢迎的是对P的最大似然。相对应的最小化对数似然函数由下式给出:
其中m和n分别为接收和发送端的空间样本,k为频率索引,和分别是建模和测量的信道响应,表示噪声的功率,假设噪声功率在信道样本上服从零均值复高斯分布。为了找到最可能的平面波集合,以最佳模拟测量信道,将模型参数对应的对数似然函数最小化。因为计算的工作量巨大,实际上不可能对所有模型参数和测量样本进行自由搜索。SAGE是一种通用的降低计算量的方法,它是基于每一次最大似然一个参数并迭代直到找到最小值。这种方法的问题是在角度或时延上很接近的不同平面波具有强相关性。因此,所增加的计算工作量非常大而且收敛很慢。这个问题已通过梯度方法解决,如RIMAX,利用局部最大似然值周围的微分来实现相关参数快速收敛。然而,这种方法的问题是某些相关性或大多数多径分量之间的耦合仍然存在,这意味着需要对所有波同时最大化似然性。参考文献[17]提出了一种解耦多径分量的方法。由于通过该方法还可以减少数据量大小和降阶参数空间,因而获得计算效率多个数量级的改善。该方法的应用示例如图3-13所示,工作频率为5.1 GHz的城市宏蜂窝场景,在基站使用间隔2 cm的10×25个天线单元构造一个虚拟平面阵列。显然超分辨率估计了大部分接收功率。而且,来自基站的主方向波受到散射体散射,散射体主要是树木和建筑物外墙。虽然超分辨率方法可能解析出高精度的重要离散多径分量,然而,该方法不适用于估计漫射和密集多径的场景的信道分量。这类场景的路径众多,超分辨率方法通常给出的输出非常不准确。因此,在此场景会优先考虑采用谱方法来提供可靠的输出。
3.3.2.3 测量可比性
在世界范围内进行的传播测量的活动数量确实非常多。很多测量结果由研究机构进行统计分析并进行比较和总结。然而,在分析中,重要的是缜密并且确保测量结果具有可比性。参考文献[28]列出了对于不同的活动和频段测量的关键要求:
测量带宽相等(提供相等的时延分辨率)。
可比较的天线方向图,无论是物理的还是合成的。
每个分析领域里功率动态范围相等(例如,时延、角度)。
相同的环境和相同天线位置(用于比较不同的频段)。
比如,已经发现带宽相等的要求非常重要,以避免得出频率增加、时延扩展减少的谬论。针对高频毫米波波段的一个基本问题是,在毫米波有很宽的频带可以使用,因此测量带宽相当宽。图3-14展示了分析中需要使用均衡带宽,图中使用了低于主峰值20 dB的动态范围来确定RMS时延扩展。所用的不同带宽对时延扩展的影响相当大,对于2 GHz带宽,时延是7 ns,对于80 MHz带宽,时延是28 ns。需要均衡带宽的原因是,任何强的离散多径分量经过解析都会有一个峰值功率与所用带宽成正比,而对于非解析分量,无论带宽如何都保持恒定。因此当通常使用一个低于主峰的固定动态功率范围进行分析时,使用不同带宽所带来的差异是很大的。
3.3.3 传输损耗测量
由传播效应引起接收信号强度的损耗是无线传播信道的最基本的和最重要的特征之一。本节给出许多来自真实蜂窝网络的测量示例以理解传输损耗,重点关注1~100 GHz范围内的频率依赖性。大部分测量基于全向垂直偶极天线,此种天线对所有频段具有相似的天线方向图。另外,在室外到室内测量中,在室外发射端使用垂直贴片天线或开放波导。在60 GHz频段进行测量时,氧气吸收量约为1.5 dB/100 m,在测量中,将对这种损耗进行补偿。目的是通过在整个频率范围内进行平滑插值/外推以方便建模,并根据需要,将氧气吸收添加到基准模型中。此外,所有测量的损耗以与自由空间损耗的相对值(即超出损耗)表示,以避免天线频率依赖性的影响,而专注于纯粹的传播效果。出于这个目的,所有测量数据都仔细地通过视距(LoS)短距离(0.1~1.0 m)测量进行校准。3.3.3.1 室内办公场景该测量示例来自室内办公环境。基本布局如图3-15所示,一条走廊的两边都是办公室。走廊尽头有一个90度的转弯。接收(Rx)天线放置在两个位置,一个位于走廊,另一个位于相邻的办公室房间里。发射(Tx)天线放置在走廊和办公室内的不同位置。建筑物的外墙是砖墙,内墙是石膏板和玻璃。
图3-16总结了传输损耗分析的主要结果。距离1 m处相对于自由空间功率的损耗L,以dB为单位,对应于频率2.44 GHz、5.8 GHz、14.8 GHz和58.68 GHz,包括LoS和NLoS两种不同场景。双参数指数模型:
与所测量的损耗吻合,以dB为单位,其中d是发射机和接收机之间的距离,以米为单位。在3GPP中,相应模型也考虑了频率依赖性:
其中f是以GHz为单位的载波频率。最后两项对应于公式(3-25)中,与频率相关的项L0。从图中可以清楚地看出,测量数据与3GPP模型非常吻合。此外,很明显频率每增长十倍,传播损耗在自由空间损耗上额外再增加约5 dB。
3.3.3.2 室外到室内场景
图3-17为一个在城市环境下进行的室外到室内的多频测量,该测量在一个八层办公大楼中进行。发射机位于建筑物顶层的开放窗口,接收信号的测量是在跨过同一楼层内院的40个室内位置中的两个稍微偏移(30 cm)的测量点进行。建筑物顶层的外墙以金属覆盖。但是,窗户是纯玻璃的没有金属镀膜。
在2.44~14.8 GHz频率之间,建筑物穿透损耗的范围从大约0 dB到 30 dB(如图3-18)。所有频率的穿透损耗的下限是相似的,即大约0 dB,而仅在58.68 GHz下最高损耗高达45 dB。最小损耗,即仅穿透外墙/窗户引起的损耗,范围为0~5 dB,最高值对应于5.8 GHz和58.68 GHz频段。这种对频率的非单调依赖性的效应,也许可以通过以下假设来解释:窗框中的三层玻璃受到多次反射的影响,引起了相长干扰或者相消干扰,导致了衰减随频率变化而周期性变化。随后的测量显示,对应于频率2.44 GHz、5.8 GHz、14.8 GHz和58.68 GHz的信号,窗户损耗分别约为2 dB、10 dB、0 dB和6 dB,这证实了这种效应并解释了测量的最小穿透损耗。而且很显然,对较高频率,穿透损耗的扩展大得多。部分原因可能是由于有些窗户有百叶窗,阻挡了较高频率的垂直极化波,而对于较低频率是透传的。损耗测量结果中的中位数与3GPP模型非常吻合。应该指出3GPP模型没有考虑任何非单调频率效应。此外,随着频率的增加,测量损耗的扩展也增加,这也没有在3GPP模型中考虑。有关室外到室内传播建模的更多细节在3.4.1.1节的信道建模中讲解。
3.3.3.3 室外街道场景
室外街道测量主要在由现代办公建筑物组成的市内街区进行,街区大约长100 m,高25 m,如图3-20所示。测量是在街道峡谷中进行,涵盖LoS和NLoS场景,街道宽度大约为20 m,接收机和发射机天线都位于高于地面约1.5 m处。图3-19中给出了所有频段的超出损耗。在LoS场景,可以观察到高达5 dB(相对于自由空间)的多径增益,在所有频段上都可以获得类似增益。这受益于由于地面和外墙反射所增加的路径。在NLoS区域,即建筑物拐角后面,可以发现超出损耗大幅增加。这个损耗,远低于所预期的街拐角处由于刀口衍射效应产生的损耗,如图3-19所示。此外,频率依赖性远低于预期的衍射情况。这个结果说明在NLoS情况下,主要的传播机制一定与衍射(如镜面和物体或粗糙的外墙引起的漫射)不同。而且对于NLoS数据,在60 GHz补偿氧气吸收引起的损耗是可观的,高达4 dB,这超出了预期的根据链路距离所需要的补偿。但是这可以用重要的反射传播路径的长度远大于链路距离来解释。测量到与频率相关的超出损耗(约3 log f [dB])明显小于预期的刀口衍射(约10 log f [dB])。然而,它略高于3GPP中的信道模型[2]所给出的损耗值(1.3 log f [dB])。
为了进一步了解传播机制,如图3-20所示,在60 GHz的两个测量位置进行了视线跟踪。第一个发射机位置(Tx1)处于NLoS场景,但非常接近LoS场景。第一个到达的路径通过衍射衰减。可以通过假设从沿街的建筑物外墙的镜面反射来重建最强路径。第二个发射机位置(Tx2)实际上在NLoS区域街道更低处。在拐角衍射路径的时延处,没有观察到噪声基底之上的信号。在传播距离远长于衍射路径长度处观察到第一簇弱路径。该簇可能由散射体或街角区域的粗糙表面引起。最强的峰值功率电平比功率时延分布的其余部分高约20 dB。一个看似合理的相应路径(与测量峰值的传播长度相匹配)是可以通过假设建筑外墙四个镜面的反射来重新构建的。这表明镜面路径对NLoS区域也很重要。然而,在大多数NLoS位置,未观察到这种明显的峰值。
3.3.3.4 城市室外屋顶场景
在高频特别是毫米波范围内测量城市室外屋顶传播场景(宏蜂窝场景)的传输损耗非常具有挑战性,因为当使用实际的全向天线时,传输损耗显著增加。这个问题可能通过位于屋顶上方的BS使用定向天线有所缓解。但是,位于地面的UE,由于混入在杂乱的城市,预期在仰角和方位角上的角度扩展都较大。通过加大发射功率来解决问题的方式在实际应用中并不适合毫米波高频。更实用的解决方案是使用非常高性能的LNA。此外,对于CW测量,通过多普勒滤波可以实现非常高的噪声抑制。该技术已用于两个独立的多频测量中,分别在奥尔堡和东京。在奥尔堡的测量中没有观测到频率依赖性。然而,这可能是受最高频率28 GHz处的有限动态范围的影响。在东京的测量中,测量灵敏度在较高频率下更好,允许测量高达67 GHz的频段。3GPP城市宏蜂窝传输损耗建模主要基于奥尔堡测量,与自由空间有关,由下式给出:
其中d是距离,以m为单位,f是频率,以GHz为单位。ITU-R提供的相应模型见参考文献,以东京的测量为基础,由下式给出:
除了ITU-R模型是与频率相关而3GPP模型不是之外,这两个模型是相似的。城市宏蜂窝场景下,路径损耗通常是频率依赖的还是非频率依赖的还需要进一步考察。
3.3.4 时延域测量
如3.2.1节所述,时延域对于表征信道的频率选择性非常重要。此外,它对于针对优化传输波形的时延扩展至关重要(见第6章)。由于3GPP已选择OFDM用于NR,因此循环前缀长度的优化与信道的时延扩展直接相关。本节介绍测量的宽频范围和重要传播场景下的时延域特性。3.3.4.4节描述一般频率趋势并与3GPP信道模型进行比较。
3.3.4.1 室内办公室
如图3-21所示,在室内办公场景中进行了多频测量活动。接收机放置在固定位置,发射机位于15个不同位置,主要位于NLoS区域。该测量活动满足了不同频率的测量可比性的所有要求(见3.3.2.3节)。在2.4 GHz、5.8 GHz、14.8 GHz和58.7 GHz处测量信道。在图3-22中,同时给出两个Tx示例位置的相应功率时延分布与平均RMS时延扩展DS(随频率变化)。无论在功率时延分布还是在平均时延扩展值中都没有观察到明显的频率趋势。事实上,当与3GPP的模型拟合得很好时这种独立性在95%置信区间内:
其中和是模型参数,f是以GHz为单位的载波频率。拟合图3-22所示的曲线的值是 = –0.01 ± 0.05和 = –7.58。
3.3.4.2 室外到室内
3.3.3.2节所描述的室外到室内测量经过进一步分析以确定时延扩展以及相应的频率依赖性。这里需要着重强调,许多位置的冲激响应的动态范围是受限的,可以低至10 dB以下。这意味着绝对时延扩展有时可能会被低估。但是,因为每个位置所有频率采用同样的动态范围,所以没有引入任何频率依赖性的偏差。如图3-23所示趋势似乎是时延扩展随频率升高而增大。较长的时延可能是由内院的多次反射引起的。强镜面反射是由窗户或覆盖外墙的金属瓦片产生的。但是,在较低频率处这些瓦片或窗户小于一个菲涅耳区,导致这些反射属于非镜面反射,因此在较低频率下会衰减。需要注意的是,这种观察到的频率趋势不是通用的规律,而是某些场景的特定几何状况,正如本节最后所述。
3.3.4.3 室外街道峡谷场景
3.3.3.3节描述的室外街道测量经过分析以确定相应的时延扩展特性,聚焦在NLoS区域。在这个区域的趋势是时延扩展似乎与频率无关,如图3-24所示。拟合的模型确实表明没有明显的频率依赖性。
3.3.4.4 时延域中的频率趋势
到目前为止所有的时延域的试验结果表明,除室外到室内场景外,没有看到明确的频率趋势。之前的结果(如3GPP)表明当频率升高时,时延扩展通常会减小。但是,在开发3GPP模型时,不同频段之间可比性的要求(见3.3.2.3节)并没有完全满足,因此相应的结果可能会受到质疑。欧盟的资助项目mmMAGIC进行了大量的信道测量,并仔细满足了不同频段之间可比性的所有要求。通过统计结合六个组织开展的15次独立测量活动的测量数据,确定了五种场景相应的模型参数。在图3-25中显示了3GPP类型的模型(公式(3-29))与mmMAGIC测量数据的拟合以及3GPP模型相应的数值。两种模型拟合之间存在明显差异,其中3GPP模型参数显示出时延扩展随频率升高而显著减少,而在mmMAGIC的数据中不存在这种趋势。在mmMAGIC数据的95%置信区间,只有街道峡谷中LoS场景下以及室内办公室LoS下才显示出轻微下降的趋势。
3.3.5 方向域测量
正如3.1.2节和3.3.1.4节所指出的,在毫米波范围的高频移动通信需要发射和接收天线采用可定向发射的天线技术。这是由于全向接收天线的孔径与载波波长的平方成正比,因此相应的传输损耗允许的传输链路距离很短。出于这个原因,深入了解无线传播信道的方向特性很有必要,尤其是在高频。本节介绍在某些所选场景下,宽频范围无线信道的高分辨率试验特性。
3.3.5.1 60 GHz下室内办公室宽带结果
图3-26所示为室内办公室场景下58.7 GHz的信道测量数据,使用了3.3.2.1节中描述的谱分析法。为此在链路的发射和接收端使用垂直偶极子(2 dBi增益)天线对信道进行采样。通过3D天线定位机器人提供的大小为25×25×25 = 15 625个天线单元的虚拟天线阵列获得空间样本,空间采样距离为0.4个波长。
测量在室内办公环境中进行,Tx-Rx之间距离为1.5 m,工作频段为57.68~59.68 GHz,在LoS和NLoS两种条件下进行。在进行NLoS测量时,在Tx和Rx天线之间放置2 m×1.2 m大的金属白板。Tx和Rx的位置在LoS和NLoS测量中保持相同。图3-26所示为LoS和NLoS测量的全方向谱。由于LoS测量距离较短,因此直接路径占据主导。相对于LoS测量,NLoS测量在空间上方向分布更丰富,在不同的方向有大约十条左右的强径。然而,除了直接路径和白板阻挡的很少的几条强径之外,这两个测量显示出非常相似的方向特性。在比较光滑(扩散)的背景上,信道似乎是由一些明确方向性的路径合成。似乎在所有方向上都有丰富的漫射路径分布,除了与空无一物的地板(没有家具)相对应的方向之外。在图3-27中,显示了LoS和NLoS情况下首先到达路径的功率时延分布。首先到达路径在LoS场景中显然占主导地位,而后续的反射路径则在NLoS场景中占主导地位。然而,由于白板上边缘的衍射,在NLoS场景下也存在早期路径,相对于LoS路径被抑制了约40 dB。还有稍晚到达的路径,在白板的下边缘被衍射。在图3-27中的全景照片之上显示了这两种衍射路径。
在分析功率时延分布的4号强峰值时,如图3-28所示,很显然,有一些重要的散射体,如桌子上的物体和书架。还有一些经过窗户和墙壁强反射的路径。比较LoS和NLoS情况,很明显NLoS图中缺少一些高功率的方向,因为相应的路径被白板阻挡。因此,可以得出一个重要的结论,是基于房间几何形状的简单射线跟踪不能模拟由房间内的家具和其他物体引起的富散射。
3.3.5.2 室内办公室多频结果
将上一节的测量结果进行扩展,增加了两个较低的频率5.8 GHz和14.8 GHz。为了能够对所有频率的测量结果进行对比,在所有测量和分析中都需要满足3.3.2.3节的要求。为此,在分析中已经对不同频率的测量带宽进行均衡,这意味着14.8 GHz和58.7 GHz测量数据减少到与5.8 GHz测量数据相同的带宽,都是150 MHz。由于高频可用的带宽要大得多,因此镜面尖峰在较高频率下被放大,这种均衡对于避免功率时延分布的镜面尖峰的影响非常重要。而且,58.7 GHz的测量还受到氧气吸收引起的衰减影响。为了提供适用于频率一致性的信道建模和插值的结果,在分析中,在该频率通过以每100 m传播距离补偿1.5 dB的功率时延分布来消除这种衰减。应该注意的是,虽然链路距离本身并不能激励这种补偿,散射路径的传播距离可能明显更长,如图3-31所示。
LoS场景设置与上一节中的相同。在NLoS测量中,Rx天线被放置在办公空间尽头的一个小厨房里(见图3-29)。在NLoS情况下的Tx和Rx天线之间的距离为14 m。应该注意的是,NLoS场景仅在5.8 GHz和14.8 GHz进行了测量,原因是在测量活动中间,有段时间不允许进入室内环境。所有频率的方向功率谱都惊人地相似。在LoS图中观察到一个与频率有关的小差异,即在零度仰角附近信号功率较强,在5.8 GHz最明显, 在14.8 GHz最不明显。这种差异可以通过窗户的反射来解释,在5.8 GHz处窗户的反射比在其他频率处高很多。NLoS图与LoS图的其中一个差异是主峰周围的漫射簇更集中,有不止一条强方向(径)。另外,接收功率相对于自由空间传播衰减约20 dB。与LoS场景一样,两个测量频率的曲线图仍然惊人地相似。另外一个观察到的频率相关的差异是方位角–50度处的峰值,在5.8 GHz较强,而在14.8 GHz处较弱。对于方位角为–75度的峰值,观察到相反的效果,峰值功率在14.8 GHz时较强,而在5.8 GHz时较弱。这也是受频率依赖性的窗户衰减/反射的影响。
根据3.2.3节的旋转不变定义,为不同的场景和频率可以确定方向扩展。在图3-30中展示了LoS场景下,方向扩展与传播距离的关系以及相应的功率时延分布。这再一次表明不同频率的分布有多相似。图中所示的方向扩展仅仅包括了功率传播距离的分布,只有在相应传播距离上接收到的信号强度在噪底之上才会包含。基本上在所有频率上都观察到相同的特性。对于LoS尖峰区域,扩展很窄,大约在5度左右。而对其他时延,扩展通常在57.3度饱和,根据定义这是最大可能的扩展,如3.2.3节所示。而对应于发生强反射的几个时延,方向扩展收窄。另一个观察到的明显特点是仰角扩展很快衰减到很小的值。对于较长的时延,方向扩展主要是在x维度,也就是房间尺寸较长的维度。除了较短的时延,不同维度的方向扩展似乎与相应房间长度成正比。可能的解释是较小的房间尺寸,功率衰减得更快,因为墙壁、地板和天花板更频繁地相互作用,导致方向扩展较小。图3-31为NLoS场景。其特性非常类似于LoS场景。从图中观察到的一个主要现象是,在14.8 GHz传播距离为60 m处有强烈的回波,而在5.8 GHz并未观察到。这个差异的原因是在不同频率窗户的反射/衰减不同。这是由于房间窗户三层玻璃(非金属镀膜)造成的影响。信号在窗户的各层之间多次反射,因此当穿透窗户时,不同频率衰减的程度就有差异。专用的窗户衰减测量,与信道测量结合,显示出在14.8 GHz处的窗户衰减可以忽略不计,而对于5.8 GHz信号窗户衰减约为10 dB。假设14.8 GHz处的强回波是由于路径通过一个窗户出去,然后被邻近的建筑物反射回来,再次通过另外一个窗户到达接收端,这就正好解释了(与5.8 GHz频段相比)20 dB的功率差,刚好是5.8 GHz窗户衰减的两倍。这也解释了当较强无线电波经过邻近建筑物反射,从外面进入房间,为什么在y方向的方向扩展时延会增加,因为沿着房间y维传播的电波功率也随之增加。
图3-32所示为总方向扩展,对应于所有时延的功率总和(使用如图3-29所示的角度分布)。与5.8 GHz和14.8 GHz相比,由于58.7 GHz的LoS链路距离较短(1.5 m),相对较强的LoS峰值在方向扩展(扩展较小)中引入了偏差。为了消除这种偏差,在分析中将58.7 GHz的LoS峰值引入2.5 dB衰减。没有观察到明显的频率趋势。所有频率的特征都非常相似,仰角扩展较小,在10度左右,而x和y维度的方向扩展明显更大,在20~40度之间。此外,对于NLoS场景,y维中的方向扩展明显更大,因为对于14.8 GHz,路径是从建筑物出来然后经过相邻建筑物反射再次进入,而对于5.8 GHz是因为窗户的强反射。
3.3.5.3 5 GHz下城市宏蜂窝室外结果
城市室外宏蜂窝场景中的测量活动如图3-33所示,在5.25 GHz使用的带宽为200 MHz。在BS使用定向贴片天线,天线增益为7 dBi(90°波束宽度)并采用垂直极化。机器人天线定位系统生成10×25个单元(Nhorizontal×Nvertical)组成的虚拟平面阵列,天线单元间距2 cm(0.35λ),定位系统可提供优于0.1 mm的空间精度。在终端(UE)采用普通的垂直偶极天线。基于3.3.2.2节和参考文献[17]中描述的超分辨率法对测量数据进行分析。因为天线定位系统对于天线位置的每次改变,都需要花费大约1 s,因此单个UE位置的测量总时间约为7 min。而且,因为在测量过程中有风,因此一些大型树木的晃动影响了测量数据。在特定的时延和到达/离开方向上,由于树木晃动造成的时变,无线电波会出现失真。时变导致的结果是,这些散落在树丛中的无线电波的功率主要呈现出角度随机分布特性,即类似噪声。剩余的相干功率经树木散射后也相应减小,意味着树木的影响被低估。
对于每个UE位置,估计了N = 500个波。如参考文献[18]中所述,通过找到噪底以上角度域的峰值对估计进行初始化。并且设定估计误差的标准偏差要求:角度小于40度,传播距离小于20 m。相应的功率时延分布如3.3.2.2节的图3-13所示,显示出测量信道功率的主要估计。为确保得到一个很可靠的结果,分析的前提是基于路径估计的标准偏差仰角小于2度,并且方位角小于4度。如图3-34所示,估计的平面波叠加在全局照片上。很明显,主径在屋顶上方衍射或从相邻建筑物反射。似乎在LoS条件下BS和UE的主要传播机制都是从相邻建筑物的反射。在一些UE位置(比如UE位置7)屋顶上方的衍射似乎也很重要。
根据3.2.3节中定义的方向扩展如图3-35所示。在这种情况下,z方向上的扩展非常类似于普通的仰角扩展,水平面扩展与一般性方位角扩展非常相似。z方向(仰角)扩展非常小,在1~4度范围内,而在水平面(方位角)扩展介于7~30度之间。
3.4 信道建模
本节讨论在标准化组织(如3GPP、ITU-R)以及其他国际研究项目和网络(如METIS和mmMAGIC)中所定义的常用信道模型。主要关注特别着重于5G特定功能的最新模型上。所有这些模型都是几何随机信道模型(除了METIS基于地图的模型),每种信道都是根据每个参数的概率分布由蒙特卡罗方法生成。为了在空间和时间上实现连续性,在这些维度上随机分布是自相关的。要在全部信道参数和全部自相关函数之间建立全相关矩阵是一项巨大的挑战。此外,要在合适的置信区间内提供合理的值需要大量的测量数据。即使能够提供所需的相关性,进行提供空间一致性所需要的全部自相关的计算量也是相当可观的。在METIS基于地图的模型中采用的另一种替代方法是基于简化的几何射线跟踪。由于模型是完全基于确定性和物理原理,因此模型中全部的相关性和空间一致性都是自动生成的。该模型具备全部重要的散射机制,即镜面反射、衍射、粗糙表面和物体的散射以及室外到室内的穿透。但是该模型的缺点是实现复杂度较高。随着每次新一代移动通信的出现,信道模型的复杂度也在不断增加。通过更多地利用物理传播信道的自由度,每个新一代技术都能提供更优的性能。在第二代移动通信(GSM)中,由于所用带宽较窄及空间分集程度较低,因此复杂度相对较低。经过第三代和第四代,通过引入例如软切换和MIMO传输,带宽和空间分集技术都得到扩展。本节主要着重于3GPP和ITU-R研究的最新5G模型。该模型成功地将传输损耗建模扩展到高达100 GHz的毫米波范围。此外还提供了扩展带宽(最大2 GHz)和路径的高分辨率方向特性。尽管某些极高分辨率的特性没有经过充分验证,但模型对于没有使用最大带宽和最窄波束的早期5G网络可能是足够精确的。
3.4.1 5G随机信道模型
本节描述了3GPP为5G在0.5~100 GHz频率范围开发的信道模型,该模型也同样被ITU-R用于IMT-2020。该模型很大程度上是基于上一代建模,也是基于几何的随机信道模型。mmMAGIC信道模型与3GPP/ITU-R模型在很大程度上是一致的,另有些改进和添加。信道Hmn由根据公式(3-7)生成的一组平面波来定义,其中极化幅度为Al,方向为和,时延为,多普勒频率用相应的随机分布对其进行经验表征。只有LoS分量是由几何确定的。
3.4.1.1 传输损耗建模
传输损耗建模是基于假设链路两端的全向天线都使用由ITU-R建议书P.341定义的基本传输损耗。任何与特定天线方向图有关的建模由合并天线方向图和相应的多径分布来分别处理,多径分布将在下一节介绍。表3-1总结了模型的传输损耗(在ITU-R和3GPP规范中被称为路径损耗)特性。这些模型大部分经3.3.3节所介绍的室内办公室和街道峡谷场景的测量验证。对于LoS场景,路径损耗接近于自由空间损耗,直到一个断点,之后路径损耗与40 log(d)成正比。在NLoS条件下,对于城市宏蜂窝(Urban Macro,UMa)和农村宏蜂窝(Rural Macro,RMa)场景,相比于自由空间,路径损耗与频率无关。但是,对于室内和街道峡谷场景,相比于自由空间,路径损耗会随着频率升高而略微增加。
进一步,假设在距离相关函数中损耗的位置变化服从对数正态随机分布。对应的标准偏差范围在4~8 dB之间。这些变化在空间上通过指数自相关函数关联:
其中d为空间上两个点之间的距离,dcor为常数。建筑物穿透损耗LO2I由下式建模:
其中和分别为建筑物外墙玻璃和混凝土面积的比例,Lglass和Lconcrete为多层窗户和混凝土对应的损耗,为水平穿透到建筑物深度为d2D-in的每米穿透损耗。在3GPP和ITU模型中=0.5 dB/m。由mmMAGIC进行了更深入的分析,表明均匀分布在0.5~1.5 dB/m之间。人们发现建筑物可以分为高损耗和低损耗两种类别。高损耗类的建筑物称为“热效率”,其对应的建筑材料和施工方法会造成很大的穿透损耗。尤其是用于阻挡透过窗户的热辐射而采用的薄金属镀膜也会使无线电波衰减20~30 dB。而低损耗类则对应于使用无镀膜窗户的传统建筑物。外墙建筑材料造成的损耗Lm由下式给出:
对应的材料参数在表3-2中列出。
假设由于建筑物内部的不规则性(诸如家具、内墙、电梯井等),穿透损耗的对数正态分布位置发生变化。对应的标准偏差分别为:低损耗 =4.4 dB,高损耗 =6.5 dB。mmMAGIC模型通过引入如下频率相关的标准偏差,对这种变化进行了细化:
其中对于低损耗类k估计为0.08 dB/GHz。对于位置变化分布水平5%、50%和95%,在图3-36中展示了两类建筑物(传统的和热效率的)在3GPP模型中穿透损耗随频率的变化。为了便于对比,图中显示了ITU-R建议书P.2109中的建筑物入口损耗。ITU-R模型是基于大量测量数据的经验模型,而3GPP模型是基于简化的物理原理。在50%水平,对于低于50 GHz的频率,两个模型非常一致。但是,3GPP模型的频率趋势明显更强。这可以用表3-2中的值来解释,传统窗户的玻璃总厚度为24 mm,而热效率窗户的玻璃总厚度为36 mm。这大约是真实建筑物中玻璃厚度的三倍。还可以明显看出ITU-R模型反映了扩展随频率升高而增加,而3GPP模型则不存在这种趋势。在3GPP和ITU-R IMT 2020模型中,传播入射角相对于外墙的依赖性通过在公式(3-31)中增加5 dB常数来说明,因此,损耗分布的扩展减少。这可以在图3-36中清楚地看到,对于ITU-R建议书P.2109的模型,5%和95%概率水平明显移动得更多。由于该建议书是为支持例如IMT和卫星之间的频谱共享研究而制定的,仰角的依赖性由下式说明:
其中为路径相对于外墙的仰角,为常数,用大约20 dB/90度来估计。
3.4.1.2 多径方向性和时延建模
多径分量的幅度、时延和方向的分布是基于封闭形式随机分布的一阶和二阶矩产生的。而且,这些分布分为两个层面:簇和簇之间和一个簇之内。这意味着在较高层面生成关于簇的多径分量随机分布。在较低层面生成簇之内的相应分布。用两个层面来描述簇的动机是沿承了基于功率时延分布的观察。然而在与高分辨率试验数据相比时,会对拓扑的合理性产生怀疑。在时延域,簇的概率和功率服从叠加有对数正态阴影的指数衰落的分布。在角度域,即仰角和方位角,分布由簇功率的高斯函数包络。当在同一方向上有多个簇的概率降低时,也就是与试验数据相反时,这就有点问题。在基线模型中每个簇包含20个多径分量。这些分量以簇为单位有固定时延,除了两个最强簇被细分为三个有固定时延的子簇。每个簇中的全部20个子径有固定的功率,并且有列表分布来提供角度上的拉普拉斯功率分布。图3-37给出了NLoS 60 GHz室内办公场景(与3.3.4.1节的场景相同)下,方位角和传播距离的多径分量分布。图中包括超高分辨率测量数据和相应的3GPP模型实现。测量在办公室环境下进行,使用50 cm宽、12.5 cm高的平面阵列,2 GHz带宽,在方向上提供超高分辨率。很明显测量分布并没有显示出时延较长的簇偏离主方向的影响。当使用窄波束天线时该模型特性可能导致时延扩展不真实地减少。
很明显每个簇使用20个具有固定时延子径的基线模型所合成的输出与高分辨率测量不能很好地匹配。如图3-38所示,当考虑到多径分量的功率有序分布时这一影响更为明显。在测量中MPC的功率随功率排序的数目增加而大幅衰减。在MPC数量为20时,测量的功率低于最大功率7 ~15 dB,而3GPP基线模型没有相应的衰减。这会有问题,但当扩展到大的阵列或者每个MPC使用极窄波束时,问题可以得到解决。相应的空间复用性能,例如干扰抑制或者MIMO容量,将会不真实地好,如参考文献[29,20]中信道建模章节所述。出于这个原因,3GPP为非常大的天线阵列或大带宽提供了多径分量可选建模方案。簇的分布保持与基线模型相同。然而在每个簇中,存在大量的MPC。其中角度和时延是均匀分布的。在角度上使用拉普拉斯函数并且在时延上使用指数函数对分量的功率进行加权。该可选方案的结果如图3-37和图3-38所示。可以明显地看出高分辨率可选方案的MPC功率分布更符合实际。而且在簇中的角度和时延分布也更符合实际。在3GPP模型中显示了多数场景下方向性和时延扩展的频率强依赖性降低。这一随频率变化的趋势并没有在3.3.4节和3.3.5节的测量中确认。对观察到的趋势的解释可能是,3.3.2.3节所描述的所有确保不同频段之间可比性的要求,在测量时不能总是得到满足,而测量是3GPP模型的基础。如3.3.4.4节所指出,mmMAGIC所做的非常彻底的分析表明,时延扩展没有随频率变化的趋势或者仅有非常弱的变化。
3.4.1.3 空间一致性
为了在移动性的情况下提供真实的模型输出,即当UE移动时或者在MU-MIMO场景下,使用公式(3-30)来修正信道实现的空间分布。对于基线模型,仅修正簇间参数。然而,对于高分辨率可选模型,簇内的参数也要修正。相关距离范围为10~50 m,取决于参数和场景。该方法确实使得信道随UE的移动而连续变化。然而不能确保变化反应实际情况,如在多普勒和生灭过程中。例如对于室外用户,信道状态可能是平稳的,直到用户移动到街道十字路口拐角附近。对于室内用户,当从一个房间移动到另一个房间时,可能有同样的影响。这可能对基于动态无线信道的波束跟踪技术的优化产生重要影响。出于这个原因,下一节将用阻挡模型提供一个更实际的基于几何的选项。
3.4.2 基于几何的建模
为了提供真实的动态信道输出,METIS项目开发了一个替代信道模型,该模型基于环境的3D几何并结合电磁材料特性和简单的射线跟踪。该模型(阻挡模型)的一个分量对用实际的方法描述路径的动态生灭过程特别有用。
3.4.2.1 阻挡
正如之前指出的,当频率升高时需要高天线增益和相应的窄波束来补偿天线孔径的减小。因此,在某个时刻移动的物体突然阻挡了主波束将导致接收信号的急剧减小。出于这个原因,METIS开发了一个阻挡模型,该模型后来被3GPP作为一个额外的功能采纳。该模型基于通过矩形屏幕的3D衍射,其中每个MPC的信号衰减基于相应路径的几何结构。模型基于标准封闭数学表达,使其简单且计算高效。后来,mmMAGIC通过考虑4个边缘路径上的相位差而显著改进了METIS阻挡模型,可以为几乎全部几何结构提供精确的输出。这与标准的菲涅尔近似相反,菲涅尔近似仅在Tx和Rx之间距离较大且方向与屏幕垂直的情况下提供精确的输出。mmMAGIC模型由于其一般有效性和良好的精确度,而被ITU-R建议书P.526所采纳。图3-39给出了4 GHz 4 m×4 m屏幕下两种模型的输出。可以清楚地看到mmMAGIC模型提供了高精确度的输出,因为该模型近乎完美地遵循了严谨的Kirchoff积分解。METIS阻挡模型的输出贴近mmMAGIC模型的峰值,意味着在一定程度上低估了损耗。但是,mmMAGIC模型的平均信号强度大多在METIS模型的3 dB之内。考虑到METIS模型要简单得多,在许多情况下该模型可能是首选的。
3.5 总结和展望
过去的10年中,为了5G移动通信的开发和优化需要理解和表征传播特性,从而进行了大量的测量和建模工作。主要挑战之一就是理解载波频率从传统的2 GHz左右上升到高于80 GHz时传播特性如何改变。即使在高频许多传播特性也非常类似,天线的尺寸会随波长而变化。因此,任何类型天线的孔径都与波长的平方成正比,这意味着接收功率以相对于入射波功率–20logf [dB]的比例变化。在频率从2 GHz增加到80 GHz时,损耗增加超过30 dB。但是,通过利用阵列天线的可用面积或者其他波束赋形技术,可以补偿频率升高带来的传输损耗甚至转化为增益,如3.1.2节所述。为了优化利用方向域的先进天线发射技术,重要的是相应的信道建模要贴近实际。如本章所示,在过去几年中这一领域的知识积累取得了长足进展。这些知识主要用于5G建模,支持3GPP和ITU-R,确保最初5G蜂窝通信系统成功开发和优化。5G系统的后续版本中采用更高频率和更窄波束,对信道建模的精确度提出了更高要求。出于这个原因,在一些领域中改进传播模型是很有价值的,以确保移动通信系统长期的成功发展和优化,下面对这些领域进行了总结:
当前时延域和方向域的高分辨率信道特性建模大部分都比较随意。与相应测量数据对比,很明显在多径分布的结构和分簇上存在明显差异。尤其是在室外和室外到室内的场景下,链路两端角度和极化的联合分布特征描述欠佳。
为了得到可能的优化方案以快速适应多径分量生灭过程的波束赋形,信道的动态变化包括传输损耗的精确信息的重要性随着载波频率升高而越来越高。支持该建模的试验数据大部分缺少重要场景和频率范围。
缺乏对不同传播机制的传输损耗依赖性的理解,尤其是非镜面散射。很明显在大多NLoS情境下衍射不是很显著。然而,并不准确知道散射主要是由什么引起的。而且,并没有很好地理解超出自由空间损耗的损耗在多大程度上存在频率依赖的趋势,尤其对于宏蜂窝场景。而且对高度的依赖关系理解也不充分。
由于大多蜂窝网络部署在室外,而80%的用户处于室内,因此室外到室内场景非常重要。为了表征穿透建筑物的额外损耗而进行了大量的测量。由于世界各地分布着大量不同类型的建筑物,对更多测量数据仍然有很大需求。此外,入射角和极化的效果表征欠佳,激发了进一步试验研究的积极性。
新的传播场景对5G愈发重要。例如在工厂里,或者无人机之间,或者无人机与地面的机器类型通信最近备受关注。这些场景并没有很好地得到表征,需要更多的试验数据。
这些只是已确定的未来工作领域的例子。许多其他的领域今天还难以预见到,有可能在未来变得很重要。然而,事实是传播的深厚知识日益重要,因为电磁波传播的更多自由度已应用到移动通信中,作为建模基础的所有试验数据在未来将非常有价值。
参考文献
小议车辆环境视觉基础前视感知
1. 前言
无论是AD/ADAS还是智能网联车,前视感知都是其最基础和重要的能力之一。自动驾驶(AD)是前几年的热门话题。今天虽然稍微降温下来一些,但仍是大家关注的重点之一,毕竟它是人类长久以来的梦想之一。众所周知,美国汽车工程师学会(SAE)将自动驾驶分为 L0~L5共六个级别。其中L3及以上允许由系统在限定或不限定条件下完成所有的驾驶操作;而L2及以下还是需要由人类驾驶员一直保持驾驶状态,因此大多还属于高级驾驶辅助系统(ADAS),如车道偏离预警(LDW),前碰撞预警(FCW),自适应巡航(ACC),紧急自动刹车(AEB),车道保持辅助(LKA),交通标志识别(TSR),自动泊车(AP)等。和大多数智能机器人一样,自动驾驶的处理流程可分为三个阶段:感知、决策、执行。因此一旦感知出了问题,那后面基本就凉了。类似地,ADAS或AR导航也强依赖于对环境的感知。没有准确且实时的感知能力,上层做的再炫酷也容易成为鸡肋。ADAS和AD间的界线并没那么清晰,前者可看作到后者的过渡产品,因此很多技术是通用的。前视感知是个非常大的话题,因此本文主要聚焦在一些最为基础和通用的前视感知能力上。
2. 业界
本节我们从工业界和学术界两个方面简要聊下业界的相关情况。它们各有优缺点,学术界涌现出更前沿更先进的方法,且指标明确,易于定量比较,但方法往往专注于单点,且对实际产品中的各种约束(如计算资源)考虑不多;而工业界直接面对产品,更多地考虑实用性和整体性。但采用的指标、数据不透明,难以衡量和比较。只有全方面的了解,通过产学研的加速融合,才能打造更加完善、更好用户体验的产品。
ADAS有着几十年的发展历史。国内外都有一大批优秀的厂商。这几年,随着国家驾驶安全政策的推动和自动驾驶技术受到热捧,该领域出现了快速的增长。从老牌劲旅Bosch、Continental、Aptiv,Mobileye等,到一批相对年轻但很有竞争力的公司如Maxieye、Minieye、魔视、极目、纵目、Nauto等,这是一个既成熟,又充满机遇的市场。根据中投顾问的《2017-2021年中国汽车高级驾驶辅助系统(ADAS)市场深度调研及投资前景预测报告》,ADAS年复合增长率将达35%,2020年中国市场可实现近800亿市场空间。近几年,车载AR导航将传统的ADAS功能与导航功能、AR技术及HUD进行了融合,带来了更直观和人性化的用户体验,成为了市场的热点。在实现方式上,各家在传感器配置上也各有不同,有摄像头、毫米波雷达、激光雷达等。其中,基于摄像头的视觉方案由于其成本可控、算法成熟等优点,使用最为广泛。其中的主要代表如Mobileye和Tesla Autopilot都是主要基于视觉的方案。
图 1 Tesla Autopilot (来自https://www.youtube.com/watch?v=24dRkHdpEPo)图 2 Mobileye (来自https://www.mobileye.com/our-technology/)虽然ADAS细分功能众多,但很多功能功能(LDW,FCW,LKA,ACC等)都依赖于对前方环境中几个基本对象的检测和识别,即车道线、物体(包括车辆、行人、障碍物、交通灯、交通标识等)、可行驶区域,因此本文也会主要聚集在这几类对象的检测识别上。在准确率上,各家的产品往往很难量化及横向比较,尽管大家的宣传中常会出现“准确率>XX%”或者“误报率/漏报率
在学术界,自动驾驶一直是经久不衰的热点之一。这些方法上的创新很多同样也可以用于ADAS和AR导航中。我们知道,2012年以来深度学习的快速发展使其成为机器学习中的绝对主流。基于深度学习的方法同样也给自动驾驶带来了巨大变革。基于传统CV算法的方法在泛化能力上容易遇到瓶颈。经常是在一段路段调优跑溜后,换一段路又需要大量调参。当然,基于深度学习的方法也无法完全避免这个问题,但可以说是大大缓解了。学术界的优点就是较为透明公开、且容易对比。新的方法就是需要在与其它方法比较中才能证明其优异,因此历史上通过竞赛的方式来推动发展的例子不在少数。2004年开始,由DARPA主办的几场无人车挑战赛开启了无人车的新时代。在深度学习时代,各种针对路面环境检测识别的榜单就如同ImageNet一样,催生出一大批新颖的方法。其中针对车道线、物体和可行驶区域的比较典型的有:
KITTI:2013年由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是一套非常全面的算法评测数据集。其中覆盖了2D、3D物体检测,物体跟踪,语义分割、深度估计等多种任务。但其数据集数量在现在看起来不算多,如物体检测数据集训练集和测试集总共1W5张左右 ,车道检测就比较尴尬了,只有几百张。
CVPR 2017 TuSimple Competitions:2017年图森未来主持的挑战赛,分车道线检测和速度估计两个任务。其中车道线检测数据集包含了几千张主要是高速上的数据。虽然量不多,但因为和物体检测这类通用任务相比,针对车道线检测的竞赛很少,所以它至今在很多车道线检测的论文上还会被当成量化比较的重要参考。
CVPR 2018 WAD:由Berkeley DeepDrive主持,包含三项赛事:道路物体检测,可行驶区域分割和语义分割的域适应。它基于BDD100K数据集。这是一个在数量和多样性上都非常不错的用于自动驾驶的数据集。其中用于物体检测和可行驶区域分割的数据集共有10W张左右,其中训练集和验证集有约8W张 。
Cityscapes:针对道路环境的经典语义分割数据集,同时也提供了语义分割、实例分割和全景分割任务的榜单。数据集采自50个城市,包含了5K张精细标注图片和2W张较粗糙标注图片。考虑到语义标注的成本相对大,这个数量已经算比较大了。
其它的榜单还有很多,无法一一列举。虽然由于大多榜单只关注准确率导致其模型很难直接落到产品中,但其中确实也出现了非常多精巧的方法与创新的想法,为产品落地提供了有价值的参考。关于具体的方法我们留到后面专门章节进行讨论。
还有一些介于工业界与学术界之间的工作,它们将学术界的成果向产品逐渐转化,提供了参考实现。比较典型的有开源自动驾驶项目Apollo和Autoware。因为它们主要面向无人驾驶,所以会除了摄像头之外,还会考虑激光雷达、毫米波雷达、高精地图等信息。由于本文的scope,这里只关注基于摄像头的对基础对象的检测。Apollo 2.5中采用的是一个多任务网络检测车道线与物体(之前读代码的一些笔记:自动驾驶平台Apollo 2.5阅读手记:perception模块之camera detector ),对于车道线模型会输出像素级的分割结果,然后通过后处理得到车道线实例及结构化信息(相关代码阅读笔记:自动驾驶平台Apollo 3.0阅读手记:perception模块之lane post processing);物体检测是基于Yolo设计的Yolo 3D,除了输出传统的2D边界框,还会输出3D物体尺寸及偏转角。版本3.0(官方介绍:perception_apollo_3.0)中加入了whole lane line特性,提供更加长距的车道线检测。它由一个单独的网络实现。3.5中将物体与车道线检测网络彻底分离,车道线模型称为denseline。最新的5.0(官方介绍:perception_apollo_5.0)中又引入DarkSCNN模型,它基于Yolo中的backbone Darknet,并引入了Spatial CNN(后面再介绍),同时该网络中还加入了对灭点的检测。Autoware中车道线用的是传统CV的方法,物体检测基于摄像头部分使用的是SSD和YOLO等基于深度学习的方法(官方介绍:Overview)。
3. 方法
我们知道,深度学习有三大基石:数据、算法和算力。对于基础前视感知场景,我们也从这三个维度来聊一下。在此之前,我们先列下本文关注的单目基础感知主要流程:
图 3 基础前视感知简要流程从图片流输入,大致经历预处理、检测模型推理和后处理三个阶段:
预处理:这一阶段主要是做必要的数据处理,为后面的检测准确好数据。如一些摄像头进来的视频流是YUV格式,而深度神经网络模型输入多是RGB格式,需要进行转换。此外,很多模型会要求输入数据作归一化。另外,为了减少计算量,一般还会对输入的图像进行缩放和ROI的提取。
检测模型推理:这一阶段主要是做深度神经网络的推理。对于要同时完成多个任务的场景,我们一般会使用多任务网络。即每个任务对应一个网络分支输出,它们共享用于特征提取的backbone(按经验很多时候backbone会占大部分的计算量)。近年学术界也出现一些对不同类型任务比较通用的backbone结构。
后处理:这一阶段是将前面推理得到的结果进行进一步的处理,以传到后面的决策或展示模块。常见的对于车道线需要滤除噪点,聚类,曲线拟合,滤波(如Kalman filter)等;对物体检测常见的有非极大值抑制(NMS)和跟踪等;对可行驶区域,需要将分割结果转为多边形并确定其位置类别。
注意这里只画了简化的部分流程。实际场景中,可能还需要考虑非常多其它元素,比如:
相机标定(Camera calibration):我们在学车考“S弯”或者“单边桥”等项目时,教练往往会告诉我们一些小技巧,如通过雨刮器的位置来估计轮胎的位置。这种技巧其实比较脆弱,因为座椅的调整,人的高矮都会影响其精确度。那在ADAS/AD场景中如何告诉机器以高精度做这件事呢,就是通过相机校准。这本质是做图像坐标和世界坐标之间的转换。另外,有了校准参数,我们还可以用它做逆透视映射(IPM),消除透视带来的影响,方便车道线检测及物体跟踪等模块。
光流(Optical flow):每一帧都检测会带来很大的计算开销。有时我们会通过光流算法来计算图像中像素点的瞬时速度,从而估计已检测对象在当前帧的位置。这样一方面能有效减少计算量,另一方面还能用于物体的跟踪。
灭点(Vanishing point):我们知道,由于透视关系,平行的线(如车道线)在远处会交到一点,称为消失点或灭点。这个点对于车道检测或最后的可视化都有帮助。在直线的情况下,我们可以通过车道线的交点来估计灭点,但如果车道线是不太规则的曲线,就比较麻烦,需要通过更复杂的方法进行估计。
测距:不少ADAS功能中都需要确定前方物体的距离。常用毫米波和超声波雷达做距离检测。而在纯视觉方案中,双目方案是根据视差来估计距离,原理就像人的两只眼睛一样。而对于单目方案就比较tricky一些,需要检测物体后根据物体下边界结合相机标定计算距离。现在虽然有基于单张图像的深度估计方法,但那个本质上是靠的训练所获得的先验,用作ADAS里的FCW啥的感觉还是精度不太够。
3D姿态估计(3D pose estimation):高级点的前视感知对物体检测除了边界框,还会估计其姿态。这对动态障碍物的行为预测非常有帮助。
细粒度识别(Fine-grained recognition):对于一些识别的物体,如果它们的类别会影响到驾驶行为(如交通灯、交通标志、车道线等),则我们需要将检测结果中相应部分拿出来进一步对其进行分类识别。
决策和展示:所有的检测都是为了最后的决策和展示。如何自然地显示(如通过AR展示的话如何与现实物体贴合),以及何时预警或介入控制都直接影响用户体验。
另外可能还需要检测路面上的指示标记,以及对当前场景是否支持作检测判断等等。由于篇幅有限和使内容简洁,这些本文都暂不涉及。检测对象上本文主要关注车道线、物体和可行驶区域。
3.1 数据
我们知道,深度学习的最大优势之一就是能对大量数据进行学习。这就意味它的效果很大程度上依赖于训练的数据量,而对于汽车的前视感知更是如此。因为汽车的环境是开放的,没有充分而多样的数据,模型便无法有效地泛化,那在各种corner case就可能出岔子。对于其它场景出岔也就出岔了,对AD或者ADAS来说那可能就危及生命安全了。数据集大体有两类来源,一类是公开数据集;一类是自标数据集。它们各自有优缺点。
得益于自动驾驶领域的蓬勃发展,近年来出现了很多优质的公开数据集。
包含车道线的主要有BDD100K,CULane,TuSimple Lane Challenge和LLAMAS等。
包含物体检测的太多了,貌似是个道路环境数据集就会有。如BDD100K,KITTI,Udacity Driving Dataset, Waymo Open Datasets等。
包含可行驶区域的有BDD100K,KITTI等。虽然理论上语义分割的数据集(如Cityscapes)就包含了可行驶区域的标注,但比较理想的标注还应该区分当前车道和相邻车道。
其它的还有不少数据集,网上有很多列表整理,这里就不重复了。虽然这些数据集很丰富,但有时未必能直接用上。一方面是它们的标注之间有很大差异。其中一个差异点是标注格式,这个其实还好办,脚本基本能搞定。比较麻烦的是有时候标注的规范和内容会有出入。以车道线为例:有些是采用双线标法(如BDD100K),有些是单线标法(如CULane,TuSimple Lane Challenge);有些是标有限条(如CULane),有些是有多少标多少(如BDD100K);有些对于虚线是像素级精确标注(ApolloScape),有些是会将它们“脑补”连起来(CULane);有些标了车道线类型(BDD100K),有些没有标(CULane)。而对于车辆和行人来说,不同数据集有不同的细分类。但本着人家标注也不容易,能用上一点是一点的精神,可以尽可能地对它们进行转化,使它们一致并满足特定需求。举例来说,BDD100K中是双线标注,而其它多数是单线标。为了统一,我们可以通过算法自动找到匹配的线并进行合并。自动合并效果如下:
图 4 BDD100K数据集车道线标注自动转换公开的数据集虽然方便且量大,但往往没法完全满足需求。比如由于地域差异、摄像头差异等会导致domain shift问题,另外有些针对性的case没法覆盖。公开数据集另一个问题是license。很多的公开数据集只能作研究用途,如果要商业用途是禁止或者需要专门再购买license的。因此,实际中往往还是需要请外包或自己标数据。
另外,为了获得更大量更多样的数据,业界有一些常用方法和方向,如:
数据增强(Data augmentation):最基本也很有效的扩充数据集手段之一,在车辆环境中尤为重要。由于道路环境数据集需要多样化,因此我们需要通过数据增强来模拟不同的光照、天气、视角等变化。
自动标注/辅助标注:虽然移动端上由于算力有限,我们只能牺牲准确率布署轻量级的网络,但我们可以训练重量级的精度较高的网络模型用于对数据进行自动标注。以下是一个重量级网络(不是SOTA的)在BDD100K上训练后的检测效果。虽然不是十全十美,但在有些小目标上可能比老眼昏花的我还要标得凑合。就算无法完全替代人肉标注也可以作为辅助有效减少人工。
图 5 某重量级网络在BDD100K数据集上检测效果(左:检测结果;右:Ground truth)
仿真器:利用仿真器来帮助自动驾驶测试似乎已经是一个普遍性做法了。随着3D图形技术和硬件的飞速发展,今天仿真器中的渲染效果已相当逼真,已经不像当年赛车游戏里车后冒个烟还是“马赛克”效果。因此,仿真器也有望用于产生可用于训练的数据。
生成对抗网络(GAN):我们知道,GAN是最近几年非常火热的一个方向。GAN也在一些工作中用于训练数据的生成。虽然目前很多时候是看demo各种牛,但实际跑的时候可能就不是很理想。但不可否认这是一个很有前途的方向,不少工作应用它来缓解数据多样化需求的问题。
3.2 算法
针对前视感知中的几类目标,算法是不同的。另一方面,我们知道深度学习的视觉领域研究比较多的任务是:图片识别、物体检测、图像分割(包括语义分割、实例分割、全景分割)。那么问题来了,如何将对现有任务的方法充分应用来满足前视感知的需求?如果实在不合适如何调整?
3.2.1 车道线
首先是车道线检测,这可能是几类检测目标中最特殊的,所以占的笔墨也会相对多些。它的特点是形状狭长(可能跨越大半张图片),并且形态多变(可能是直线也可能是曲线,还可能交叉等),容易与路面标识混淆,另外还需要区分实例。现有物体检测的方法不太适合这种形状的东西。我们知道,在深度学习占领视觉领域前,车道线检测多采用传统CV的方法。Udacity(其联合创始人Sebastian Thrun是自动驾驶界大神)上有一个自动驾驶课程。其中有作业就是车道线检测,因此网上有很多这个作业的实现。其中比较关键的几步是通过边缘检测算法(如Canny,Sobel算子)得到边缘,然后通过Hough transform检测直线(如果假设车道线为直线),或者经过IPM得到鸟瞰视图后通过滑窗搜索得到车道线上的像素点,最后多项式曲线拟合输出。这里边几乎每一步都有不少参数,而且各步相互影响,如果场景很多样化的话调参就可能会比较酸爽,另一方面它对于车道线不完整的情况(如因遮挡或磨损)表现不好。因此,这已经不是目前的主流,后面业界逐渐过渡到基于深度学习的方法。
2015年,深度学习风头正劲,Stanford、Twitter等机构联合发表的论文讨论了将CNN应用到高速环境的车道线和车辆检测中[1]。它使用当时物体检测的方法[2]来检测车道线。因为车道线很长条,因此被分成多个线段,每个线段被当成物体来检测。最后通过DBSCAN进行聚类得到车道线实例。同期另外一条思路是将车道线检测当作语义分割任务。当时语义分割领域有了FCN[3]、SegNet[4]和DeepLab[5]等早期经典网络。结合一些包含车道线标注的语义分割数据集便可以进行车道线检测。如论文[6]试图将包括车道线在内的多种检测任务在分割任务中一把搞定。然而故事还远没有结束,这里还存在以下两个比较大的挑战,接下去几年的工作也是主要围绕这两点来展开:
繁琐的后处理:现实中我们为了后面的决策还需要知道哪条是当前车所在车道(Ego lane)的左、右车道线和相邻车道的车道线。另外,因为车道线往往不完整,因此还需要得到车道线的结构化表示(如多项式或样条曲线)以便做插值。这样,单就语义分割的结果还不够。以往常见的做法是将分割结果进行聚类得到实例,然后通过一些后处理判断其是哪条车道。另外,为了得到结构化表示还需要对这些点进行多项式拟合等操作。理想的方法是简化或完全去除这些后处理,实现真正意义上end-to-end的检测。
复杂的环境:路面环境复杂常常导致图像中的车道线残缺不全。如天气因素,其它车辆遮挡,阴影和光照,磨损等等。另外的一个比较大的干扰来自于地面上的箭头指示和汉字,仅看局部图像的话人也难以区分。因此如果无法有效利用全局上下文信息很难对它们进行排除。对这些因素做到足够鲁棒是通往实用产品的必要条件。
来自三星的论文[7]将车左右两条车道线作为两个类别(加上背景共三类),从而直接通过神经网络来学习,相当于做了实例分割,从而简化了后处理。
2017年TuSimple主办了车道线检测竞赛,炸出不少好的方法,同时也成为了车道线检测的重要benchmark之一。第一名来自香港中文大学,它也是基于语义分割来做,并针对车道线这种狭长的物体提出了Spatial CNN(SCNN)[8]来替代MRF/CRF来对空间关系进行建模。另一个比较有意思的点是当时竞赛提供的数据集才几千张(标注图片约3.6K),因此数据可能会成为主要瓶颈之一,于是他们整了一个大规模的车道线的数据集CULane。该数据集共有13W多张。它比较贴近现实情况,涵盖了白天、晚上、拥堵、阴影、光照过亮等9种场景。对于车道线的实例区分问题,SCNN由于限定最多检测4条车道线,因此它可以把4条车道线当4类物体来检测。同时,网络还有一个专门的分支用于预测对应的车道线是否存在。这样便不需要聚类来提取实例。当时的第二名来自佐治亚理工(Georgia Institute of Technology) 等机构。他们提出的方法[9]可以解决只能处理有限车道线的问题。它利用像素对之间的关系,通过对目标函数的巧妙构造,让神经网络学习像素的聚类信息。并且可以拓展到(理论上)无穷实例的场景。
2017年韩国KAIST和三星提出了VPGNet[10]。它是一个多任务网络,其中一个分支用于预测灭点,它可以引导车道线的检测。这在一些恶劣的天气下可以有比较大的帮助。但这需要额外标注的数据集。论文中提到他们建立了自己的数据集但没有公开。
2018年,鲁汶大学(KU Leuven)的论文提出LaneNet[11],它将车道线检测作为一个实例分割问题。以前很多方法对于提取车道线实例是用聚类,而对于车道线这种狭长的物体很难定义一个好的距离测度用于聚类。这篇论文的最大特色就是在传统语义分割分支外还加了一个pixel embedding分支,用于对输入图像中的每个点得到其N维的embedding,这个分支是基于其实例信息训练的。语义分割输出的像素结合pixel embedding信息,作聚类后便可得到车道线的实例信息,最后通过多项式拟合输出。鲁汶大学这个团队次年在论文[12]中把预测曲线与ground truth曲线间的面积作为损失函数,将拟合改造成可微分操作,从而让神经网络来学习拟合曲线的参数。前面LaneNet这篇论文另一个比较有特色的点是H-Net。IPM有利于车道线的多项式拟合。因为大多数弯曲的车道线在鸟瞰视图下用二次曲线就够了,但在透视视图下却需要更高阶曲线才能拟合。而这个变换的参数一般需要通过相机标定。但是这个参数可能根据地形、坡道因素不同。因此最好可以根据输入动态调整。H-Net采用通过神经网络来预测的方式。这条思路上类似的工作还有来自2018年GM的3D-LaneNet[13]。该方法以end-to-end方式直接预测3D的车道线。网络采用dual-pathway结构。一条对应普通透视图,估计逆透视变换参数。该参数结合前面的feature map与另一条对应鸟瞰视角的网络中feature map结合,最终输出3D车道线。不过毕竟带3D车道线标注的数据集不好弄,于是他们自己搞了个高速场景下的合成数据集作了实验。因此该方法在真实场景下的效果还需要进一步验证。
我们知道,注意力(Attention)机制是深度学习这几年很火的主题,它在视觉领域也有不少的应用。今年由香港中文大学等机构发表的论文[14]提出了Self Attention Distillation(SAD)方法。它基于注意力蒸馏(Attention distillation)的思想,将之改造为自蒸馏,从而不依赖传统知识蒸馏中的teacher model。网络中后面的层的feature map(具有更丰富上下文信息)作为监督信息帮助前面的层训练。前面的层学到更好的表征后又会改善后面的层,构成良性循环。
3.2.2 道路物体
然后是物体检测,这块的算法可以说是相当丰富。因为物体检测的应用范围非常广,因此它几乎伴随着计算机视觉领域的发展。相关的survey很多(如[15],[16]等)。深度学习兴起后,一大波基于深度神经网络的物体检测算法被提出。SOTA以极快的速度被刷新。从two-stage方法到轻量的one-stage方法,从anchor-based方法到近年很火的anchor-free方法,从手工设计到通过自动神经网络架构搜索,琳琅满目,相关的总结与整理也非常多。
对于道路环境来说,几乎和通用物体检测算法是通用的。如果要找些区别的话,可能汽车前视图像中,由于透视关系,小物体会比较多。2018年CVPR WAD比赛其中有一项是道路环境物体检测。第一名方案来自搜狗,根据网上介绍(给机器配上“眼睛”,搜狗斩获CVPR WAD2018挑战赛冠军),其方案在Faster R-CNN的基础上使用了CoupleNet,同时结合了rainbow concatenation。第二名方案来自北京大学和阿里巴巴,提出了CFENet[17]。经典的one-stage物体检测网络SSD在多个scale下的feature map进行预测,使得检测对物体的scale变化更加鲁棒。小目标主要是通过浅层的较大feature map来处理,但浅层特征缺乏包含高层语义的信息会影响检测效果。CFENet针对前视场景中小物体多的特点对SSD进行了改进,在backbone后接出的浅层上加入CFE和FFB网络模块增强浅层特征检测小目标的能力。
现实应用中,物体检测模型的输出还需要经过多步后续的处理。其中比较常见和重要的是NMS和跟踪:
神经网络模型一般会输出非常多的物体框的candidate,其中很多candidate是重叠的,而NMS的主要作用就是消除那些冗余的框。这个算子很多的推理框架不支持或支持不好,所以一般会放到模型推理外面作为后处理来做。在学术界NMS这几年也出现了一些可以提高准确率的变体。
跟踪是理解物体行为的重要一环。比如帧1有车A和车B,帧2有两辆车,我们需要知道这两辆车哪辆是A,哪辆是B,或都不是。只有找到每个物体时间维度上的变化,才能进一步做滤波,以及相应的分析。比较常见的多物体跟踪方法是SORT(Simple Online and Realtime Tracking)框架[18],或许它的准确率不是那么出众,但综合性能等因素后还是不错的选择,尤其是对于在线场景。结合通过CNN提取的外观特征(在DeepSORT[19]中采用)和Kalman filter预测的位置定义关联度的metric,将帧间物体的跟踪作为二分图匹配问题并通过经典的匈牙利算法求解。前后帧物体关联后通过Kalman filter对状态进行更新,可以有效消除检测中的抖动。
3.2.3 可行驶区域
再来说下可行驶区域。开过车的同志们都知道咱们的很多路没有那么理想的车道线,甚至在大量非结构化道路上压根儿就没有车道线。在这些没有车道线、或者车道线不清晰的地方,可行驶区域就可以派上用场。一般在可行驶区域中我们需要区分当前车道和其它车道,因为该信息对后面的决策规划非常有价值。
在这个任务上早期比较流行的榜单是KITTI的road/lane detection任务。很多论文都是拿它作benchmark,其榜单上有一些是有源码的。不过那个数据量比较少,多样化程度也不够,要用它训练得泛化能力很强实在比较勉强。
2018年CVPR WAD比赛中一个专项是可行驶区域检测。所用的BDD100K数据量相比丰富得多。当时的冠军方案是来自香港中文大学的IBN-PSANet。它的方案是结合了IBN-Net[20]和PSANet[21]。前者主要特色是结合了batch normalization(BN)和instance normalization(IN)。BN几乎是现代CNN的标配。它主要用于解决covariate shift问题,提高训练收敛速度;而IN可以让学习到的特征不太受像颜色、风格等外观变化的影响。而结合了两者的IBN可以吸收两者的优点。而PSANet的特色主要是提出了PSA结构,它本质是一种注意力机制在视觉上的应用。对于每一个像素,网络学习两个attention mask,一个对应它对其它每个像素的影响,一个对应其它每个像素对它的影响,从而使得分割可以充分考虑全局上下文信息。
可行驶区域检测中对于语义分割的输出比较粗糙,且形式不易于后面模块处理,因此还需要经过一些简单的后处理。比如先聚类,再计算各类簇的凸包,最后通过这些多边形的位置关系便可以确定它们是当前车道还是其它车道的可行驶区域。
值得一提的是,可行驶区域和车道线语义上是非常相关的,因此可以通过相互的几何约束来提高准确率。业界也有不少这方面的尝试,越来越多的深度神经网络将它们进行融合。
3.3 优化
从算法到产品最大的鸿沟之一便是性能优化。移动端设备有限的算力正在与多样化算法的算力需求形成矛盾。这在之前写的文章《浅谈端上智能之计算优化》中进行过初步的讨论。对于像ADAS这样的场景实时性尤其重要。我们可以从文中提及的几个角度进行优化。
首先,在网络设计上我们在backbone上可以选择这几年经典的轻量级网络(如MobileNet系[22], [23],ShuffleNet系[24], [25],EfficientNet[26]等)。这些网络一般在计算量上比重量级网络有数量级上的减少,同时又可以保持准确率不损失太多。另一方面,对于多个检测任务,由于输入相同,我们一般会使用多分支的网络结构。每个任务对应一个分支(head),它们共享同一个用于特征提取的backbone。按经验来说,这个backbone占的计算一般会比较大,因此这样可以节省下相当可观的计算开销。但是这样的多任务多分支网络会给训练带来困难。最理想的当然是有全标注的数据集,但这样的数据集比较难获得。对于这个问题,我们可以采取两种方法:一种是如前面提的,靠重量级高准确率网络自动标注。如训练高准确率的物体检测模型给已有车道线标注的数据集进行标注;另一种就是对带特定标注的数据输入,训练对应的部分(backbone和相应的head)。
对于给定网络结构,我们可以通过模型压缩进一步减少计算量。因为普遍认为推理时不需要训练时那样复杂的模型和高的精度。模型压缩有很多种方法,有量化、剪枝、知识蒸馏、低轶分解等等。常用的方法之一是量化。一般来说,将FP32转为FP16是一种既比较安全收益又比较大的做法,然而在一些低端设备上我们还需要作更低精度(8位或以下)的量化。这时就得花更多精力在准确率损失上了。量化又分为post-training quantization和quantization-aware training。前者使用方便,不需要训练环境,最多需要少量(几百张)数据集作为量化参数calibration之用,但缺点是会对准确率损失较大;而后者,需要在训练时插入特殊的算子用于得到量化所用参数及模拟量化行为。另一种常用的压缩方法是网络剪枝。根据网络模型的敏感度分析,一些层稍作裁剪可能就会有大的准确率损失,而另一些层进行裁剪则准确率损失不大,甚至还会使准确率上升。这就给了我们简化模型从而减少计算量的机会。低轶分解本质上是通过对矩阵的近似来减少矩阵运算的计算量。知识蒸馏是一种很有意思的方法,就像现实中的老师教学生,通过teacher model来帮助训练student model。
网络模型敲定后,就需要考虑性能优化。深度的优化是离不开硬件的考虑的。对于一些用于自动驾驶的计算平台,可能直接就上像Nvidia的PX2这样的高性能硬件平台了。但对于普通车规硬件平台,肯定是扛不住这种成本的。这些常规车机平台中一些稍高端的会有几百GFLOPS的GPU处理能力,或其它DSP,NPU等计算硬件。这里我们一般会首选这些硬件做模型推理而非CPU。因为如果将这些计算密集型任务往CPU放,会和系统中其它任务频繁抢占资源导致不稳定的体验。而对于低端一些的平台GPU基本只够渲染,那只能放到CPU上跑,一般会用上面提到的量化方法将模型转为8位整型,然后将推理绑定到固定的核上以防止影响其它任务。推理引擎有两类选择。对于一些有成熟推理引擎的硬件平台,使用厂商的引擎(如Intel有OpenVINO,高通有SNPE)通常是一个方便快捷的选择;还有一种方法就是用基于编译器的推理引擎,典型的如TVM。它以offline的方式将网络模型编译成可执行文件并可进行自动的执行参数优化。至于哪个性能好,通常是case-by-case,需要尝试。值得注意的是,上面选取的轻量型网络一般是memory-bound的,因此优化时需要着力优化访存。
如果平台上有多种可以执行神经网络算子的硬件,如CPU、GPU、NPU、DSP,那可以考虑通过异构调度来提高硬件利用率,从而达到性能的优化。现在业界已有不少的异构计算框架,如ONNXRuntime,Android NN runtime等。这里面,最关键核心的问题在于调度。对于单个网络模型而言,先要对网络进行切分,然后分配到最合适的硬件上,然后在每个硬件上进行本地调度。难点在于这个调度是NP-hard的,意味着对于实际中大规模问题,不可能在合理时间找到最优解,而要找到尽可能优的近似解是门大学问。业界出现了大量的方法,如精确算法、基于启发式策略、元启发式搜索和机器学习的方法。对于前视感知任务中的多分支模型,一个最简单而有效的做法就是将backbone以及各个head的分支作为子图进行切分和调度。如果要得到更优的调度,则可以进一步尝试基于搜索和学习的方式。
4. 小结
前视感知领域是一个小打小闹容易但做好非常难的东西。它需要长期的沉淀才能构建起核心竞争力和技术壁垒。我们看到今天行业龙头Mobileye独领风骚,但少有人看到它在早期的执着。Mobileye创立于1999年,但到2007年才开始盈利。类似的还有谷歌的无人驾驶车(差不多10年了),波士顿动力的机器人(貌似27年了),还有许许多多这样“耐得住寂寞”的公司。即使最后失败,相信也会滋养出更大的辉煌。而一旦成功,便能奠定绝对的市场地位,让其它竞争者难望其项背。
可以看到,学术界的成果和产品之间还有不小的鸿沟。当然其中的因素有很多,如成本、功耗等等,而其中最关键的因素之一是性能。传统的方式很多时候会算法管算法,整好后拿去优化,相互独立,最多整几轮迭代。而今天我们看到,两者需要越来越多地相互融合,共同演进。通过hardware-software co-design才能打造和打磨出更加完美的产品。它需要算法设计中便考虑对于特定平台硬件上的友好性。举例来说,为了更好的部署,网络设计时最好就要考虑哪些算子在目标平台上能被较好地加速;同时训练时加入特定的元素以便于后面的模型剪枝和量化。如果等吭哧吭哧训练了几周,模型都出来了再考虑这些问题就可能会带来巨大的成本。近几年大热的AutoML中的自动神经网络架构搜索(NAS)现在也越来越多地朝着hardware/platform-ware的方向发展。
最后,车辆环境感知中,数据的长尾问题是摆在AD/ADAS面前最大的问题。车辆环境是个开放环境,路上可能碰到任何无法预想的东西。2016年兰德智库指出自动驾驶系统需要进行110亿英里的测试才能达到量产应用条件。显然,这不是几辆车上路满大街跑能搞得定的,传统的测试手段已捉襟见肘。当然,对于ADAS这类驾驶辅助类功能要求会低一些,但本质上面临的问题是类似的。传统的汽车功能安全标准已经无法涵盖这类问题。虽然现在有针对性的预期功能安全(SOTIF)标准正在起草,但其可操作性和有效性还有待验证。总得来说,汽车的智能化给测试验证提出了非常有趣同时也是前所末有的挑战。
参考资料
1] B. Huval et al., “An Empirical Evaluation of Deep Learning on Highway Driving,” CoRR, vol. abs/1504.01716, 2015.[2] C. Szegedy, A. Toshev, and D. Erhan, “Deep Neural Networks for Object Detection,” in Advances in Neural Information Processing Systems 26, 2013, pp. 2553–2561.[3] E. Shelhamer, J. Long, and T. Darrell, “Fully Convolutional Networks for Semantic Segmentation,” CoRR, vol. abs/1605.06211, 2016.[4] V. Badrinarayanan, A. Handa, and R. Cipolla, “SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling,” CoRR, vol. abs/1505.07293, 2015.[5] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs,” CoRR, vol. abs/1606.00915, 2016.[6] E. Romera, L. M. Bergasa, and R. Arroyo, “Can we unify monocular detectors for autonomous driving by using the pixel-wise semantic segmentation of CNNs?,” CoRR, vol. abs/1607.00971, 2016.[7] J. Kim and C. Park, “End-To-End Ego Lane Estimation Based on Sequential Transfer Learning for Self-Driving Cars,” in 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2017, pp. 1194–1202.[8] X. Pan, J. Shi, P. Luo, X. Wang, and X. Tang, “Spatial As Deep: Spatial CNN for Traffic Scene Understanding,” ArXiv E-Prints, Dec. 2017.[9] Y.-C. Hsu, Z. Xu, Z. Kira, and J. Huang, “Learning to Cluster for Proposal-Free Instance Segmentation,” CoRR, vol. abs/1803.06459, 2018.[10] S. Lee et al., “VPGNet: Vanishing Point Guided Network for Lane and Road Marking Detection and Recognition,” CoRR, vol. abs/1710.06288, 2017.[11] D. Neven, B. De Brabandere, S. Georgoulis, M. Proesmans, and L. Van Gool, “Towards End-to-End Lane Detection: an Instance Segmentation Approach,” ArXiv E-Prints, Feb. 2018.[12] B. D. Brabandere, W. V. Gansbeke, D. Neven, M. Proesmans, and L. V. Gool, “End-to-end Lane Detection through Differentiable Least-Squares Fitting,” CoRR, vol. abs/1902.00293, 2019.[13] N. Garnett, R. Cohen, T. Pe’er, R. Lahav, and D. Levi, “3D-LaneNet: end-to-end 3D multiple lane detection,” CoRR, vol. abs/1811.10203, 2018.[14] Y. Hou, Z. Ma, C. Liu, and C. Change Loy, “Learning Lightweight Lane Detection CNNs by Self Attention Distillation,” ArXiv E-Prints, p. arXiv:1908.00821, Aug. 2019.[15] Z. Zou, Z. Shi, Y. Guo, and J. Ye, “Object Detection in 20 Years: A Survey,” CoRR, vol. abs/1905.05055, 2019.[16] X. Wu, D. Sahoo, and S. C. H. Hoi, “Recent Advances in Deep Learning for Object Detection,” ArXiv E-Prints, p. arXiv:1908.03673, Aug. 2019.[17] Q. Zhao, T. Sheng, Y. Wang, F. Ni, and L. Cai, “CFENet: An Accurate and Efficient Single-Shot Object Detector for Autonomous Driving,” ArXiv E-Prints, Jun. 2018.[18] A. Bewley, Z. Ge, L. Ott, F. Ramos, and B. Upcroft, “Simple Online and Realtime Tracking,” CoRR, vol. abs/1602.00763, 2016.[19] N. Wojke, A. Bewley, and D. Paulus, “Simple Online and Realtime Tracking with a Deep Association Metric,” CoRR, vol. abs/1703.07402, 2017.[20] X. Pan, P. Luo, J. Shi, and X. Tang, “Two at Once: Enhancing Learning and Generalization Capacities via IBN-Net,” in The European Conference on Computer Vision (ECCV), 2018.[21] H. Zhao et al., “PSANet: Point-wise Spatial Attention Network for Scene Parsing,” in Computer Vision – ECCV 2018, Cham, 2018, pp. 270–286.[22] A. G. Howard et al., “MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications,” ArXiv E-Prints, Apr. 2017.[23] M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, and L.-C. Chen, “Inverted Residuals and Linear Bottlenecks: Mobile Networks for Classification, Detection and Segmentation,” ArXiv E-Prints, Jan. 2018.[24] X. Zhang, X. Zhou, M. Lin, and J. Sun, “ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices,” ArXiv E-Prints, Jul. 2017.[25] N. Ma, X. Zhang, H.-T. Zheng, and J. Sun, “ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design,” ArXiv E-Prints, 2018.[26] M. Tan and Q. V. Le, “EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks,” ArXiv E-Prints, p. arXiv:1905.11946, May 2019.
文章
机器学习/深度学习 · 算法 · 自动驾驶 · 数据挖掘 · 计算机视觉
2019-11-25
带你读《深入理解AutoML和AutoDL:构建自动化机器 学习与深度学习平台》之一:人工智能概述
智能系统与技术丛书点击查看第二章点击查看第三章深入理解AutoML和AutoDL:构建自动化机器学习与深度学习平台
王健宗 瞿晓阳 著
第1章
人工智能概述
本章主要是人工智能的基本概述,包括人工智能的起源和发展,以及人工智能的两个重要组成部分:机器学习和深度学习。深度学习一直在持续发展,我们将用两小节来介绍深度学习的崛起和重要应用领域,在最后一节中,我们引出了人工智能未来的重要发展方向—自动化机器学习技术(AutoML)。
1.1 全面了解人工智能
1.1.1 人工智能定义
在计算机科学领域中,人工智能是一种机器表现的行为,这种行为能以与人类智能相似的方式对环境做出反应并尽可能提高自己达成目的的概率。人工智能这个概念最早于1956年8月的达特茅斯会议上由约翰·麦卡锡(John McCarthy)、马文·明斯基(Marvin Minsky)、克劳德·香农(Claude Shannon)、纳撒尼尔·罗切斯特(Nathaniel Rochester)等人提出。在此之前,人工智能有着许多种叫法,如“自动机理论”“复杂数据处理”等。会议召开的两年前,也就是1954年,达特茅斯学院数学系有4位教授退休,这对于达特茅斯学院这样的小学校来说无疑是巨大的损失。刚上任的系主任约翰·克门尼(John Kemeny)赶忙向母校普林斯顿大学求援,从母校数学系带回4位刚毕业的博士来任教,而麦卡锡就是其中之一。1955年夏,麦卡锡应邀参与IBM的一个商业项目,邀请他的人是罗切斯特。罗切斯特是IBM第一代通用机701的主设计师,并且对神经网络表现出极大的兴趣。俩人一拍即合,决定发起一个将于次年夏天举办的研讨会,还说服了香农和在哈佛做研究员的明斯基来共同提议。麦卡锡给这个研讨会起了个别出心裁的名字—“人工智能夏季研讨会”(Summer Research Project on Artificial Intelligence)。同年9月2日,麦卡锡、明斯基、香农和罗切斯特正式发出提案引入“人工智能”一词,该提案的主要内容如下:“我们提议于1956年夏,在新罕布什尔州汉诺威的达特茅斯学院进行一项10人、为期两个月的人工智能研究。这项研究基于这样一个猜想,即原则上,我们可以足够精确地描述学习或智能的任何其他特征的各个方面,从而能够让机器来进行模拟。我们试图找到方法让机器使用语言、形成抽象和概念、解决人类尚未解决的各类问题以及自我改进等。我们认为,一群经过精心挑选的科学家一起努力一个夏天,就可以在上述的一个甚至多个问题上取得重大进展。”会议于1956年6月开始,同年8月结束。会议讨论了人工智能相关问题的各个方面,如自动化计算机、如何通过编程让计算机使用语言、神经网络、计算规模的理论、自我改进、随机性和创见性等。明斯基认为,设计出一种具备某种特定学习能力的机器并非不可能,机器的本质是通过某种转换将输入变成输出的过程。机器的这种反应能力可以通过不断的“试错”过程训练获得。例如我们可以将这样的一台机器放置在某种特定的环境中,不断给予它“成功”和“失败”的判据来训练它达成某种目标的能力。更进一步,如果机器能通过学习使自身形成感知和运动抽象能力,那么它就会进行内部探索找寻解决问题的方案。罗切斯特分享了关于机器性能的独创性话题。在为自动计算器编写程序时,人们通常会向机器提供一套规则,这些规则涵盖了机器可能会面对的各种意外情况。机器遵守这一套规则但不会表现出独创性或常识。此外,只有当机器因为规则矛盾而变得混乱时,人们才会对自己设计出糟糕的规则感到恼火。最后,在编写机器程序时,有时人们必须以非常费力的方式解决问题,然而,如果机器有一点直觉或者可以做出合理的猜测,问题就可以直接被解决。会议进行了两个月,虽然每个人对AI的定义都不尽相同,但它却具有重要的开创意义和深远影响。由于会议上提出了人工智能(Artificial Intelligence)这一概念,因而1956年被称作“人工智能元年”。
1.1.2 弱人工智能、强人工智能与超人工智能
人工智能大体上可以分为3类:弱人工智能、强人工智能和超人工智能。1.弱人工智能弱人工智能(Weak AI),也被称为狭隘人工智能(Narrow AI)或应用人工智能(Applied AI),指的是只能完成某一项特定任务或者解决某一特定问题的人工智能。苹果公司的Siri就是一个典型的弱人工智能,它只能执行有限的预设功能。同时,Siri目前还不具备智力或自我意识,它只是一个相对复杂的弱人工智能体。2.强人工智能强人工智能(Strong AI),又被称为通用人工智能(Artificial General Intelligence)或全人工智能(Full AI),指的是可以像人一样胜任任何智力性任务的智能机器。这样的人工智能是一部分人工智能领域研究的最终目标,并且也作为一个经久不衰的话题出现在许多科幻作品中。对于强人工智能所需要拥有的智力水平并没有准确的定义,但人工智能研究人员认为强人工智能需要具备以下几点:
思考能力,运用策略去解决问题,并且可以在不确定情况下做出判断;
展现出一定的知识量;
计划能力;
学习能力;
交流能力;
利用自身所有能力达成目的的能力。
3.超人工智能哲学家、牛津大学人类未来研究院院长尼克·波斯特洛姆(Nick Bostrom)把超级智能定义为“在几乎所有领域都大大超过人类认知表现的任何智力”。;超人工智能(Artificial Super Intelligence,ASI)正是超级智能的一种。首先,超人工智能能实现与人类智能等同的功能,即可以像人类智能实现生物上的进化一样,对自身进行重编程和改进,这也就是“递归自我改进功能”。其次,波斯特洛姆还提到,“生物神经元的工作峰值速度约为200 Hz,比现代微处理器(约2 GHz)慢了整整7个数量级”,同时,“神经元在轴突上120 m/s的传输速度也远远低于计算机比肩光速的通信速度”。这使得超人工智能的思考速度和自我改进速度将远远超过人类,人类作为生物上的生理限制将统统不适用于机器智能。1.1.3 人工智能三大主义简要回顾人工智能的发展历史,我们会发现它主要由3个方面相互交织发展:符号主义、连接主义和行为主义。
符号主义:旨在用数学和物理学中的逻辑符号来表达思维的形成,通过大量的“如果-就”(if-then)规则定义,产生像人一样的智能,这是一个自上而下的过程,包括专家系统、知识工程等。
连接主义:主张智能来自神经元之间的连接,它让计算机模拟人类大脑中的神经网络及其连接机制,这是一个自下而上的过程,包括人工神经网络等。
行为主义:指的是基于感知行为的控制系统,使每个基本单元实现自我优化和适应,这也是一个自下而上的过程,典型的代表有进化算法、多智能体等。由这3个方面构成的人工智能设计模型如图1-1所示。
图1-1 人工智能设计模型
在人工智能设计模型中,“创造者驱使”是一个自上而下的过程,这里的“创造者”不仅指的是创造者,也可以是一些其他的高级角色,如开发者,甚至可以是设计规范和材料属性。而“环境驱动”是一个自下而上的过程,其中“环境”可以是交互约束,如行为规则;也可以是外部因素,如位置和气候。总之,“创造者驱使”指明了一个宏观层面的方向,而“环境驱使”允许智能体自由发展,甚至可以改变它们的行为规则,从而实现自身的变化性和多样性。
1.1.4 机器学习与深度学习
我们在前文介绍了人工智能的定义以及基本概念,下面将介绍人工智能发展的主要分支:机器学习和深度学习。如图1-2所示,人工智能发展的一个很重要的分支便是机器学习,由人工智能的连接主义发展形成的一个重要领域分支,它的核心目的是让计算机拥有像人一样的学习能力。而在机器学习中的一个庞大分支就是神经网络,严格来说深度学习属于机器学习的一个类别,但是随着近年来深度神经网络的发展,特别是深度学习应用范围的不断扩展,深度学习已经成为机器学习领域的一个重要部分。
图1-2 人工智能、机器学习、深度学习三者之间的关系
机器学习(Machine Learning)是关于计算机系统使用的算法和统计模型的科学研究,这些算法和统计模型不使用明显的指令,而是依靠模式和推理来有效地执行特定的任务。它被视为人工智能的一个子集。机器学习算法是建立在一个样本数据集(称为“训练数据”)上,在没有明确编程指示下根据任务的情况做出预测或决策的数学模型。机器学习算法被广泛应用于各种各样的应用中,如电子商务中的智能推荐和垃圾邮件判定等,在这些应用中对每一条数据编写特定指令是不切实际的。机器学习与计算统计学密切相关,计算统计学主要用于解决计算机的预测问题。数学优化的研究为机器学习领域提供了方法、理论和应用领域。数据挖掘是机器学习中的一个研究领域,其重点是通过无监督学习进行探索性数据分析。“机器学习”这个名词是由阿瑟·塞缪尔于1959年提出的。汤姆·M·米切尔给机器学习领域中所研究的算法下了一个被广泛引用、更为正式的定义:“如果一个计算机程序在任务T(由P来度量)中的表现随经验E而改善,那么我们称该程序从经验E中学习。”这个对机器学习所涉及任务的定义提供了一个基础的操作定义而非认知上的定义。深度学习,也称“阶层学习”或“分层学习”,是基于学习数据表征的更广泛的机器学习方法系列的一部分,而不是基于特定任务的算法。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习的优势是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。其中深度指的是网络中最长的输入输出距离。那么深度学习和机器学习的区别是什么呢?如图1-3所示,机器学习,即所谓的统计机器学习,在处理问题时,首先需要人工进行特征提取,然后根据提取后的特征进行分类问题求解。而深度学习的强大之处在于,将特征提取和分类问题求解汇总在一个神经网络模型中,只需一次输入即可得到最终的输出结果。
图1-3 机器学习与深度学习之间的差异及联系
1.2 人工智能发展历程
图1-4是人工智能发展情况概览。人工智能的发展经历了很长时间的历史积淀,早在1950年,阿兰·图灵就提出了图灵测试机,大意是将人和机器放在一个小黑屋里与屋外的人对话,如果屋外的人分不清对话者是人类还是机器,那么这台机器就拥有像人一样的智能。随后,在1956年的达特茅斯会议上,“人工智能”的概念被首次提出。在之后的十余年内,人工智能迎来了发展史上的第一个小高峰,研究者们疯狂涌入,取得了一批瞩目的成就,比如1959年,第一台工业机器人诞生;1964年,首台聊天机器人也诞生了。但是,由于当时计算能力的严重不足,在20世纪70年代,人工智能迎来了第一个寒冬。早期的人工智能大多是通过固定指令来执行特定的问题,并不具备真正的学习和思考能力,问题一旦变复杂,人工智能程序就不堪重负,变得不智能了。
图1-4 人工智能起源及发展
虽然有人趁机否定人工智能的发展和价值,但是研究学者们并没有因此停下前进的脚步,终于在1980年,卡内基梅隆大学设计出了第一套专家系统—XCON。该专家系统具有一套强大的知识库和推理能力,可以模拟人类专家来解决特定领域问题。从这时起,机器学习开始兴起,各种专家系统开始被人们广泛应用。不幸的是,随着专家系统的应用领域越来越广,问题也逐渐暴露出来。专家系统应用有限,且经常在常识性问题上出错,因此人工智能迎来了第二个寒冬。1997年,IBM公司的“深蓝”计算机战胜了国际象棋世界冠军卡斯帕罗夫,成为人工智能史上的一个重要里程碑。之后,人工智能开始了平稳向上的发展。2006年,李飞飞教授意识到了专家学者在研究算法的过程中忽视了“数据”的重要性,于是开始带头构建大型图像数据集—ImageNet,图像识别大赛由此拉开帷幕。同年,由于人工神经网络的不断发展,“深度学习”的概念被提出,之后,深度神经网络和卷积神经网络开始不断映入人们的眼帘。深度学习的发展又一次掀起人工智能的研究狂潮,这一次狂潮至今仍在持续。图1-5列出了人工智能发展史上的一些重要事件。从诞生以来,机器学习经历了长足发展,现在已经被应用于极为广泛的领域,包括数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏、艺术创作和机器人等,鉴于篇幅有限,本书将侧重讲述机器学习和深度学习未来发展的一大趋势—自动化机器学习和深度学习(AutoML及AutoDL)。
图1-5 人工智能发展重大事件
1.3 深度学习的崛起之路
1.3.1 人脸识别的起源
2012年,Alex Krizhevsky等人提出了AlexNet网络结构模型,以一种结构上轻巧简单但计算量上远超传统模型的方式轻易战胜了传统的机器学习模型,并凭借它在ImageNet图像分类挑战赛上赢得了冠军。自此,在图像领域点燃了深度学习的热潮,无数公司与学者纷纷转向该领域,并在短短几年内就取得了大量的突破性进展,其中包括何凯明等人提出的残差神经网络、谷歌提出的GoogLeNet等。这些新的研究成果使得人脸识别等过去不可能实现的场景拥有了落地的可能。
1.3.2 自动驾驶的福音
巧合的是,同样在2012年,图像分割领域也通过深度学习的应用取得了历史性突破,那就是全卷积网络(FCN)的出现。在另一个图像领域的著名图像分割任务数据集VOC上,FCN刷新了该数据集的最优指标,引爆了深度学习在图像分割领域的应用。图像分类与图像分割的突破带来了另一个行业的突破,那就是自动驾驶。早在2009年,谷歌就已经成立了负责自动驾驶业务的子公司Waymo,也是目前自动驾驶的巨头之一,其估值顶峰达到了1700多亿美元,可见自动驾驶行业在投资人心中的分量。在国外,除谷歌外,特斯拉、苹果公司等科技巨头,奥迪、德尔福、通用汽车等汽车行业巨头,Uber、Lyft等网约车领域巨头也都在做自动驾驶研究。在国内,百度、Momenta、Pony.ai、地平线、驭势科技、图森未来等公司也在这一领域不断发力。在深度学习出现之前,自动驾驶的水平主要停留在基于毫米波雷达及其他传感器的低阶水平,这个水平的自动驾驶是不可能真正解放司机注意力的;深度学习的出现带来了图像识别与图像语义分割理解的突破,让人们看到了实现L5级别完全自动驾驶的希望,也由此引起了自动驾驶行业的爆发。
1.3.3 超越人类的AI智能体
2016年发生了另一起点燃深度学习浪潮的事件,那就是谷歌DeepMind研发的AI围棋手AlphaGo异军突起。2016年3月,AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4﹕1的总比分获胜;2016年年末至2017年年初,该程序以Master为注册名与中日韩数十位围棋高手进行快棋对决,连续60局无一败绩,被称为Alpha Master;2017年5月,在中国乌镇围棋峰会上,它与当时排名世界第一的世界围棋冠军柯洁对战,以3﹕0的总比分获胜。围棋界公认AlphaGo的棋力已经超过人类职业围棋顶尖水平,在GoRatings网站公布的世界职业围棋排名中,其等级分曾超过排名人类第一的棋手柯洁。AlphaGo的出现让人们进一步意识到了深度学习的无限可能。2019年3月,ACM正式宣布将2018年图灵奖授予Yoshua Bengio、Geoffrey Hinton和Yann LeCun,以表彰他们提出的概念和工作使得深度学习神经网络有了重大突破。这也使得人们对深度学习的热情进一步发酵,让更多的研究开始往这个领域倾斜与投入。
1.3.4 懂你的AI
近几年,深度学习领域的热门研究主要集中在以下几个方向:生成对抗网络、迁移学习、强化学习、联邦学习以及本书的主题—AutoML。其中,在算法方面,谷歌提出的注意力机制以及基于该思想衍生出的BERT模型大幅刷新了自然理解领域所有数据集的评价指标,业内对此做出这样的评价:“自然语言处理是未来深度学习领域皇冠上的明珠。”基于底层语言理解模型的突破,让机器翻译、人机对话、文本分析、AI音乐、AI写作等许多过去不可想象的任务都成为可能。
1.3.5 奔跑、飞行以及玩游戏的AI
让机器为人类服务是人类一直以来的美好梦想,随着深度学习的发展,这个梦想正在逐渐实现。过去为了要让机器具有智能,需要人为赋予其大量的逻辑判断命令;而如今伴随着图像技术的成熟以及深度强化学习的应用,机器人在路上飞速奔跑、识别并跨越障碍物,乃至花式跳舞都已经成为现实。除此之外,AI机器人还能够与玩家联机对战《星际争霸》,并且一般的职业选手都没法战胜它。另一个值得关注的是京东正在打造的无人送货机,它能够自动规划路线、躲避障碍、识别目标客户并完成货物投递,是非常值得期待的一项新型服务。
1.3.6 人人都可以创造属于自己的AI
以上的种种发展都证明了,AI是这个时代不可阻挡的一个趋势。然而就当下而言,由于AI是一个较为新潮的事物,实现起来的技术难度较大,因此在各行各业的普及难度也较大,但是能够让AI开花结果的正是非IT领域的各行各业。另外,目前拥抱AI的都是主流的大公司或者科技含量较高的创业公司,而传统的行业则缺乏相应的资源及人才。为了普及人工智能,降级人工智能的门槛,并且方便人工智能的开发,实现人人都会人工智能,自动化机器学习(AutoML)这个概念应运而生。AutoML是一个自动模型学习的平台,其核心思想是自动化创造AI模型,把中间的复杂流程与烦琐的步骤都交给机器来自动完成,使用者只要指定输入的数据和任务类型即可。当前许多企业通过这种技术自动化生成了许多优秀的模型,例如小米公司通过神经架构搜索技术得到了最优的图像超分辨率模型,用于在手机端提升图像质量。除此之外,微软、亚马逊、谷歌、Salesforce等公司也都为顾客提供了类似的平台,使得对AI不那么熟悉的人也可以方便地应用AI技术并使其在自己的行业内落地。
1.4 深度学习的发展
随着深度学习的应用越来越广泛,3个成熟的研究领域逐渐形成,分别是计算机视觉、自然语言处理以及语音领域,目前AI创业公司也主要集中在这些领域。下面我们就重点展开来介绍这3大应用领域。
1.4.1 计算机视觉
计算机视觉(Computer Vision,CV),顾名思义就是计算机拥有像人类一样“看”的能力。在这里“看”的具体含义是指:不仅要将当前的图像输入到计算机中,计算机还应该具有智力,可以根据要求针对当前图像输出一定的分析结果。这个过程可以定义为几个核心任务:目标分类、目标检测、目标分割以及目标跟踪。目标分类(Target Classification)就是基于分类任务的目标识别问题,即计算机根据给定的数据,找出这些数据中哪些是所需的目标。例如,猫狗分类问题或者花草分类问题。这也是深度学习领域中最简单的一类任务,根据最后的分类函数可以将此任务分为二分类问题和多分类问题。目标分类任务是其他任务的基础,也是很多初学者的入门级任务。目标检测(Target Detection)可以看成是分类和回归问题的统一。该任务不仅要判断当前图像的所属类别,还要通过包围框(bounding box)标出图像中目标的具体位置。目标检测问题由来已久,基于深度学习的发展从2013年R-CNN算法的提出开始,不断演变出了一系列多步检测网络。之后很多研究学者对网络进行了改进,提出了单步检测,将分类、定位、检测功能都集成在一个网络中,如Yolo、SSD等。目标检测任务的应用十分广泛,经常应用于电力系统检测、医疗影像检测等。目标检测任务根据问题的复杂性,衍生出了人脸检测问题。与传统目标检测问题不同的是,人脸检测需要实现人脸关键点的定位和检测,现在移动设备中应用比较广泛的人脸识别系统就是基于这一任务研究而来。目标分割(Target Segmentation),就是将一张图像中的特定目标的区域分割出来。在深度学习领域中,目标分割的研究方向主要分为两类:语义分割和实例分割。所谓语义分割就是针对图像中的每个像素点进行分类,即判断图像中哪些像素属于哪个目标。而实例分割是语义分割的进阶版,它不仅要判断哪些像素属于目标,而且要判断哪些像素属于第一个目标,哪些像素属于第二个目标,目前在医疗影像项目中的关键就是对人体器官的分割。常见的图像目标分割网络有FCN和U-Net,其中,U-Net常用于医疗图像分割。目标跟踪(Target Tracking)是一个基于时间序列的目标定位问题,通常是基于视频数据的任务,常用于智能监控系统、嫌疑犯追逃等。首先是在第一帧图像中锁定目标,在之后的时序数据中,不断地对目标进行重定位。这是一个非常复杂的问题,需要用到目标检测和分割任务,而且根据时序相关性进行有效建模,可以减少定位过程中的计算量,提高追踪效率。我们介绍了这么多计算机视觉的定义及任务,那么它与图像处理有什么异同呢?严格来讲,图像处理是一种数字信号处理,它不涉及对图像内容的理解,一般是通过数学函数等对图像进行变换或增强,如归一化图像、图像预处理、消除图像噪声等;而计算机视觉是使用计算机模拟人类视觉,该模拟过程包括学习以及推理能力。计算机视觉离不开图像处理操作,因此可以将图像处理看成计算机视觉的一个子集,当目标是对图像进行增强时,可以称为图像处理,当目标是检测和分割等时,则称为计算机视觉。计算机视觉任务看似容易,但也存在很多潜在的挑战。因为我们人眼每天看到的景象是错综复杂的,我们的视觉和大脑的判别是同步进行的,但对于计算机而言,虽然经过了很多学者的研究,其仍无法达到人类视觉的能力。而且,感官世界极其复杂,任何光照条件或者遮挡都可能会造成计算机识别任务的失败。因此,计算机视觉仍然有很长的一段路要走。
1.4.2 自然语言处理
如果说计算机视觉是模拟人类“看”的能力,那么自然语言处理(Natural Language Processing,NLP)就是模拟人类的“语言”能力,这里的“语言”是指说话和写作能力。站在专业的角度来讲,NLP就是以一种智能高效的方式对人类创造的文本数据进行系统地分析、理解和提取信息的过程。NLP的研究任务很广泛,在本书中我们将它分为5大类:词法分析、句子分析、语义分析、信息抽取和顶层任务。词法分析就是以词为单位对数据进行分析,这是NLP中最基本的工作。常见的词性标注和拼写校正任务就属于词法分析。句子分析就是以句子为单位的分析任务。语义分析就是通过对文本数据的分析,生成对应文本数据的语义信息的形式化表示,常见任务有词义消歧等。信息抽取是NLP任务中应用最广泛的一个,简单理解就是从非结构化的文本数据中抽取出用户所需的结构化信息。常见任务有命名实体消除、情感分析、实体消歧等。所谓顶层任务就是直接面向用户的任务,比如机器翻译或文本摘要,它需要多种任务结合生成对应的可以直接读取的输出结果。另外顶级任务还包括对话系统、阅读理解等。NLP机制涉及两个流程:自然语言理解和自然语言生成。我们都知道文本数据是非结构化语言,而计算机擅长处理的是结构化数据。所以在NLP机制中,计算机首先需要从非结构化数据中进行读取,转化成结构化数据,通过语法知识和规则进行理解,然后将结构化数据进行组合,生成通顺的非结构化文本。NLP的应用非常广泛,比如微博的热点推荐,就是通过用户对应的信息和经常浏览的信息进行情感分析,个性化推荐当前热点。另外邮件的垃圾分类、用户体验反馈等也都是通过自然语言处理技术实现的。
1.4.3 语音识别
我们的目标不仅仅是让计算机有“看”和“语言”的能力,还要让计算机拥有“听”和“说”的能力,因此还需要语音识别(Voice Recognition)。语音识别的目标是将一段自然语言通过声学信号的形式传给计算机,由计算机理解并且做出回应。语音识别系统主要包含特征提取、声学模型、语言模型、字典与解码4大部分。其中特征提取需要对采集的声音信号进行滤波、分帧等音频预处理工作,目的是将要进行分析的音频信号合适地从原始信号中提取出来。语音识别的过程可以概括如下:根据特征提取将声音信号从时域转换到频域,从而为声学模型提供合适的特征向量;再由声学模型根据特征向量来判断其属于哪个声学符号;然后利用语言模型来判断声学符号可能属于哪个词组序列;最后根据已有字典对词组序列进行解码,从而得到最后的文本表示。在人机交互的过程当中,计算机除了能通过语音识别技术来“听懂”人们对它说的话,还需要能够将文本信息用人们能听懂的方式表达出来。在这样的需求下,语音合成技术应运而生。语音合成技术能够利用计算机等设备将文本信息转换为人们能听懂的音频数据,再通过语音的方式播放出来。声纹识别是语音识别领域的又一个研究方向。与语音识别不同,声纹识别属于生物识别技术的一种,它根据语音波形中反映说话者生理和行为特征的语音参数,通过连接声纹数据库来鉴别人的身份。因此,声纹识别不注重语音信号的语义理解,而是从语音信号中提取个人声纹特征,并从中找出能够唯一辨别(声纹识别的理论基础是每一个声音都有自己的特征,该特征能将不同人的声音进行有效地区分)说话者身份特征的信息。语音识别有很广阔的应用场景和发展空间,如:行车导航软件通过语音合成技术为司机指引道路、播报路况,人们甚至可以选择用自己喜欢的明星的声音来播报软件内容;智能家居系统利用语音合成技术能够实现与用户的实时交流,人们可以从智能家居的“嘴”中得知家中的一些基本情况,大大提高了生活质量;在智能教学领域,学生能够利用语音合成技术跟读单词、句子,语音辅导软件的出现大大方便了教学过程,提高了教学质量。
1.5 下一代人工智能
我们首先通过图1-6来回顾一下人工智能的发展历程。
图1-6 人工智能发展历程
到目前为止,人工智能按照总体向上的发展历程,可以大致分为4个发展阶段,分别为精耕细作的诞生期、急功近利的产业期、集腋成裘的爆发期,以及现在逐渐用AutoML来自动产生神经网络的未来发展期。早期由于受到计算机算力的限制,机器学习处于慢速发展阶段,人们更注重于将逻辑推理能力和人类总结的知识赋予计算机。但随着计算机硬件的发展,尤其是GPU在机器学习中的应用,计算机可以从海量的数据中学习各种数据特征,从而很好地完成人类分配给它的各种基本任务。此时,深度学习开始在语音、图像等领域大获成功,各种深度学习网络层出不穷,完成相关任务的准确率也不断提升。同时,深度学习神经网络朝着深度更深、结构更加巧妙复杂的方向推进,GPU的研发与应用也随着神经网络对算力要求的不断提高而持续快速向前推进。图1-7展示了近年来主要神经网络的发展。
图1-7 主要深度神经网络的发展
2012年,AlexNet为了充分利用多个GPU的算力,创新性地将深度神经网络设计成两部分,使网络可以在两个GPU上进行训练。2013年,ZFNet又进一步解决了Feature Map可视化的问题,将深度神经网络的理解推进了一大步。2014年,VGGNet通过进一步增加网络的深度而获得了更高的准确率;同年,GoogLeNet的发明引入了重复模块Inception Model,使得准确率进一步提升。而2015年ResNet将重复模块的思想更深层次地发展,从而获得了超越人类水平的分辨能力。这时,由于深度神经网络层数的不断加深,需要训练的参数过于庞大,为了在不牺牲精度的同时减少需要训练的参数个数,2017年DenceNet应运而生。随着深度神经网络的不断发展,各种模型和新颖模块的不断发明利用,人们逐渐意识到开发一种新的神经网络结构越来越费时费力,为什么不让机器自己在不断的学习过程中创造出新的神经网络呢?出于这个构思,2017年Google推出了AutoML—一个能自主设计深度神经网络的AI网络,紧接着在2018年1月发布第一个产品,并将它作为云服务开放出来,称为Cloud AutoML。自此,人工智能又有了更进一步的发展,人们开始探索如何利用已有的机器学习知识和神经网络框架来让人工智能自主搭建适合业务场景的网络,人工智能的另一扇大门被打开。
1.6 参考文献
[1]MCCARTHY J, MINSKY M L,ROCHESTER N, et al. A proposal for the Dartmouth summer research project on artificial intelligence[EB/OL]. (1955-08-31)[2019-05-30].https://www.aaai.org/ojs/index.php/aimagazine/article/view/1904.[2]MOORJ.The Dartmouth college artificial intelligence conference: the next fifty years[J]. AI Magazine,2006, 27(4): 87-89.[3]KLINE R. Cybernetics, automata studies and the Dartmouth conference on artificial intelligence[J]. IEEE Annals of the History of Computing, 2011, 33(4).[4]SOLOMONOFF R J. The time scale of artificial intelligence: reflections on social effects[J]. Human Systems Management, 1985, 5(2): 149-153.[5]MUEHLHAUSER L.Ben Goertzel on AGI as a field[EB/OL]. (2013-10-18) [2019-05-30].http://intelligence.org/2013/10/18/ben-goertzel/.[6]DVORSKY G. How much longer before our first AI catastrophe?[EB/OL]. (2013-04-01) [2019-05-30]. https://io9.gizmodo.com/howmuch-longer-before-our-first-ai-catastrophe-464043243.[7]KURZWEIL R. The singularity is near[M]//SANDLER R L. Ethics and emerging technologies.London:Palgrave Macmillan, 2014: 393-406.[8]CHALMERS D. The singularity: a philosophical analysis[J]. Journal of Consciousness Studies, 2010, 17(9-10): 7-65.[9]WEI L K. AI concepts in architectural design[C]//IOPscience. IOP conference series: materials science and engineering. Bristol:IOP Publishing, 2018, 392(6): 062016.[10]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//NIPS. Advances in neural information processing systems 25. New York: Curran Associates, 2012: 1097-1105.[11]LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//IEEE. Proceedings of the IEEE conference on computer vision and pattern recognition. Boston: IEEE, 2015: 3431-3440.[12]DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv:1810.04805, 2018.
文章
机器学习/深度学习 · 人工智能 · 计算机视觉 · 自然语言处理 · 语音技术
2019-11-01
带你读《数据挖掘导论(原书第2版)》之二:数据
点击查看第一章点击查看第三章
第2章 数 据
本章讨论一些与数据相关的问题,它们对于数据挖掘的成败至关重要。数据类型 数据集的不同表现在多方面。例如,用来描述数据对象的属性可以具有不同的类型——定量的或定性的,并且数据集通常具有特定的性质,例如,某些数据集包含时间序列或彼此之间具有明显联系的对象。毫不奇怪,数据的类型决定我们应使用何种工具和技术来分析数据。此外,数据挖掘研究常常是为了适应新的应用领域和新的数据类型的需要而展开的。数据的质量 数据通常远非完美。尽管大部分数据挖掘技术可以忍受某种程度的数据不完美,但是注重理解和提高数据质量将改进分析结果的质量。通常必须解决的数据质量问题包括存在噪声和离群点,数据遗漏、不一致或重复,数据有偏差或者不能代表它应该描述的现象或总体情况。使数据适合挖掘的预处理步骤 通常,原始数据必须加以处理才能适合分析。处理一方面是要提高数据的质量,另一方面要让数据更好地适应特定的数据挖掘技术或工具。例如,有时需要将连续值属性(如长度)转换成离散的分类值的属性(如短、中、长),23以便应用特定的技术。又如,数据集属性的数目常常需要减少,因为属性较少时许多技术用起来更加有效。根据数据联系分析数据 数据分析的一种方法是找出数据对象之间的联系,之后使用这些联系而不是数据对象本身来进行其余的分析。例如,我们可以计算对象之间的相似度或距离,然后根据这种相似度或距离进行分析——聚类、分类或异常检测。诸如此类的相似性或距离度量很多,要根据数据的类型和特定的应用做出正确的选择。例2.1 与数据相关的问题 为了进一步解释这些问题的重要性,考虑下面的假想情况。你收到某个医学研究者发来的电子邮件,是关于你想要研究的一个项目的。邮件的内容如下:
尽管有些疑虑,你还是开始着手分析这些数据。文件的前几行如下:
粗略观察这些数据并未发现什么不对。你抛开疑虑,并开始分析。数据文件只有1000行,比你希望的小,24两天之后你认为你已经取得一些进展。你去参加会议,在等待其他人时,你开始与一位参与该项目工作的统计人员交谈。当听说你正在分析该项目的数据时,她请你向她简略介绍你的结果。
尽管这一场景代表一种极端情况,但它强调了“了解数据”的重要性。为此,本章将讨论上面提到的4个问题,列举一些基本难点和标准解决方法。
2.1 数据类型
通常,数据集可以看作数据对象的集合。数据对象有时也叫作记录、点、向量、模式、事件、案例、样本、实例、观测或实体。数据对象用一组刻画对象的特性(如物体质量或事件发生时间)的属性描述。属性有时也叫作变量、特性、字段、特征或维。例2.2 学生信息 通常,数据集是一个文件,其中对象是文件的记录(或行),而每个字段(或列)对应于一个属性。例如,表2.1显示了包含学生信息的数据集。每行对应一个学生,而每列是一个属性,描述学生的某一方面,如平均绩点(GPA)或标识号(ID)。
基于记录的数据集在平展文件或关系数据库系统中是最常见的,但是还有其他类型的数据集和存储数据的系统。在2.1.2节,我们将讨论数据挖掘中经常遇到的其他类型的数据集。然而,我们先考虑属性。
2.1.1 属性与度量
本小节考虑使用何种类型的属性描述数据对象。首先定义属性,然后考虑属性类型的含义,最后介绍经常遇到的属性类型。
1.什么是属性
我们先更详细地定义属性。定义2.1 属性(attribute) 对象的性质或特性,它因对象而异,或随时间而变化。例如,眼球颜色因人而异,而物体的温度随时间而变。注意:眼球颜色是一种符号属性,具有少量可能的值{棕色,黑色,蓝色,绿色,淡褐色,…};而温度是数值属性,可以取无穷多个值。追根溯源,属性并非数字或符号。然而,为了讨论和精细地分析对象的特性,我们为它们赋予了数字或符号。为了用一种明确定义的方式做到这一点,我们需要测量标度。定义2.2测量标度(measurement scale) 将数值或符号值与对象的属性相关联的规则(函数)。形式上,测量过程是使用测量标度将一个值与一个特定对象的特定属性相关联。这看上去有点抽象,但是任何时候,我们总在进行这样的测量过程。例如,踏上体重秤称体重;将人分为男女;清点会议室的椅子数量,确定是否能够为所有与会者提供足够的座位。在所有这些情况下,对象属性的“物理值”都被映射到数值或符号值。有了这些背景,我们就可以讨论属性类型,这对于确定特定的数据分析技术是否适用于某种具体的属性是非常重要的。
2.属性类型
我们通常将属性的类型称为测量标度的类型。从前面的讨论显而易见,属性可以用不同的测量标度来描述,并且属性的性质不必与用来度量它的值的性质相同。换句话说,用来代表属性的值可能具有不同于属性本身的性质,反之亦然。我们用两个例子来解释。例2.3 雇员年龄和ID号 与雇员有关的两个属性是ID和年龄,这两个属性都可以用整数表示。然而,谈论雇员的平均年龄是有意义的,但是谈论雇员的平均ID却毫无意义。的确,我们希望ID属性所表达的唯一方面是它们互不相同。因而,对雇员ID的唯一合法操作就是判定它们是否相等。但在使用整数表示雇员ID时,并没暗示有此限制。对于年龄属性而言,用来表示年龄的整数的性质与该属性的性质大同小异。尽管如此,这种对应仍不完备,例如,年龄有最大值,而整数没有。例2.4 线段长度 考虑图2.1,它展示了一些线段对象和如何用两种不同的方法将这些对象的长度属性映射到整数。从上到下,每条后继线段都是通过最上面的线段自我添加而形成的。这样,第二条线段是最上面的线段两次相连形成的,第三条线段是最上面的线段三次相连形成的,以此类推。从物理意义上讲,所有的线段都是第一条线段的倍数。这个事实由图右边的测量捕获,但未被左边的测量捕获。更准确地说,左边的测量标度仅仅捕获长度属性的序,而右边的标度同时捕获序和可加性的性质。因此,属性可以用一种不描述属性全部性质的方式测量。
知道属性的类型很重要,因为它告诉我们测量值的哪些性质与属性的基本性质一致,从而使得我们可以避免诸如计算雇员的平均ID这样的愚蠢行为。
3.属性的不同类型
一种指定属性类型的有用(和简单)的办法是,确定对应属性基本性质的数值的性质。例如,长度的属性可以有数值的许多性质。按照长度比较对象,确定对象的排序,以及谈论长度的差和比例都是有意义的。数值的如下性质(操作)常常用来描述属性。1) 相异性:=和≠。2) 序:<、≤、>和≥。3) 加法:+和-。4) 乘法:*和/。给定这些性质,我们可以定义四种属性类型:标称(nominal)、序数(ordinal)、区间(interval)和比率(ratio)。表2.2给出这些类型的定义,以及每种类型上有哪些合法的统计操作等信息。每种属性类型拥有其上方属性类型上的所有性质和操作。因此,对于标称、序数和区间属性合法的任何性质或操作,对于比率属性也合法。换句话说,属性类型的定义是累积的。29当然,对于某种属性类型合适的统计操作,对其上方的属性类型就不一定合适。
标称和序数属性统称分类的(categorical)或定性的(qualitative)属性。顾名思义,定性属性(如雇员ID)不具有数的大部分性质。即便使用数(即整数)表示,也应当像对待符号一样对待它们。其余两种类型的属性,即区间和比率属性,统称定量的(quantitative)或数值的(numeric)属性。定量属性用数表示,并且具有数的大部分性质。注意:定量属性可以是整数值或连续值。属性的类型也可以30用不改变属性意义的变换来描述。实际上,心理学家S.Smith Stevens最先用允许的变换(permissible transformation)定义了表2.2所示的属性类型。例如,如果长度分别用米和英尺度量,其属性的意义并未改变。对特定的属性类型有意义的统计操作是:当使用保持属性意义的变换对属性进行变换时,它们产生的结果相同。例如,用米和英尺为单位进行度量时,同一组对象的平均长度数值是不同的,但是两个平均值都代表相同的长度。表2.3给出表2.2中四种属性类型的允许的(保持意义的)变换。
例2.5 温度标度 温度可以很好地解释前面介绍的一些概念。首先,温度可以是区间属性或比率属性,这取决于其测量标度。当温度用开尔文温标测量时,从物理意义上讲,2度的温度是1度的两倍;当温度用华氏或摄氏标度测量时则并非如此,因为这时1度温度与2度温度相差并不太多。31问题是从物理意义上讲,华氏和摄氏标度的零点是硬性规定的,因此,华氏或摄氏温度的比率并无物理意义。
4.用值的个数描述属性
区分属性的一种独立方法是根据属性可能取值的个数来判断。
离散的(discrete) 离散属性具有有限个值或无限可数个值。这样的属性可以是分类的(如邮政编码或ID号),也可以是数值的(如计数)。通常,离散属性用整数变量表示。二元属性(binary attribute)是离散属性的一种特殊情况,并只接受两个值,如真/假、是/否、男/女或0/1。通常,二元属性用布尔变量表示,或者用只取两个值0或1的整型变量表示。
连续的(continuous) 连续属性是取实数值的属性,如温度、高度或重量等属性。通常,连续属性用浮点变量表示。实践中,实数值能可以有限的精度测量和表示。
从理论上讲,任何测量标度类型(标称的、序数的、区间的和比率的)都可以与基于属性值个数的任意类型(二元的、离散的和连续的)组合。然而,有些组合并不常出现,或者没有什么意义。例如,很难想象一个实际数据集包含连续的二元属性。通常,标称和序数属性是二元的或离散的,而区间和比率属性是连续的。然而,计数属性(count attribute)是离散的,也是比率属性。
5.非对称的属性
对于非对称的属性(asymmetric attribute),出现非零属性值才是重要的。考虑这样一个数据集,其中每个对象是一个学生,而每个属性记录学生是否选修大学的某个课程。对于某个学生,如果他选修了对应某属性的课程,该属性取值1,否则取值0。由于学生只选修所有可选课程中的很小一部分,这种数据集的大部分值为0,因此,关注非零值将更有意义、32更有效。否则,如果在学生不选修的课程上做比较,则大部分学生都非常相似。只有非零值才重要的二元属性是非对称的二元属性。这类属性对于关联分析特别重要。关联分析将在第5章讨论。也可能有离散的或连续的非对称特征。例如,如果记录每门课程的学分,则结果数据集将包含非对称的离散属性或连续属性。
6.度量水平的总体评价
正如本章其余部分所描述的,数据有许多不同的类型。先前关于测量标度的讨论虽然有用,但并不完整,仍有一些局限。因此我们给出如下见解和指引。
相异性、有序性和有意义的区间及比率只是数据的四个属性——其他许多属性都是可能的。举例来讲,一些数据本质上是周期性的,例如地球表面上的位置或时间。再如,考虑值为集合的属性,其中每个属性值是一组元素的集合,例如去年看过的所有电影。如果第二个集合是第一个集合的子集,则定义第一个元素(电影)集合比第二个集合更大(包含)。但是,这种关系只是定义了一个与刚才定义的任何属性类型都不匹配的偏序。
用于表示属性值的数字或符号可能无法蕴含属性的所有性质,或者所蕴含的性质并不存在。例2.3给出了关于整数的说明,即ID的平均值和超出范围的年龄。
为分析目的数据经常进行转换——参见2.3.7节。通常将观测变量的分布改变为更容易分析的分布,例如高斯(正态)分布。这种转换只保留了原始值的顺序,其他的性质将会丢失。尽管如此,如果期望的结果是一个差异的统计检验或预测模型,那这种转换是合理的。
对任何数据分析的最终评估,包括对属性的操作,都是从专业领域的角度分析结果是否有意义。
总之,确定哪些操作可以在特定的属性或属性集合上执行,而不影响分析的完整性是十分具有挑战性的。幸运的是,既定的做法往往是一个可靠的指南,而有时候标准做法也有可能是错误的或有局限性的。
2.1.2 数据集的类型
数据集的类型有多种,并且随着数据挖掘的发展与成熟,还会有更多类型的数据集用于分析。本小节介绍一些很常见的类型。为方便起见,我们将数据集的类型分成三组:记录数据、基于图形的数据和有序数据。这些分类不能涵盖所有的可能性,肯定还存在其他的分组。
1.数据集的一般特性
在提供特定类型数据集的细节之前,我们先讨论适用于许多数据集的三个特性,即维度、分布和分辨率,它们对数据挖掘技术具有重要影响。维度(dimensionality) 数据集的维度是数据集中的对象具有的属性数目。低维度数据往往与中、高维度数据有质的不同。事实上,分析高维数据有时会陷入所谓的维灾难(curse of dimensionality)。正因如此,数据预处理的一个重要动机就是减少维度,称为维归约(dimensionality reduction)。这些问题将在本章后面和附录B中更深入地讨论。分布(distribution) 数据集的分布是构成数据对象的属性的各种值或值的集合出现的频率。同样,数据集的分布可以看作对数据空间各个区域中对象集中程度的描述。统计学家列举了许多分布的类型,如高斯分布(正态分布),并描述了它们的性质(见附录C)。虽然描述分布的统计方法可以产生强大的分析技术,但是许多数据集的分布并没有被标准的统计分布很好地解释。因此许多数据挖掘算法并没有为其分析的数据假定某个特定的统计分布。然而,分布的一般特性通常具有强烈的影响。例如,假设将类别属性用作类变量,其中一个类别在95%的情况下出现,而其他类别只在5%的情况下发生。正如4.11节所讨论的那样,这种分布的倾斜度(skewness)会使分类变得困难(倾斜度对数据分析有其他影响,这里不做讨论)。倾斜数据的一个特例是稀疏性(sparsity)。对于稀疏的二进制、计数或连续数据,一个对象的大多数属性值为0。在许多情况下,非零项还不到1%。实际上,稀疏性是一个优点,因为通常只有非零值才需要存储和处理。这将节省大量的计算时间和存储空间。事实上,有些数据挖掘算法,如第5章介绍的关联规则挖掘算法,仅适合处理稀疏数据。最后,请注意稀疏数据集中的属性通常是非对称属性。分辨率(resolution) 经常可以在不同的分辨率下得到数据,并且在不同的分辨率下数据的性质不同。例如,在几米的分辨率下,地球表面看上去很不平坦,但在数十公里的分辨率下却相对平坦。数据的模式也依赖于分辨率。如果分辨率太高,模式可能看不出,或者掩埋在噪声中;如果分辨率太低,模式可能不出现。例如,几小时记录一下气压变化可以反映出风暴等天气系统的移动;而在月的标度下,这些现象就检测不到。
2.记录数据
许多数据挖掘任务都假定数据集是记录(数据对象)的汇集,每个记录包含固定的数据字段(属性)集,如图2.2a所示。对于记录数据的大部分基本形式,记录之间或数据字段之间没有明显的联系,并且每个记录(对象)具有相同的属性集。记录数据通常存放在平展文件或关系数据库中。关系数据库当然不仅仅是记录的汇集,它还包含更多的信息,但是数据挖掘一般并不使用关系数据库的这些信息。35更确切地说,数据库是查找记录的方便场所。下面介绍不同类型的记录数据,并用图2.2加以说明。
事务数据或购物篮数据 事务数据(transaction data)是一种特殊类型的记录数据,其中每个记录(事务)涉及一系列的项。考虑一个杂货店。顾客一次购物所购买的商品的集合就构成一个事务,而购买的商品是项。这种类型的数据称为购物篮数据(market basket data),因为记录中的项是顾客“购物篮”中的商品。事务数据是项的集合的集族,但是也可以将它视为记录的集合,其中记录的字段是非对称的属性。这些属性常常是二元的,指出商品是否已买。36更一般地,这些属性还可以是离散的或连续的,例如表示购买的商品数量或购买商品的花费。图2.2b展示了一个事务数据集,每一行代表一位顾客在特定时间购买的商品。数据矩阵 如果一个数据集族中的所有数据对象都具有相同的数值属性集,则数据对象可以看作多维空间中的点(向量),其中每个维代表对象的一个不同属性。这样的数据对象集可以用一个m×n的矩阵表示,其中,有m行(一个对象一行)n列(一个属性一列),也可以用列表示数据对象,用行表示属性。这种矩阵称作数据矩阵(data matrix)或模式矩阵(pattern matrix)。数据矩阵是记录数据的变体,但是,由于它由数值属性组成,可以使用标准的矩阵操作对数据进行变换和处理,因此,对于大部分统计数据,数据矩阵是一种标准的数据格式。图2.2c展示了一个样本数据矩阵。稀疏数据矩阵 稀疏数据矩阵是数据矩阵的一种特殊情况,其中属性的类型相同并且是非对称的,即只有非零值才是重要的。事务数据是仅含0和1元素的稀疏数据矩阵的例子。另一个常见的例子是文档数据。特别地,如果忽略文档中词(术语)的次序——“词袋”法——则文档可以用词向量表示,其中每个词是向量的一个分量(属性),而每个分量的值是对应词在文档中出现的次数。文档集合的这种表示通常称作文档词矩阵(document-term matrix)。图2.2d显示了一个文档词矩阵。文档是该矩阵的行,而词是矩阵的列。实践应用时,仅存放稀疏数据矩阵的非零项。
3.基于图的数据
有时,图形可以方便而有效地表示数据。我们考虑两种特殊情况:(1)图捕获数据对象之间的联系;(2)数据对象本身用图表示。带有对象之间联系的数据 对象之间的联系常常携带重要信息。在这种情况下,数据常常用图表示。一般把数据对象映射到图的结点,而对象之间的联系用对象之间的链和诸如方向、权值等链性质表示。考虑万维网上的网页,页面上包含文本和指向其他页面的链接。为了处理搜索查询,Web搜索引擎收集并处理网页,提取它们的内容。然而,众所周知,指向或出自每个页面的链接包含大量该页面与查询相关程度的信息,因而必须考虑。图2.3a显示了相互链接的网页集。图数据的另一个重要例子是社交网络,其中的数据对象是人,人与人之间的联系是他们通过社交媒体进行的交互。具有图对象的数据 如果对象具有结构,即对象包含具有联系的子对象,则这样的对象常常用图表示。例如,化合物的结构可以用图表示,其中结点是原子,结点之间的链是化学键。图2.3b给出化合物苯的分子结构示意图,其中包含碳原子(黑色)和氢原子(灰色)。图表示可以确定何种子结构频繁地出现在化合物的集合中,并且弄清楚这些子结构中是否有某种子结构与诸如熔点或生成热等特定的化学性质有关。频繁图挖掘是数据挖掘中分析这类数据的一个分支,将在6.5节讨论。
4.有序数据
对于某些数据类型,属性具有涉及时间或空间序的联系。下面介绍各种类型的有序数据,如图2.4所示。图2.3 不同的图形数据
时序事务数据 时序事务数据(sequential transaction data)可以看作事务数据的扩充,其中每个事务包含一个与之相关联的时间。考虑带有事务发生时间的零售事务数据。时间信息可以帮助我们发现“万圣节前夕糖果销售达到高峰”之类的模式。时间也可以与每个属性相关联,例如,每个记录可以是一位顾客的购物历史,包含不同时间购买的商品列表。使用这些信息,就有可能发现“购买DVD播放机的人趋向于在其后不久购买DVD”之类的模式。图2.4a展示了一些时序事务数据。有5个不同的时间——t1、t2、t3、t4和t5,3位不同的顾客——C1、C2和C3,5种不同的商品——A、B、C、D和E。在图a上面的表中,每行对应一位顾客在特定的时间购买的商品。例如,在时间t3,顾客C2购买了商品A和D。下面的表显示相同的信息,但每行对应一位顾客。每行包含涉及该顾客的所有事务信息,其中每个事务包含一些商品和购买这些商品的时间,例如,顾客C3在时间t2购买了商品A和C。时间序列数据 时间序列数据(time series data)是一种特殊的有序数据类型,其中每条记录都是一个时间序列(time series),即一段时间以来的测量序列。例如,金融数据集可能包含各种股票每日价格的时间序列对象。再例如,考虑图2.4c,该图显示明尼阿波利斯市从1982年到1994年的月平均气温的时间序列。在分析诸如时间序列的时间数据时,重要的是要考虑时间自相关(temporal autocorrelation),即如果两个测量的时间很接近,则这些测量的值通常非常相似。序列数据 序列数据(sequence data)是一个38 ~40数据集合,它是各个实体的序列,如词或字母的序列。除没有时间戳之外,它与时序数据非常相似,只是有序序列考虑项的位置。例如,动植物的遗传信息可以用称作基因的核苷酸的序列表示,与遗传序列数据有关的许多问题都涉及由核苷酸序列的相似性预测基因结构和功能的相似性。图2.4b显示用4种核苷酸表示的一段人类基因码。所有的DNA都可以由A、T、G和C四种核苷酸构造。空间和时空数据 有些对象除了其他类型的属性之外,还具有空间属性,如位置或区域。空间数据的一个例子是从不同的地理位置收集的气象数据(降水量、气温、气压)。这些测量通常是随时间收集的,因此,这些数据由不同位置的时间序列组成。在这种情况下,我们将数据称为时空数据。虽然可以对每个特定的时间或位置分别进行分析,但对时空数据更完整的分析需要考虑数据的时间和空间两个方面。空间数据的一个重要方面是空间自相关性(spatial autocorrelation),即物理上靠近的对象趋于在其他方面也相似。因此,地球上两个相互靠近的点通常具有相近的气温和降水量。值得注意的是,空间自相关性类似于时间自相关性。空间和时空数据的重要例子是科学和工程数据集,其数据取自二维或三维网格上规则或不规则分布的点上的测量或模型输出结果。例如,地球科学数据集记录在各种分辨率(如每度)下经纬度球面网格点(网格单元)上测量的温度和气压,如经纬度都为1°。另一个例子是,在瓦斯气流模拟中,可以针对模拟中的每个网格点记录不同时刻的流速和方向。还有一种不同类型的时空数据来自在时间和空间中追踪物体(例如车辆)的轨迹。
5.处理非记录数据
大部分数据挖掘算法都是为记录数据或其变体(如事务数据和数据矩阵)设计的。通过从数据对象中提取特征,并使用这些特征创建对应于每个对象的记录,针对记录数据的技术也可以用于非记录数据。考虑前面介绍的化学结构数据。给定一个常见的子结构集合,每个化合物都可以用一个具有二元属性的记录表示,这些二元属性指出化合物是否包含特定的子结构。41这样的表示实际上是事务数据集,其中事务是化合物,而项是子结构。在某些情况下,容易用记录形式表示数据,但是这类表示并不能捕获数据中的所有信息。考虑这样的时空数据,它由空间网格每一点上的时间序列组成。通常,这种数据存放在数据矩阵中,其中每行代表一个位置,而每列代表一个特定的时间点。然而,这种表示并不能明确地表示属性之间存在的时间联系以及对象之间存在的空间联系。但并不是说这种表示不合适,而是说分析时必须考虑这些联系。例如,在使用数据挖掘技术时,忽略属性的时间自相关性或数据对象的空间自相关性(即空间网格上的位置)并不是一个好主意。
2.2 数据质量
数据挖掘算法通常用于为其他目的收集的数据,或者在收集时未明确其目的。因此,数据挖掘常常不能“在数据源头控制质量”。相比之下,统计学的实验设计或调查中,其数据质量往往都达到了一定的要求。由于无法避免数据质量问题,因此数据挖掘着眼于两个方面:(1)数据质量问题的检测和纠正;(2)使用可以容忍低质量数据的算法。第一步的检测和纠正,通常称作数据清理(data cleaning)。下面几小节讨论数据质量。尽管也讨论某些与应用有关的问题,但是关注的焦点是测量和数据收集问题。
2.2.1 测量和数据收集问题
期望数据完美是不现实的。人类的错误、测量设备的限制或数据收集过程中的漏洞都可能导致问题。数据的值乃至整个数据对象都可能会丢失。在有些情况下,可能有不真实或重复的对象,即对应于单个“实际”对象出现了多个数据对象。例如,对于一个最近住过两个不同地方的人,42可能有两个不同的记录。即使所有的数据都不缺,并且“看上去很好”,也可能存在不一致,如一个人身高2m,但体重只有2kg。下面我们关注数据测量和收集方面的数据质量问题。我们先定义测量误差和数据收集错误,然后考虑涉及测量误差的各种问题:噪声、伪像、偏置、精度和准确率。最后讨论同时涉及测量和数据收集的数据质量问题:离群点、遗漏和不一致的值、重复数据。
1.测量误差和数据收集错误
术语测量误差(measurement error)是指测量过程中产生的问题。一个常见的问题是:在某种程度上,记录的值与实际值不同。对于连续属性,测量值与实际值的差称为误差(error)。术语数据收集错误(data collection error)是指诸如遗漏数据对象或属性值,或者不当地包含了其他数据对象等错误。例如,一种特定种类动物研究可能包含了相关种类的其他动物,它们只是表面上与要研究的种类相似。测量误差和数据收集错误可能是系统的也可能是随机的。我们只考虑一般的错误类型。在特定的领域中,总有某些类型的错误是常见的,并且通常存在很好的技术,能检测并纠正这些错误。例如,人工输入数据时,键盘录入错误是常见的,因此许多数据输入程序具有检测技术,并通过人工干预纠正这类错误。
2.噪声和伪像
噪声是测量误差的随机部分。这通常涉及值被扭曲或加入了谬误对象。图2.5显示了被随机噪声干扰前后的时间序列。如果在时间序列上添加更多的噪声,形状将会消失。图2.6显示了三组添加一些噪声点(用“+”表示)前后的数据点集。注意,有些噪声点与非噪声点混在一起。
术语“噪声”通常用于包含时间或空间分量的数据。在这些情况下,常常可以使用信号或图像处理技术降低噪声,从而帮助发现可能“淹没在噪声中”的模式(信号)。尽管如此,完全消除噪声通常是困难的,而许多数据挖掘工作都关注设计鲁棒算法(robust algorithm),即在噪声干扰下也能产生可以接受的结果。数据错误可能是更确定性现象的结果,如一组照片在同一地方出现条纹。数据的这种确定性失真常称作伪像(artifact)。
3.精度、偏置和准确率
在统计学和实验科学中,测量过程和结果数据是用精度和偏置度量的。我们给出标准的定义,随后简略加以讨论。对于下面的定义,我们假定对相同的基本量进行重复测量。定义2.3 精度(precision) (同一个量的)重复测量值之间的接近程度。定义2.4 偏置(bias) 测量值与被测量之间的系统的变化。精度通常用值集合的标准差度量,而偏置用值集合的均值与测出的已知值之间的差度量。只有那些通过外部手段能够得到测量值的对象,偏置才是可确定的。假定我们有1g质量的标准实验室重量,并且想评估实验室的新天平的精度和偏置。我们称重5次,得到下列值:{1.015,0.990,1.013,1.001,0.986}。这些值的均值是1.001,因此偏置是0.001。用标准差度量,精度是0.013。通常使用更一般的术语准确率表示数据测量误差的程度。定义2.5准确率(accuracy) 被测量的测量值与实际值之间的接近度。准确率依赖于精度和偏置,但是没有用这两个量表达准确率的公式。准确率的一个重要方面是有效数字(significant digit)的使用。其目标是仅使用数据精度所能确定的数字位数表示测量或计算结果。例如,对象的长度用最小刻度为毫米的米尺测量,则我们只能记录最接近毫米的长度数据,这种测量的精度为±0.5mm。这里不再详细地讨论有效数字,因为大部分读者应当在先前的课程中接触过,并且在理工科和统计学教材中讨论得相当深入。诸如有效数字、精度、偏置和准确率问题常常被忽视,但是对于数据挖掘、统计学和自然科学,它们都非常重要。通常,数据集并不包含数据精度信息,用于分析的程序返回的结果也没有这方面的信息。45但是,缺乏对数据和结果准确率的理解,分析者将可能出现严重的数据分析错误。
4.离群点
离群点(outlier)是在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象,或是相对于该属性的典型值来说不寻常的属性值。我们也称其为异常(anomalous)对象或异常值。有许多定义离群点的方法,并且统计学和数据挖掘界已经提出了很多不同的定义。此外,区别噪声和离群点这两个概念是非常重要的。与噪声不同,离群点可以是合法的数据对象或值。例如,在欺诈和网络入侵检测中,目标就是在大量的正常对象或事件中找到异常对象或事件。第9章会更详细地讨论异常检测。
5.遗漏值
一个对象遗漏一个或多个属性值的情况并不少见。有时可能会出现信息收集不全的情况,例如有的人拒绝透露年龄或体重。还有些情况下,某些属性并不能用于所有对象,例如表格常常有条件选择部分,仅当填表人以特定的方式回答前面的问题时,条件选择部分才需要填写,但为简单起见存储了表格的所有字段。无论何种情况,在数据分析时都应当考虑遗漏值。有许多处理遗漏值的策略(和这些策略的变种),每种策略适用于特定的情况。这些策略在下面列出,同时我们指出它们的优缺点。删除数据对象或属性 一种简单而有效的策略是刪除具有遗漏值的数据对象。然而,即使不完整的数据对象也包含一些有用的信息,并且,如果许多对象都有遗漏值,则很难甚至不可能进行可靠的分析。尽管如此,如果某个数据集只有少量的对象具有遗漏值,则忽略它们可能是合算的。一种与之相关的策略是删除具有遗漏值的属性。然而,做这件事要小心,46因为被删除的属性可能对分析是至关重要的。估计遗漏值 有时,遗漏值可以可靠地估计。例如,在考虑以大致平滑的方式变化的、具有少量但分散的遗漏值的时间序列时,遗漏值可以使用其他值来估计(插值)。另举一例,考虑一个具有许多相似数据点的数据集,与具有遗漏值的点邻近的点的属性值常常可以用来估计遗漏的值。如果属性是连续的,则可以使用最近邻的平均属性值;如果属性是分类的,则可以取最近邻中最常出现的属性值。为了更具体地解释,考虑地面站记录的降水量,对于未设地面站的区域,降水量可以使用邻近地面站的观测值估计。在分析时忽略遗漏值 许多数据挖掘方法都可以修改,以忽略遗漏值。例如,假定正在对数据对象聚类,需要计算各对数据对象间的相似性。如果某对数据对象的一个对象或两个对象的某些属性有遗漏值,则可以仅使用没有遗漏值的属性来计算相似性。当然,这种相似性只是近似的,但是除非整个属性数目很少,或者遗漏值的数量很大,否则这种误差影响不大。同样,许多分类方法都可以修改,以便于处理遗漏值。
6.不一致的值
数据可能包含不一致的值。比如地址字段列出了邮政编码和城市名,但是有的邮政编码区域并不包含在对应的城市中。这可能是人工输入该信息时颠倒了两个数字,或许是在扫描手写体时错读了一个数字。无论导致不一致值的原因是什么,重要的是能检测出来,并且如果可能的话,纠正这种错误。有些不一致类型容易检测,例如人的身高不应当是负的。另一些情况下,可能需要查阅外部信息源,例如当保险公司处理赔偿要求时,它将对照顾客数据库核对赔偿单上的姓名与地址。检测到不一致后,有时可以对数据进行更正。产品代码可能有“校验”数字,或者可以通过一个备案的已知产品代码列表复核产品代码,如果发现它不正确但接近一个已知代码,则纠正它。纠正不一致需要额外的或冗余的信息。例2.6 不一致的海洋表面温度 该例解释实际的时间序列数据中的不一致性。这些数据是在海洋的不同点测量的海洋表面温度(SST)。最初人们利用船或浮标使用海洋测量方法收集SST数据,而最近开始使用卫星来收集这些数据。为了创建长期的数据集,需要使用这两种数据源。然而,由于数据来自不同的数据源,两部分数据存在微妙的不同。这种差异显示在图2.7中,该图显示了各年度之间SST值的相关性。如果某两个年度的SST值是正相关的,则对应于这两年的位置为白色,否则为黑色。(季节性的变化从数据中删除,否则所有的年都是高度相关的。)数据汇集在一起的地方(1983年)有一个明显的变化。在1958~1982年和1983~1999年两组中,每组内的年相互之间趋向于正相关,但与另一组的年负相关。这并不意味着该数据不能用,但是分析者应当考虑这种差异对数据挖掘分析的潜在影响。
7.重复数据
数据集可以包含重复或几乎重复的数据对象。许多人都收到过重复的邮件,因为它们以稍微不相同的名字多次出现在数据库中。为了检测并删除这种重复,必须处理两个主要问题。首先,如果两个对象实际代表同一个对象,则对应的属性值必然不同,必须解决这些不一致的值;其次,需要避免意外地将两个相似但并非重复的数据对象(如两个人具有相同姓名)合并在一起。术语去重复(deduplication)通常用来表示处理这些问题的过程。在某些情况下,两个或多个对象在数据库的属性度量上是相同的,但是仍然代表不同的对象。这种重复是合法的。但是,如果某些算法设计中没有专门考虑这些属性可能相同的对象,就还是会导致问题。本章习题13就是这样的一个例子。
2.2.2 关于应用的问题
数据质量问题也可以从应用角度考虑,表达为“数据是高质量的,如果它适合预期的应用”。特别是对工商界,数据质量的这种提议非常有用。类似的观点也出现在统计学和实验科学中,那里强调精心设计实验来收集与特定假设相关的数据。与测量和数据收集一样,许多数据质量问题与特定的应用和领域有关。我们这里仍然只考虑一些一般性问题。时效性 有些数据在收集后就开始老化。比如说,如果数据提供正在发生的现象或过程的快照,如顾客的购买行为或Web浏览模式,则快照只代表有限时间内的真实情况。如果数据已经过时,则基于它的模型和模式也已经过时。49相关性 可用的数据必须包含应用所需要的信息。考虑构造一个模型,预测交通事故发生率。如果忽略了驾驶员的年龄和性别信息,那么除非这些信息可以间接地通过其他属性得到,否则模型的准确率可能是有限的。确保数据集中的对象相关不太容易。一个常见问题是抽样偏置(sampling bias),指样本包含的不同类型的对象与它们在总体中的出现情况不成比例。例如调查数据只反映对调查做出响应的那些人的意见。(抽样的其他问题将在2.3.2节进一步讨论。)由于数据分析的结果只能反映现有的数据,抽样偏置通常会导致不正确的分析。关于数据的知识 理想情况下,数据集附有描述数据的文档。文档的质量好坏决定它是支持还是干扰其后的分析。例如,如果文档标明若干属性是强相关的,则说明这些属性可能提供了高度冗余的信息,我们通常只保留一个属性。(考虑销售税和销售价格。)然而,如果文档很糟糕,例如,没有告诉我们某特定字段上的遗漏值用-9999表示,则我们的数据分析就可能出问题。其他应该说明的重要特性是数据精度、特征的类型(标称的、序数的、区间的、比率的)、测量的刻度(如长度用米还是英尺)和数据的来源。
2.3 数据预处理
本节我们考虑应当采用哪些预处理步骤,让数据更加适合挖掘。数据预处理是一个广泛的领域,包含大量以复杂的方式相关联的不同策略和技术。我们将讨论一些最重要的思想和方法,并试图指出它们之间的相互联系。具体地说,我们将讨论如下主题。
聚集
抽样
维归约50
特征子集选择
特征创建
离散化和二元化
变量变换
粗略地说,这些主题分为两类,即选择分析所需要的数据对象和属性,以及创建/改变属性。这两种情况的目标都是改善数据挖掘分析工作,减少时间,降低成本,提高质量。细节参见以下几小节。术语注记:在下面的内容中,我们有时根据习惯用法,使用特征(feature)或变量(variable)指代属性(attribute)。
2.3.1 聚集
有时,“少就是多”,而聚集就是如此。聚集(aggregation)将两个或多个对象合并成单个对象。考虑一个由事务(数据对象)组成的数据集,它记录一年中不同日期在各地(Minneapolis Chicago……)商店的商品日销售情况,见表2.4。对该数据集的事务进行聚集的一种方法是,用一个商店的事务替换该商店的所有事务。这把每天出现在一个商店的成百上千个事务记录归约成单个日事务,而每天的数据对象的个数减少为商店的个数。
在这里,一个显而易见的问题是如何创建聚集事务,即在创建代表单个商店或日期的聚集事务时,如何合并所有记录的每个属性的值。定量属性(如价格)通常通过求和或求平均值进行聚集。定性属性(如商品)可以忽略,也可以用更高层次的类别来概括,例如电视和电子产品。表2.4中的数据也可以看作多维数组,其中每个属性是一个维。从这个角度,聚集是删除属性(如商品类型)的过程,或者是压缩特定属性不同值个数的过程,如将日期的可能值从365天压缩到12个月。这种类型的聚集通常用于联机分析处理(OnLine Analytical Processing,OLAP),OLAP的引用在参考文献中给出。51聚集的动机有多种。首先,数据归约导致的较小数据集需要较少的内存和处理时间,因此可以使用开销更大的数据挖掘算法。其次,通过高层而不是低层数据视图,聚集起到了范围或标度转换的作用。在前面的例子中,在商店位置和月份上的聚集给出数据按月、按商店,而不是按天、按商品的视图。最后,对象或属性群的行为通常比单个对象或属性的行为更加稳定。这反映了统计学事实:相对于被聚集的单个对象,诸如平均值、总数等聚集量具有较小的变异性。对于总数,实际变差大于单个对象的(平均)变差,但是变差的百分比较小;而对于均值,实际变差小于单个对象的(平均)变差。聚集的缺点是可能丢失有趣的细节。在商店的例子中,按月的聚集就丢失了星期几具有最高销售额的信息。例2.7 澳大利亚降水量 该例基于澳大利亚从1982年到1993年的降水量。我们把澳大利亚国土按经纬度0.5°乘以0.5°大小分成3030个网格。图2.8a的直方图显示了这些网格单元上的平均月降水量的标准差。而图2.8b的直方图显示了相同位置的平均年降水量的标准差。可见,平均年降水量比平均月降水量的变异性小。所有降水量的测量(以及它们的标准差)都以厘米(cm)为单位。
2.3.2 抽样
抽样是一种选择数据对象子集进行分析的常用方法。在统计学中,抽样长期用于数据的事先调查和最终的数据分析。52在数据挖掘中,抽样也非常有用。然而,在统计学和数据挖掘中,抽样的动机并不相同。统计学家使用抽样的原因是获取感兴趣的整个数据集的代价太高并且太费时间,而数据挖掘人员进行抽样,通常是因为处理所有数据所需的内存或时间方面的计算成本太高。在某些情况下,使用抽样的算法可以压缩数据量,以便可以使用更好但开销较大的数据挖掘算法。有效抽样的主要原理如下:如果样本是有代表性的,则使用样本与使用整个数据集的效果几乎一样。反过来说,若样本近似地具有与原数据集相同的(感兴趣的)性质,则称样本是有代表性的。如果数据对象的均值(平均值)是感兴趣的性质,而样本具有近似于原数据集的均值,则样本就是有代表性的。由于抽样是一个统计过程,特定样本的代表性是不一样的,因此最好能做的就是选择一个抽样方案,以确保以很高的概率得到有代表性的样本。如下所述,这涉及选择适当的样本容量以及抽样技术。
1.抽样方法
有许多抽样技术,但是这里只介绍少量最基本的抽样技术及其变种。最简单的抽样是简单随机抽样(simple random sampling)。53对于这种抽样,选取任何特定项的概率相等。随机抽样有两种变种(其他抽样技术也一样):(1)无放回抽样——每个选中项立即从构成总体的所有对象集中删除;(2)有放回抽样——对象被选中时不从总体中删除。在有放回抽样中,相同的对象可能被多次抽出。当样本与数据集相比相对较小时,两种方法产生的样本差别不大。但是对于分析,有放回抽样较为简单,因为在抽样过程中,每个对象被选中的概率保持不变。当总体由不同类型的对象组成并且每种类型的对象数量差别很大时,简单随机抽样不能充分地代表不太频繁出现的对象类型。在分析需要所有类型的代表时,这可能出现问题。例如,当为稀有类构建分类模型时,样本中适当地提供稀有类是至关重要的,因此需要提供具有不同频率的感兴趣的项的抽样方案。分层抽样(stratified sampling)就是这样的方法,它从预先指定的组开始抽样。在最简单的情况下,尽管每组的大小不同,但是从每组抽取的对象个数相同。另一种变种是从每一组对象抽取的样本数量正比于该组的大小。例2.8 抽样与信息损失 一旦选定抽样技术,就需要选择样本容量。较大的样本容量增大了样本具有代表性的概率,但也抵消了抽样带来的许多好处。反过来,使用较小容量的样本,可能丢失模式或检测出错误的模式。图2.9a显示了包含8000个二维点的数据集,而图2.9b和图2.9c显示了从该数据集抽取的容量分别为2000和500的样本。该数据集的大部分结构都出现在2000个点的样本中,但是许多结构在500个点的样本中丢失了。
例2.9 确定合适的样本容量 为了说明确定合适的样本容量需要系统的方法,考虑下面的任务。
使用抽样可以有效地解决该问题。一种方法是取数据点的一个小样本,逐对计算点之间的相似性,然后形成高度相似的点组。从每个点组取一个点,则可以得到具有代表性的点的集合。然而,按照该方法,我们需要确定样本的容量,它以很高的概率确保得到期望的结果,即从每个簇至少找出一个代表点。图2.10b显示了随着样本容量从10变化到60,从10个组的每一个组中得到一个对象的概率。有趣的是,使用容量为20的样本,只有很小的机会(20%)得到包含所有10个组的样本。即便使用容量为30的样本,得到不包含所有10个组中对象的样本的概率也很高(几乎40%)。该问题将在第7章习题4讨论聚类时进一步考察。
2.渐进抽样
由于可能很难确定合适的样本容量,因此有时需要使用自适应(adaptive)或渐进抽样(progressive sampling)方法。这些方法从一个小样本开始,然后增加样本容量直至得到足够容量的样本。尽管这种技术不需要在一开始就确定正确的样本容量,但是需要评估样本的方法,确定它是否足够大。例如,假定使用渐进抽样来学习一个预测模型。尽管预测模型的准确率随样本容量的增加而增加,但是在某一点准确率的增加趋于稳定。我们希望在稳定点停止增加样本容量。通过掌握模型准确率随样本逐渐增大的变化情况,并通过选取接近于当前容量的其他样本,我们可以估计出与稳定点的接近程度,从而停止抽样。
2.3.3 维归约
数据集可能包含大量特征。考虑一个文档的集合,其中每个文档是一个向量,其分量是文档中每个词出现的频率。在这种情况下,通常有成千上万的属性(分量),每个代表词汇表中的一个词。再看一个例子,考虑包含过去30年各种股票日收盘价的时间序列数据集。在这种情况下,属性是特定日期的价格,也数以千计。维归约有多方面的好处。关键的好处是,如果维度(数据属性的个数)较低,许多数据挖掘算法的效果就会更好。部分是因为维归约可以删除不相关的特征并降低噪声,另一部分是因为维灾难。(维灾难在下面解释。)还有一个好处是维归约可以使模型更容易理解,因为模型可能只涉及较少的属性。此外,维归约也可以更容易让数据可视化。即使维归约没有将数据归约到二维或三维,数据也可以通过观察属性对或三元组属性达到可视化,并且这种组合的数目也会大大减少。最后,使用维归约降低了数据挖掘算法的时间和内存需求。术语“维归约”通常用于这样的技术:通过创建新属性,将一些旧属性合并在一起以降低数据集的维度。通过选择旧属性的子集得到新属性,这种维归约称为特征子集选择或特征选择。特征选择将在2.3.4节讨论。下面简单介绍两个重要的主题:维灾难和基于线性代数方法(如主成分分析)的维归约技术。更多关于维归约的内容可查看附录B。
1.维灾难
维灾难是指这样的现象:随着数据维度的增加,许多数据分析变得非常困难。特别是随着维度增加,数据在它所占据的空间中越来越稀疏。因此,我们观测到的数据对象很可能不是总体数据对象的代表性样本。对于分类,这可能意味着没有足够的数据对象来创建模型,将所有可能的对象可靠地指派到一个类。对于聚类,点之间的密度和距离的定义(对聚类是至关重要的)失去了意义。(8.1.2节、8.4.6节和8.4.8节会进一步讨论。)结果是,对于高维数据,许多分类和聚类算法(以及其他的数据分析算法)都麻烦缠身——分类准确率降低,聚类质量下降。
2.维归约的线性代数技术
维归约的一些最常用的方法是使用线性代数技术,将数据由高维空间投影到低维空间,特别是对于连续数据。主成分分析(Principal Component Analysis,PCA)是一种用于连续属性的线性代数技术,它找出新的属性(主成分),这些属性是原属性的线性组合,是相互正交的(orthogonal),并且捕获了数据的最大变差。例如,前两个主成分是两个正交属性,是原属性的线性组合,尽可能多地捕获了数据的变差。奇异值分解(Singular Value Decomposition,SVD)是一种线性代数技术,它与PCA有关,并且也用于维归约。请参考附录A和B获取更多细节。
2.3.4 特征子集选择
降低维度的另一种方法是仅使用特征的一个子集。这种方法尽管看起来可能丢失信息,但是在存在冗余或不相关的特征的时候,情况并非如此。冗余特征重复了包含在一个或多个其他属性中的许多或所有信息。例如,一种产品的购买价格和所支付的销售税额包含许多相同的信息。不相关特征包含对于手头的数据挖掘任务几乎完全没用的信息,例如学生的ID号码对于预测学生的总平均成绩是不相关的。冗余和不相关的特征可能降低分类的准确率,影响所发现的聚类的质量。尽管使用常识或领域知识可以立即消除一些不相关的和冗余的属性,但是选择最佳的特征子集通常需要系统的方法。特征选择的理想方法是:将所有可能的特征子集作为感兴趣的数据挖掘算法的输入,然后选取能产生最好结果的子集。这种方法的优点是反映了最终使用的数据挖掘算法的目的和偏爱。然而,由于涉及n个属性的子集多达2n个,这种方法在大部分情况下行不通,因此需要其他策略。有三种标准的特征选择方法:嵌入、过滤和包装。嵌入方法(embedded approach) 特征选择作为数据挖掘算法的一部分是理所当然的。特别是在数据挖掘算法运行期间,算法本身决定使用哪些属性和忽略哪些属性。构造决策树分类器的算法(在第3章讨论)通常以这种方式运行。过滤方法(filter approach) 使用某种独立于数据挖掘任务的方法,在数据挖掘算法运行前进行特征选择,例如我们可以选择属性的集合,它的属性对之间的相关度尽可能低。包装方法(wrapper approach) 这些方法将目标数据挖掘算法作为黑盒,使用类似于前面介绍的理想算法,但通常并不枚举所有可能的子集来找出最佳属性子集。由于嵌入方法与具体的算法有关,这里我们只进一步讨论过滤和包装方法。
1.特征子集选择体系结构
可以将过滤和包装方法放到一个共同的体系结构中。特征选择过程可以看作由四部分组成:子集评估度量、控制新的特征子集产生的搜索策略、停止搜索判断和验证过程。过滤方法和包装方法的唯一不同是它们使用了不同的特征子集评估方法。对于包装方法,子集评估使用目标数据挖掘算法;对于过滤方法,子集评估技术不同于目标数据挖掘算法。下面的讨论提供了该方法的一些细节,汇总在图2.11中。
从概念上讲,特征子集选择是搜索所有可能的特征子集的过程。可以使用许多不同类型的搜索策略,但是搜索策略的计算花费应当较低,并且应当找到最优或近似最优的特征子集。通常不可能同时满足这两个要求,因此需要折中。搜索的一个不可缺少的组成部分是评估步骤,根据已经考虑的子集评价当前的特征子集。这需要一种评估度量,针对诸如分类或聚类等数据挖掘任务,确定属性特征子集的质量。对于过滤方法,这种度量试图预测实际的数据挖掘算法在给定的属性集上执行的效果如何;对于包装方法,评估包括实际运行目标数据挖掘应用,子集评估函数就是通常用于度量数据挖掘结果的评判标准。因为子集的数量可能很大,考察所有的子集可能不现实,所以需要某种停止搜索判断。其策略通常基于如下一个或多个条件:迭代次数,子集评估的度量值是否最优或超过给定的阈值,一个特定大小的子集是否已经得到,使用搜索策略得到的选择是否可以实现改进。最后,一旦选定特征子集,就要验证目标数据挖掘算法在选定子集上的结果。一种直截了当的评估方法是用全部特征的集合运行算法,并将使用全部特征得到的结果与使用该特征子集得到的结果进行比较。如果顺利的话,使用特征子集产生的结果将比使用所有特征产生的结果更好,或者至少几乎一样好。另一个验证方法是使用一些不同的特征选择算法得到特征子集,然后比较数据挖掘算法在每个子集上的运行结果。
2.特征加权
特征加权是另一种保留或删除特征的办法。特征越重要,赋予它的权值越大,而对于不太重要的特征,赋予它的权值较小。有时,这些权值可以根据特征的相对重要性的领域知识确定,也可以自动确定。例如,有些分类方法,如支持向量机(见第4章),产生分类模型,其中每个特征都赋予一个权值。具有较大权值的特征在模型中所起的作用更加重要。在计算余弦相似度时进行的对象规范化(2.4.5节)也可以看作一类特征加权。
2.3.5 特征创建
经常可以由原来的属性创建新的属性集,以更有效地捕获数据集中的重要信息。此外,新属性的数目可能比原属性少,使得我们可以获得前面介绍的维归约带来的所有好处。下面介绍两种创建新属性的相关方法:特征提取和映射数据到新的空间。
1.特征提取
由原始数据创建新的特征集称作特征提取(feature extraction)。考虑照片的集合,按照照片是否包含人脸分类。原始数据是像素的集合,因此对于许多分类算法都不适合。然而,如果对数据进行处理,提供一些较高层次的特征,诸如与人脸高度相关的某些类型的边和区域等,则会有更多的分类技术可以用于该问题。可是,最常使用的特征提取技术都是高度针对具体领域的。对于特定的领域,如图像处理,在过去一段时间已经开发了各种提取特征的技术,但是这些技术在其他领域的应用却是有限的。因而,一旦将数据挖掘用于一个相对较新的领域,一个关键任务就是开发新的特征和特征提取方法。虽然特征提取通常很复杂,但例2.10说明了它也可以相对简单。例2.10 密度 考虑一个包含历史文物信息的数据集。该数据集包含每个文物的体积和质量,以及其他信息。为简单起见,假定这些文物使用少量材料(木材、陶土、铜、黄金)制造,并且我们希望根据制造材料对它们分类。在此情况下,由质量和体积特征构造的密度特征(即密度=质量/体积)可以很直接地产生准确的分类。尽管有一些人试图通过考察已有特征的简单数学组合来自动地进行特征提取,但是最常见的方法还是使用专家的意见构造特征。
2.映射数据到新的空间
使用一种完全不同的视角挖掘数据可能揭示出重要和有趣的特征。例如,考虑时间序列数据,它们常常包含周期模式。如果只有单个周期模式,并且噪声不多,则容易检测到该模式;另一方面,如果有大量周期模式,并且存在大量噪声,则很难检测这些模式。尽管如此,通过对该时间序列实施傅里叶变换(Fourier transform),将它转换成频率信息明显的表示,就能检测到这些模式。在例2.11中,不必知道傅里叶变换的细节,只需要知道对于时间序列,傅里叶变换产生属性与频率有关的新数据对象就足够了。例2.11 傅里叶分析 图2.12b中的时间序列是其他三个时间序列的和,其中两个显示在图2.12a中,其频率分别是每秒7个和17个周期,第三个时间序列是随机噪声。图2.12c显示功率频谱。在对原时间序列施加傅里叶变换后,可以计算功率频谱。(非正式地看,功率频谱正比于每个频率属性的平方。)尽管有噪声,图中有两个尖峰,对应于两个原来的、无噪声的时间序列的周期。值得注意的是,本例的要点是:好的特征可以揭示数据的重要性质。
也可以采用许多其他类型的变换。除傅里叶变换外,对于时间序列和其他类型的数据,经证实小波变换(wavelet transform)也是非常有用的。
2.3.6 离散化和二元化
有些数据挖掘算法,特别是某些分类算法,要求数据是分类属性形式。发现关联模式的算法要求数据是二元属性形式。这样,常常需要将连续属性变换成分类属性(离散化,discretization),并且连续和离散属性可能都需要变换成一个或多个二元属性(二元化(binarization))。此外,如果一个分类属性具有大量不同值(类别),或者某些值出现不频繁,则对于某些数据挖掘任务,通过合并某些值减少类别的数目可能是有益的。与特征选择一样,最佳的离散化和二元化方法是“对于用来分析数据的数据挖掘算法,产生最好结果”的方法。直接使用这种判别标准通常是不实际的。因此,离散化和二元化一般要满足这样一种判别标准,它与所考虑的数据挖掘任务的性能好坏直接相关。一般来说,63最佳的离散化取决于所使用的算法,以及其他被考虑的属性。然而,通常情况下,每个属性的离散化是相互独立的。
1.二元化
一种分类属性二元化的简单技术如下:如果有m个分类值,则将每个原始值唯一地赋予区间[0,m-1]中的一个整数。如果属性是有序的,则赋值必须保持序关系。(注意,即使属性原来就用整数表示,但如果这些整数不在区间[0,m-1]中,则该过程也是必需的。)然后,将这m个整数的每一个都变换成一个二进制数。由于需要n=log2m个二进位表示这些整数,因此要使用n个二元属性表示这些二进制数。例如,一个具有5个值{awful,poor,OK,good,great}的分类变量需要3个二元变量x1、x2、x3。变换见表2.5。
这样的变换可能导致复杂化,如无意之中建立了变换后的属性之间的联系。例如,在表2.5中,属性x2和x3是相关的,因为good值使用这两个属性表示。此外,关联分析需要非对称的二元属性,其中只有属性的出现(值为1)才是重要的。因此,对于关联问题,需要为每一个分类值引入一个二元属性,如表2.6所示。如果得到的属性的个数太多,则可以在二元化之前使用下一节介绍的技术减少分类值的个数。
同样,对于关联问题,可能需要用两个非对称的二元属性替换单个二元属性。考虑记录人的性别(男、女)的二元属性,对于传统的关联规则算法,该信息需要变换成两个非对称的二元属性,其中一个仅当是男性时为1,而另一个仅当是女性时为1。(对于非对称的二元属性,由于其提供一个二进制位信息需要占用存储器的两个二进制位,因而在信息的表示上不太有效。)
2.连续属性离散化
通常,离散化应用于在分类或关联分析中使用到的属性上。连续属性变换成分类属性涉及两个子任务:决定需要多少个分类值n,以及确定如何将连续属性值映射到这些分类值。在第一步中,将连续属性值排序后,通过指定n-1个分割点(split point)把它们分成n个区间。在颇为平凡的第二步中,将一个区间中的所有值映射到相同的分类值。因此,离散化问题就是决定选择多少个分割点和确定分割点位置的问题。结果可以用区间集合{(x0,x1],(x1,x2],…,(xn-1,xn)}表示,其中x0和xn可以分别为-∞或+∞,或者用一系列不等式x0<x≤x1,…,xn-1<x<xn表示。无监督离散化 用于分类的离散化方法之间的根本区别在于使用类信息(监督(supervised))还是不使用类信息(无监督(unsupervised))。如果不使用类信息,则常使用一些相对简单的方法。例如,等宽(equal width)方法将属性的值域划分成具有相同宽度的区间,而区间的个数由用户指定。这种方法可能受离群点的影响而性能不佳,因此等频率(equal frequency)或等深(equal depth)方法通常更为可取。等频率方法试图将相同数量的对象放进每个区间。作为无监督离散化的另一个例子,可以使用诸如K均值(见第7章)等聚类方法。最后,目测检查数据有时也可能是一种有效的方法。例2.12 离散化技术 本例解释如何对实际数据集使用这些技术。图2.13a显示了属于4个不同组的数据点,以及两个离群点——位于两边的大点。可以使用上述技术将这些数据点的x值离散化成4个分类值。(数据集中的点具有随机的y分量,可以更容易地看出每组有多少个点。)尽管目测检查该数据的方法的效果很好,但不是自动的,因此我们主要讨论其他三种方法。使用等宽、等频率和K均值技术产生的分割点分别如图2.13b、图2.13c和图2.13d所示,图中分割点用虚线表示。
在这个特定的例子中,如果用不同组的不同对象被指派到相同分类值的程度来度量离散化技术的性能,则K均值性能最好,其次是等频率,最后是等宽。更一般地说,最好的离散化将取决于应用场景并且通常涉及领域特定的离散化方法。例如,将人们的收入离散化为低收入、中等收入、高收入是基于经济因素的。监督离散化 以分类为例,若某些数据对象的类标确定,那么根据类标对数据进行离散化通常能取得更好的分类结果。这并不奇怪,因为未使用类标号知识构造的区间常常包含混合的类标号。有一种概念上的简单方法是以极大化区间纯度的方式确定分割点,例如区间包含单个类别标签的程度。然而,实践中这种方法可能需要人为确定区间的纯度和最小的区间大小。为了解决这一问题,一些基于统计学的方法用每个属性值来分隔区间,并通过合并类似于根据统计检验得出的相邻区间来创建较大的区间。这种自下而上的方法的替代方案是自上而下的方法,如平分初始值得到两个区间并得到最小熵。该技术只需要把每个值看作可能的分割点即可,因为假定区间包含有序值的集合。然后,取一个区间,通常选取具有最大(小)熵的区间,重复此分割过程,直到区间的个数达到用户指定的个数,或者满足终止条件。无论是自下而上或是自上而下的策略,基于熵的方法是最有前途的离散化方法之一。首先,需要定义熵(entropy)。设k是不同的类标号数,mi是某划分的第i个区间中值的个数,而mij是区间i中类j的值的个数。第i个区间的熵ei由如下等式给出:
其中,Pij=mij/mi是第i个区间中类j的概率(值的比例)。该划分的总熵e是每个区间的熵的加权平均,即
其中,m是值的个数,wi=mi/m是第i个区间的值的比例,而n是区间个数。直观上,区间的熵是区间纯度的度量。如果一个区间只包含一个类的值(该区间非常纯),则其熵为0并且不影响总熵。如果一个区间中的值类出现的频率相等(该区间尽可能不纯),则其熵最大。例2.13 两个属性离散化 基于熵的自上而下的方法用来独立地离散化图2.14所示的二维数据的属性x和y。在图2.14a所示的第一个离散化中,属性x和y被划分成三个区间。(虚线指示分割点。)在图2.14b所示的第二个离散化中,属性x和y被划分成五个区间。
这个简单的例子解释了离散化的两个特点。首先,在二维中,点类是很好分开的,但在一维中的情况并非如此。一般而言,分别离散化每个属性通常只能保证次最优的结果。其次,五个区间比三个好,但是,至少从熵的角度看,六个区间对离散化的改善不大。(没有给出六个区间的熵值和结果。)因而需要有一个终止标准,自动地发现划分的正确个数。
3.具有过多值的分类属性
分类属性有时可能具有太多的值。如果分类属性是序数属性,则可以使用类似于处理连续属性的技术,以减少分类值的个数。然而,如果分类属性是标称的,就需要使用其他方法。考虑一所大学,它有许多系,68因而系名属性可能具有数十个不同的值。在这种情况下,我们可以使用系之间联系的知识,将系合并成较大的组,如工程学、社会科学或生物科学。如果领域知识不能提供有用的指导,或者这样的方法会导致很差的分类性能,则需要使用更为经验性的方法,如仅当分组结果能提高分类准确率或达到某种其他数据挖掘目标时,才将值聚集到一起。
2.3.7 变量变换
变量变换(variable transformation)是指用于变量的所有值的变换。(尽管我们偶尔也用属性变换这个术语,但是遵循习惯用法,我们使用变量指代属性。)换言之,对于每个对象,变换都作用于该对象的变量值。例如,如果只考虑变量的量级,则可以通过取绝对值对变量进行变换。接下来的部分,我们讨论两种重要的变量变换类型:简单函数变换和规范化。69
1.简单函数
对于这种类型的变量变换,一个简单的数学函数分别作用于每一个值。如果x是变量,这种变换的例子包括
在统计学中,变量变换(特别是平方根、对数和倒数变换)常用来将不具有高斯(正态)分布的数据变换成具有高斯(正态)分布的数据。尽管这可能很重要,但是在数据挖掘中,其他理由可能更重要。假定感兴趣的变量是一次会话中的数据字节数,并且字节数的值域范围为1到10^9。这是一个很大的值域,使用常用对数变换将其进行压缩可能是有益的。这样的话,传输10^8和10^9字节的会话比传输10字节和1000字节的会话更为相似(9-8=1对3-1=2)。对于某些应用,如网络入侵检测,可能需要如此,因为前两个会话多半表示传输两个大文件,而后两个会话可能是两个完全不同的类型。使用变量变换时需要小心,因为它们改变了数据的特性。尽管有时需要这样做,但是如果没有深入理解变换的特性,则可能出现问题。例如,变换1/x虽然压缩了大于1的值,但是却放大了0和1之间的值,举例来说,{1,2,3}变换成1,1/2,1/3,但是1,1/2,1/3变换成{1,2,3},这样,对于所有的值集,变换1/x逆转了序。为了帮助弄清楚一个变换的效果,重要的是问如下问题:想要什么样的变换性质?需要保序吗?变换作用于所有的值,特别是负值和0吗?变换对0和1之间的值有何特别影响?本章习题17考察了变量变换的其他方面。
2.规范化或标准化
标准化或规范化的目标是使整个值的集合具有特定的性质。一个传统的例子是统计学中的“对变量标准化”。如果x是属性值的均值(平均值),而sx是它们的标准差,则变换创建一个新的变量,它具有均值0和标准差1。如果要以某种方法组合不同的变量,70则为了避免具有较大值域的变量左右分析结果,这种变换常常是必要的。例如,考虑使用年龄和收入两个变量对人进行比较。对于任意两个人,收入之差的绝对值(数百或数千元)多半比年龄之差的绝对值(小于150)大很多。如果没有考虑到年龄和收入值域的差别,则对人的比较将被收入之差所左右。例如,如果两个人之间的相似性或相异性使用本章后面的相似性或相异性度量来计算,则在很多情况下(如欧几里得距离)收入值将左右计算结果。均值和标准差受离群点的影响很大,因此通常需要修改上述变换。首先,用中位数(median)(即中间值)取代均值。其次,用绝对标准差(absolute standard deviation)取代标准差。例如,如果x是变量,则x的绝对标准差为,其中xi是变量x的第i个值,m是对象的个数,而μ是均值或中位数。存在离群点时,计算值集的位置(中心)和发散估计的其他方法可以参考统计学书籍。这些更加稳健的方法也可以用来定义标准化变换。
2.4 相似性和相异性的度量
相似性和相异性是重要的概念,因为它们被许多数据挖掘技术所使用,如聚类、最近邻分类和异常检测等。在许多情况下,一旦计算出相似性或相异性,就不再需要原始数据了。这种方法可以看作将数据变换到相似性(相异性)空间,然后进行分析。的确,核方法(Kernel method)是实现这种思想的强大方法。我们将在2.4.7节简单介绍这些核方法,并在4.9.4节的分类中对其进行更全面地讨论。首先,我们讨论基本要素——相似性和相异性的高层定义,并讨论它们之间的联系。为方便起见,我们使用术语邻近度(proximity)表示相似性或相异性。由于两个对象之间的邻近度是两个对象对应属性之间的邻近度的函数,因此首先介绍如何度量仅包含一个简单属性的对象之间的邻近度。然后考虑具有多个属性的对象的邻近度度量。这包括Jaccard和余弦相似性度量,这二者适用于像文档这样的稀疏数据,以及相关性和欧几里得距离度量,后二者适用于时间序列这样的稠密数据或多维点。我们也考虑互信息,它可以应用于多种类型的数据,并且适用于检测非线性关系。在本次讨论中,我们只考虑具有相对同类属性的对象,通常为二元值或者连续值。接下来,我们考虑与邻近度度量相关的若干重要问题。这包括如何在物体具有不同类型的属性时计算物体之间的邻近度,以及在计算数值对象之间的距离时如何解决变量之间的规模差异和相关性。本节最后简略讨论如何选择正确的邻近度度量。虽然本节重点介绍数据对象之间的邻近度计算,但也可以在属性之间计算邻近度。例如,对于图2.2d所示的文档项矩阵,可以用余弦方法来计算两个文档或两个项(词)之间的相似度。知道两个变量强相关有助于消除冗余。具体而言,后面讨论的相关性和互信息度量常常用于此目的。
2.4.1 基础
1.定义
两个对象之间的相似度(similarity)的非正式定义是这两个对象相似程度的数值度量。因而,两个对象越相似,它们的相似度就越高。通常,相似度是非负的,并常常在0(不相似)和1(完全相似)之间取值。两个对象之间的相异度(dissimilarity)是这两个对象差异程度的数值度量。对象越类似,它们的相异度就越低。通常,术语距离(distance)用作相异度的同义词,正如我们将介绍的,距离常常用来表示特定类型的相异度。有时,相异度在区间[0,1]中取值,但是相异度在0和∞之间取值也很常见。
2.变换
通常使用变换把相似度转换成相异度或反之,或者把邻近度变换到一个特定区间,如[0,1]。例如,我们可能有相似度,其值域从1到10,但是我们打算使用的特定算法或软件包只能处理相异度,或只能处理[0,1]区间的相似度。之所以在这里讨论这些问题,是因为在稍后讨论邻近度时,我们将使用这种变换。此外,这些问题相对独立于特定的邻近度度量。通常,邻近度度量(特别是相似度)被定义为或变换到区间[0,1]中的值。这样做的动机是使用一种适当的尺度,由邻近度的值表明两个对象之间的相似(或相异)程度。这种变换通常是比较直截了当的。例如,如果对象之间的相似度在1(一点也不相似)和10(完全相似)之间变化,则我们可以使用如下变换将它变换到[0,1]区间:,其中s和s′分别是相似度的原值和新值。一般来说,相似度到[0,1]区间的变换由如下表达式给出:,其中max_s和min_s分别是相似度的最大值和最小值。类似地,具有有限值域的相异度也能用映射到[0,1]区间。这是一个线性变换的例子,它保留了点之间的相对距离。换句话说,如果点x1和x2的距离是x3与x4距离的两倍,那么在线性变换之后也是如此。然而,将邻近度映射到[0,1]区间可能非常复杂。例如,如果邻近度度量原来在区间[0,∞]上取值,则需要使用非线性变换,并且在新的尺度上,值之间不再具有相同的联系。对于从0变化到∞的相异度度量,考虑变换,相异度0、0.5、2、10、100和1000分别被变换到0、0.33、0.67、0.90、0.99和0.999。在原来相异性尺度上较大的值被压缩到1附近,但是否希望如此取决于应用。请注意,将邻近度度量映射到区间[0,1]也可能改变邻近度度量的含义。例如,相关性(稍后讨论)是一种相似性度量,在区间[-1,1]上取值,通过取绝对值将这些值映射到[0,1]区间丢失了符号信息,而对于某些应用,符号信息可能是重要的(见本章习题22)。将相似度变换成相异度或反之也是比较直截了当的,尽管我们可能再次面临保持度量的含义问题和将线性尺度改变成非线性尺度的问题。如果相似度(相异度)落在[0,1]区间,则相异度(相似度)可以定义为d=1-s(或s=1-d)。73另一种简单的方法是定义相似度为负的相异度(或相反)。例如,相异度0,1,10和100可以分别变换成相似度0,-1,-10和-100。负变换产生的相似度结果不必局限于[0,1]区间,但是,如果希望的话,则可以使用变换,s=e^-d或。对于变换,相异度0,1,10,100分别被变换到1,0.5,0.09,0.01;对于s=e-d,它们分别被变换到1.00,0.37,0.00,0.00;对于,它们分别被变换到1.00,0.99,0.90,0.00。在这里的讨论中,我们关注将相异度变换到相似度。相反方向的转换见本章习题23。一般来说,任何单调减函数都可以用来将相异度转换到相似度(或相反)。当然,在将相似度变换到相异度(或相反),或者在将邻近度的值变换到新的尺度时,也必须考虑一些其他因素。我们提到过一些问题,涉及保持意义、扰乱标度和数据分析工具的需要,但是肯定还有其他问题。
2.4.2 简单属性之间的相似度和相异度
通常,具有若干属性的对象之间的邻近度用单个属性的邻近度的组合来定义,因此我们首先讨论具有单个属性的对象之间的邻近度。考虑由一个标称属性描述的对象,对于两个这样的对象,相似意味什么呢?由于标称属性只携带了对象的相异性信息,因此我们只能说两个对象有相同的值,或者没有。因而在这种情况下,如果属性值匹配,则相似度定义为1,否则为0;相异度用相反的方法定义:如果属性值匹配,相异度为0,否则为1。对于具有单个序数属性的对象,情况更为复杂,因为必须考虑序信息。考虑一个在标度{poor,fair,OK,good,wonderful}上测量产品(例如,糖块)质量的属性。一个评定为wonderful的产品P1与一个评定为good的产品P2应当比它与一个评定为OK的产品P3更接近。为了量化这种观察,序数属性的值常常映射到从0或1开始的连续整数,例如,{poor=0,fair=1,OK=2,good=3,wonderful=4}。于是,P1与P2之间的相异度d(Pl,P2)=3-2=1,或者,如果希望相异度在0和1之间取值d(P1,P2)=(3-2)/4=0.25;序数属性的相似度可以定义为s=1-d。序数属性相似度(相异度)的这种定义可能使读者感到有点担心,因为这里假设了属性的连续值之间的间隔相等,而事实并非如此。如果根据实际情况,我们应该计算出区间或比率属性。值fair与good的差真的和OK与wonderful的差相同吗?可能不相同,但是在实践中,我们的选择是有限的,并且在缺乏更多信息的情况下,这是定义序数属性之间邻近度的标准方法。对于区间或比率属性,两个对象之间的相异性的自然度量是它们的值之差的绝对值。例如,我们可能将现在的体重与一年前的体重相比较,说:“我重了10磅。”在这类情况下,相异度通常在0和∞之间,而不是在0和1之间取值。如前所述,区间或比率属性的相似度通常转换成相异度。表2.7总结了这些讨论。其中,x和y是两个对象,它们具有一个指明类型的属性,d(x,y)和s(x,y)分别是x和y之间的相异度和相似度(分别用d和s表示)。尽管其他方法也是可能的,但是表中的这些是最常用的。
下面两节介绍更复杂的涉及多个属性的对象之间的邻近度度量:(1)数据对象之间的相异度;(2)数据对象之间的相似度。这样分节可以更自然地展示使用各种邻近度度量的基本动机。然而,我们要强调的是使用上述技术,相似度可以变换成相异度,反之亦然。
2.4.3 数据对象之间的相异度
本节讨论各种不同类型的相异度。我们从讨论距离(距离是具有特定性质的相异度)开始,然后给出一些更一般的相异度类型的例子。
距离
首先给出一些例子,然后使用距离的常见性质更正式地介绍距离。一维、二维、三维或高维空间中两个点x和y之间的欧几里得距离(Euclidean distance)d由如下熟悉的公式定义:
其中,n是维数,而xk和yk分别是x和y的第k个属性值(分量)。用图2.15、表2.8和表2.9解释该公式,它们展示了这个点集、这些点的x和y坐标以及包含这些点之间距离的距离矩阵(distance matrix)。
式(2.1)给出的欧几里得距离可以用式(2.2)的闵可夫斯基距离(Minkowski distance)来推广:
其中,r是参数。下面是闵可夫斯基距离的三个最常见的例子。
r=1,城市街区(也称曼哈顿、出租车、L1范数)距离。一个常见的例子是汉明距离(Hamming distance),它是两个具有二元属性的对象(即两个二元向量)之间不同的二进制位的个数。
r=2,欧几里得距离(L2范数)。
r=∞,上确界(Lmax或L∞范数)距离。这是对象属性之间的最大距离。更正式地,L∞距离由式(2.3)定义:
注意不要将参数r与维数(属性数)n混淆。欧几里得距离、曼哈顿距离和上确界距离是对n的所有值(1,2,3,…)定义的,并且指定了将每个维(属性)上的差组合成总距离的不同方法。
表2.10和表2.11分别给出表2.8中数据的L1距离和L∞距离的邻近度矩阵。注意,所有的距离矩阵都是对称的,即第ij个项与第ji个项相同,例如,在表2.9中,第4行第1列和第1行第4列都包含值5.1。
距离(如欧几里得距离)具有一些众所周知的性质。如果d(x,y)是两个点x和y之间的距离,则如下性质成立:1) 非负性。(a)对于所有x和y,d(x,y)≥0;(b)仅当x=y时d(x,y)=0。2) 对称性。对于所有x和y,d(x,y)=d(y,x)。3) 三角不等式。对于所有x、y和z,d(x,z)≤d(x,y)+d(y,z)。满足以上三个性质的测度称为度量(metric)。有些人只对满足这三个性质的相异性度量使用术语距离,但在实践中常常违反这一约定。这里介绍的三个性质是有用的,数学上也是令人满意的。此外,如果三角不等式成立,则该性质可以用来提高依赖于距离的技术(包括聚类)的效率(见本章习题25)。尽管如此,许多相异度都不满足一个或多个度量性质。例2.14给出相关测度的例子。例2.14 非度量的相异度:集合差 基于集合论中定义的两个集合差的概念举例。设有两个集合A和B,A-B是不在B中的A中元素的集合。例如,如果A={1,2,3,4},而B={2,3,4},则A-B={1},而B-A=,即空集。我们可以将集合A和B之间的距离定义为d(A,B)=size(A-B),其中size是一个函数,它返回集合元素的个数。该距离测度是大于或等于零的整数值,但不满足非负性的第二部分,也不满足对称性,同时还不满足三角不等式。然而,如果将相异度修改为d(A,B)=size(A-B)+size(B-A),则这些性质都可以成立(见本章习题21)。
2.4.4 数据对象之间的相似度
对于相似度,三角不等式(或类似的性质)通常不成立,但是对称性和非负性通常成立。更明确地说,如果s(x,y)是数据点x和y之间的相似度,则相似度具有如下典型性质。1) 仅当x=y时s(x,y)=1。(0≤s≤1)2) 对于所有x和y,s(x,y)=s(y,x)。(对称性)对于相似度,没有与三角不等式对应的一般性质。然而,有时可以将相似度简单地变换成一种度量距离。稍后讨论的余弦相似性度量和Jaccard相似性度量就是两个例子。此外,对于特定的相似性度量,还可能在两个对象相似性上导出本质上与三角不等式类似的数学约束。例2.15 非对称相似性度量 考虑一个实验,实验中要求人们对屏幕上快速闪过的一小组字符进行分类。该实验的混淆矩阵(confusion matrix)记录每个字符被分类为自己的次数和被分类为另一个字符的次数。使用混淆矩阵,我们可以将字符x和字符y之间的相似性度量定义为x被错误分类为y的次数,但请注意,此度量不是对称的。例如,假定“0”出现了200次,它被分类为“0”160次,而被分类为“o”40次。类似地,“o”出现200次并且被分类为“o”170次,但是分类为“0”只有30次。如果取这些计数作为两个字符之间相似性的度量,则得到一种相似性度量,但这种相似性度量不是对称的。在这种情况下,通过选取,相似性度量可以转换成对称的,其中s′是新的相似性度量。
2.4.5 邻近度度量的例子
本节给出一些相似性和相异性度量的具体例子。
1.二元数据的相似性度量
两个仅包含二元属性的对象之间的相似性度量也称为相似系数(similarity coefficient),并且通常在0和1之间取值,值为1表明两个对象完全相似,而值为0表明对象一点也不相似。有许多理由表明在特定情形下,一种系数为何比另一种好。设x和y是两个对象,都由n个二元属性组成。这样的两个对象(即两个二元向量)的比较可生成如下四个量(频率):
f00=x取0并且y取0的属性个数;
f01=x取0并且y取1的属性个数;
f10=x取1并且y取0的属性个数;
f11=x取1并且y取1的属性个数。
简单匹配系数(Simple Matching Coefficient,SMC) 一种常用的相似性系数是简单匹配系数,定义如下:
该度量对出现和不出现都进行计数。因此,SMC可以在一个仅包含是非题的测验中用来发现问题回答相似的学生。Jaccard系数(Jaccard Coefficient) 假定x和y是两个数据对象,代表一个事务矩阵(见2.1.2节)的两行(两个事务)。如果每个非对称的二元属性对应于商店的一种商品,则1表示该商品被购买,而0表示该商品未被购买。由于未被顾客购买的商品数远大于被购买的商品数,因而像SMC这样的相似性度量将会判定所有的事务都是类似的。这样,常常使用Jaccard系数来处理仅包含非对称的二元属性的对象。Jaccard系数通常用符号J表示,由如下等式定义:
例2.16 SMC和Jaccard相似性系数 为了解释这两种相似性度量之间的差别,我们对如下二元向量计算SMC和J:x=(1,0,0,0,0,0,0,0,0,0)y=(0,0,0,0,0,0,1,0,0,1)
f01=2 x取0并且y取1的属性个数
f10=1 x取1并且y取0的属性个数
f00=7 x取0并且y取0的属性个数
f11=0 x取1并且y取1的属性个数
2.余弦相似度
通常,文档用向量表示,向量的每个组件(属性)代表一个特定的词(术语)在文档中出现的频率。尽管文档具有数以百千计或数以万计的属性(词),但是每个文档向量都是稀疏的,因为它具有相对较少的非零属性值。(文档规范化并不对零词目创建非零词目,即文档规范化保持稀疏性。)这样,与事务数据一样,相似性不能依赖共享0的个数,因为任意两个文档多半都不会包含许多相同的词,从而如果统计0-0匹配,则大多数文档都与其他大部分文档非常类似。因此,文档的相似性度量不仅应当像Jaccard度量一样需要忽略0-0匹配,而且还必须能够处理非二元向量。下面定义的余弦相似度(cosine similarity)就是文档相似性最常用的度量之一。如果x和y是两个文档向量,则
其中′表示向量或者矩阵的转置,表示两个向量的内积:
且||x||是向量x的长度,。两个向量的内积适用于非对称属性,因为它只依赖于两个向量中非零的分量。因此,两个文档之间的相似性只取决于它们中出现的单词。例2.17 两个文档向量的余弦相似度 该例计算下面两个数据对象的余弦相似度,这些数据对象可能代表文档向量:x=(3,2,0,5,0,0,0,2,0,0)y=(1,0,0,0,0,0,0,1,0,2)〈x,y〉=3×1+2×0+0×0+5×0+0×0+0×0+0×0+2×1+0×0+0×2=5||x||=3×3+2×2+0×0+5×5+0×0+0×0+0×0+2×2+0×0+0×0=6.48||y||=1×1+0×0+0×0+0×0+0×0+0×0+0×0+1×1+0×0+2×2=2.45cos(x,y)=0.31如图2.16所示,余弦相似度实际上是x和y之间夹角(余弦)的度量。这样,如果余弦相似度为1,则x和y之间的夹角为0°,并且除长度之外,x和y是相同的:如果余弦相似度为0,则x和y之间的夹角为90°,并且它们不包含任何相同的词(术语)。
式(2.6)可以写成式(2.8)的形式:
其中,。x和y被它们的长度除,将它们规范化到长度为1。这意味着在计算相似度时,余弦相似度不考虑两个数据对象的量值。(当量值是重要的时候,欧几里得距离可能是一种更好的选择。)对于长度为1的向量,余弦度量可以通过简单地取内积计算。从而,在需要计算大量对象之间的余弦相似度时,将对象规范化,使之为单位长度可以减少计算时间。
3.广义Jaccard系数(Tanimoto系数)
广义Jaccard系数可以用于文档数据,并在二元属性情况下归约为Jaccard系数。该系数用EJ表示,由下式定义:
4.相关性
相关性经常被用来测量两组被观察到的值之间的线性关系。因此,相关性可以测量两个变量(高度和重量)之间或两个对象(一对温度时间序列)之间的关系。相关性可以测量类型和取值尺度差异很大的属性间的相似度,如果两个数据对象中的值来自不同的属性,通常更频繁地使用相关性来度量属性之间的相似度。更准确地,两个数据对象例如向量x和y之间的皮尔森相关(Pearson’s correlation)系数由下式定义:
这里使用标准的统计学记号和定义:
例2.18 完全相关 相关度总是在-1到1之间取值。相关度为1(-1)意味x和y具有完全正(负)线性关系,即xk=ayk+b,其中a和b是常数。下面两个x和y的值集分别给出相关度为-1和+1的情况。为简单起见,第一组中取x和y的均值为0。
例2.19 非线性关系 如果相关度为0,则两个数据对象的属性之间不存在线性关系。然而,仍然可能存在非线性关系。在下面的例子中,数据对象的属性之间存在非线性关系yk=x2k,但是它们的相关度为0。
x=(-3,-2,-1,0,1,2,3)y=( 9, 4, 1,0,1,4,9)
例2.20 相关性可视化 通过绘制对应属性值对可以很容易地判定两个数据对象x和y之间的相关性。图2.17给出了一些图,x和y具有30个属性,这些属性的值随机地产生(服从正态分布),使得x和y的相关度从-1到1。图中每个小圆圈代表30个属性中的一个,其x坐标是x的一个属性的值,而其y坐标是y的相同属性的值。
如果通过减去均值,然后规范化使其长度为1来变换x和y,则它们的相关度可以通过求点积来计算。(注意,这与其他情况下使用的标准化不同,比如2.3.7节讨论的先减去均值,并被标准偏差除。)这种变换突出了相关度量和余弦度量之间的有趣关系。特别地,x和y之间的相关性与x′和y′之间的余弦相同。然而,即使x和y与x′和y′具有相同的相关度量,它们之间的余弦也不相同,即使它们都具有相同的相关度量。通常,当两个向量的均值为0时,两个向量之间的相关性仅在特殊情况下等于余弦度量。
5.连续属性度量方法间的差异
我们刚刚定义了三种连续属性的邻近度度量方法:余弦、相关性和闵可夫斯基距离。在这一节中,我们将展示这三个邻近度度量方法之间的差异。具体而言,我们考虑两种常用的数据变换方法,即常数因子缩放(乘)和常数值平移(加法)。如果对数据对象进行数据变换之后,该邻近度度量方法的值保持不变,则该邻近度度量方法被认为对数据变换具有不变性。表2.12比较了余弦、相关性和闵可夫斯基距离度量对于缩放和平移操作的不变性的行为。可以看出,相关性度量对于缩放和平移都有不变性,而余弦度量只对缩放具有不变性。另一方面,闵可夫斯基距离度量对缩放和平移都是敏感的,因此对两者都不具有不变性。
我们用一个例子来说明不同邻近度度量之间的差异的意义。例2.21 比较邻近度度量 考虑下面两个具有七个数值属性的向量x和y。
x=(1,2,4,3,0,0,0)y=(1,2,3,4,0,0,0)
可以看出,x和y都有4个非零值,并且两个向量中的值大部分是相同的,除了第三个和第四个分量。两个向量之间的余弦、相关性和欧几里得距离计算如下:
毫无疑问,x和y具有接近1的余弦和相关度量,而它们之间的欧几里得距离很小,表明它们非常相似。现在我们考虑向量ys,它是y(乘以2的常数因子)的缩放版本,以及向量yt,它是通过将y平移5个单位来构造的,如下所示:
ys=2×y=(2,4,6,8,0,0,0)yt=y+5=(6,7,8,9,5,5,5)
我们感兴趣的是ys和yt是否与原始向量y一样,都跟x邻近度相同。表2.13展示了不同方法计算的向量对(x,y)、(x,ys)和(x,yt)的邻近度。可以看出,即使用ys或yt代替y之后,x和y之间的相关性值保持不变。然而,余弦值在计算(x,y)和(x,ys)时仍然等于0.9667,但当计算为(x,yt)时,余弦值显著降低到0.7940。上诉结果突出展示了与相关性度量相比,余弦只对缩放具有不变性,对平移不具有不变性。另一方面,欧几里得距离对3对向量计算出不同的值,那是因为它对缩放和平移都很敏感。
我们可以从这个例子中观察到,当在数据上应用缩放或平移操作时,不同的邻近度度量表现不同。因此,正确的邻近度度量方法的选择取决于数据对象之间的相似性的特点及对给定应用的意义。例如,如果x和y表示文档项矩阵中不同单词的频率,则使用ys替换y时邻近度保持不变的邻近度度量方法将是有意义的,因为ys只是y的缩放版本,在文档中表示单词出现的分布。然而,yt与y不同,因为它包含大量在y中不存在的非零频率的词。由于余弦对缩放具有不变性,而对平移不具有不变性,因此对这个应用来说余弦将是一个理想的选择。考虑一个不同的场景,其中x代表某地理位置连续七天的摄氏温度。y、ys和yt为使用三种不同的测量尺度在另一位置测量的温度。注意,不同的温度单位具有不同的偏移量(例如,摄氏和开氏温标)和不同的缩放因子87(例如,摄氏度和华氏度)。我们希望使用邻近度度量方法来捕获温度值之间的邻近度,且不受测量尺度的影响。那么,相关性将是该应用的邻近度测量方法的理想选择,因为它对缩放和平移都具有不变性。另一个例子,考虑x代表在7个地点测量的降水量(cm)的情景。y、ys、yt为三种不同的模型预测的在这些位置的降水值。理想情况下,我们希望选择一个模型,准确地重建x中的降水量而不产生任何误差。很明显,y在x中提供了一个很好的近似值,而ys和yt提供了较差的降水估计,尽管它们找到了不同地点的降水趋势。因此,我们需要选择一个邻近度度量方法,惩罚来自实际观测与模型估计中的任何差异,并且对缩放和平移操作都敏感。欧几里得距离满足此属性,因此将是该应用的邻近度度量的正确选择。事实上,欧几里德距离通常用于计算模型的准确性,这将在后面的第3章中讨论。
2.4.6 互信息
与相关性一样,互信息被用作两组成对值之间的相似性度量,该值有时被用作相关性的替代物,特别是在值对之间疑为非线性关系时。这一度量方法来自信息论,它是关于如何正式定义和量化信息的研究。事实上,互信息是一组值对另一组提供多少信息的度量方法,这些值成对地出现,例如高度和重量。如果两组值是独立的,即一组值不包含另一组值的任何信息,则它们的互信息是0。另一方面,如果两组值完全依赖,即知道一组值则能知道另一组值,反之亦然,则它们具有最大互信息。互信息不具有最大值,但我们将定义它的标准化版本,其范围在0到1之间。为了定义互信息,我们考虑两组值X和Y,它们成对出现(X,Y)。我们需要测量一组值中的平均信息,以及它们的值对。这通常用熵来衡量。更具体地,假设X和Y是离散的,也就是说,X可以取m个不同的值,u1,u2,…,um,Y可以取n个不同的值v1,v2,…,vn。然后,它们的个体和联合熵可以根据每个值和一对值的概率来定义:
如果值或组合值的概率为0,则通常将0log2(0)取值为0。X和Y的互信息可以直接定义如下:
注意H(X,Y)是对称的,即H(X,Y)=H(Y,X),因此互信息也是对称的,即I(X,Y)=I(Y)。实际上,X和Y是同一数据集中的两个属性或两行中的值。在例2.22中,两个向量x和y表示这些值,并且利用值或值对出现在x和y中的频率计算每个值或值对的概率(xi,yi),其中xi表示x的第i个元素,yi表示y的第i个元素。下面用前面的例子来说明。例2.22 评估非线性关系的互信息 回忆例2.19,其中yk=x2k,但它们的相关性为0。
x=(-3,-2,-1,0,1,2,3)y=( 9, 4, 1,0,1,4,9)
从图2.18可知,I(x,y)=H(x)+H(y)-H(x,y)=1.9502。虽然多种方法可以用来规范互信息,参见本例的文献注释,我们将应用一种令互信息除以log2(min(m,n))的方法,并产生0到1之间的结果。这产生的值为1.9502log2(4)=0.9751。因此,x和y是强相关的。它们不是完全相关的,因为给定y的值,除了y=0之外,关于x的值有一定的歧义。注意,对于y=-x,归一化互信息将是1。
2.4.7 核函数
很容易理解相似性和距离在诸如聚类之类的应用中可能是有用的,它试图将相似对象分组在一起。更不明显的是,许多其他数据分析任务,包括预测建模和维归约,可以用数据对象的逐对“邻近度”来表示。更具体地,许多数学分析问题可以被数学公式化为输入,例如一个核矩阵K,它可以被认为是一种邻近度矩阵。因此,使用初始预处理步骤将输入数据转换为内核矩阵,该内核矩阵是数据分析算法的输入。更正式地说,如果一个数据集有m个数据对象,那么K是m×m的矩阵。如果xi和xj是第i个和第j个数据对象,则Kij是通过核函数计算的K的第ij个熵:kij=κ(xi,xj)(2.16)正如我们将在下面的材料中看到的,核矩阵的使用允许算法对各种数据的更广泛的适用性,还能扩展仅用于检测线性关系的算法到非线性关系上建模的能力。核使算法数据独立 如果算法使用一个核矩阵,那么它可以与任何类型的数据一起使用,并为该数据设计核函数。算法2.1证明了这一观点。虽然只有一些数据分析算法可以被修改为使用核矩阵作为输入,但是这种方法是非常强大的,因为它允许这样的算法与几乎任何类型的数据一起使用,其中可以为数据定义适当的核函数。因此,一个分类算法可以运用到例如记录数据、字符串数据或图形数据等数据上。如果一个算法可以被重新构造成使用核矩阵,那么它对不同类型的数据的适用性急剧增加。正如将在后面的章节中看到的,许多聚类、分类和异常检测算法只使用相似性或距离,因此,可以很容易地修改为与核函数一起使用。
将数据映射到高维数据空间可以允许非线性关系的建模 基于核的数据分析算法还有另一个同样重要的方面:它们能够用只模拟线性关系的算法来建模非线性关系。通常,这是通过首先将数据从低维数据空间转换(映射)到高维空间来实现的。例2.23 将数据映射到高维度空间 考虑由下面等式给出的两个变量x和y之间的关系,它定义了两个维度的椭圆关系(见图2.19a):
我们可以通过创建3个新的变量u、v和w来映射二维数据到三个维度,这些变量被定义如下:
因此,我们现在可以将式(2.17)表示为线性方程。这个方程描述了一个平面的三个维度。椭圆上的点将位于该平面上,而椭圆内和外的点将位于平面的相对侧。如图2.19b所示,这个3D图的视角是沿着分离平面的表面,使得平面以线的形式出现。
核技巧 上面所示的方法显示了将数据映射到高维空间的价值,该操作对于基于核的方法是必需的。从概念上讲,我们首先定义一个函数φ,将数据点x和y映射到高维空间中的数据点φ(x)和φ(y),使得内积能够给出所期望的x、y邻近度度量的方法。通过使用这样的方法可能会牺牲很多,因为我们大大扩展了数据的大小,增加我们分析的计算复杂性,最终通过计算高维空间中的相似性来解决维数灾难的问题。然而,并不是这样的,因为可以通过定义核函数κ来避免这些问题,该核函数κ可以计算相同的相似性值,但是可以用原始空间中的数据点,即κ(x,y)=<φ(x),φ(y)>。这就是所谓的核技巧。核技巧有一个非常坚实的数学基础,是数据分析领域中一个非常强大的方法。并不是一对数据对象的每一个函数都满足核函数所需的性质,但是可以为各种数据类型设计许多有用的核。例如,三个常见的核函数是多项式、高斯(径向基函数(RBF))和sigmoid核。如果x和y是两个数据对象(特别是两个数据向量),那么这三个核函数可以分别表示如下:
其中,α与c≥0是常数,d是多项式度的整型参数,x-y是向量x-y的长度,σ>0为调整高斯分布的参数。例2.24 多项式核 注意,在前一节中给出的核函数(将数据映射到更高维空间,然后在高维空间计算数据的内积)计算与我们原始数据相同的相似度值。例如,对于度为2的多项式核,让其成为将二维数据向量x=(x1,x2)映射到高维空间的函数。特别地,
对于更高维的空间,将邻近度定义为φ(x)和φ(y)的内积,如<φ(x),φ(y)>。接着,如前所述,可以表示为:
其中,κ是由式(2.19)定义的。具体而言,如果x=(x1,x2)和y=(y1,y2),则
更一般地说,核技巧取决于定义κ和φ,从而使式(2.23)成立。这是为各种各样的核所做的。这种基于核的方法的讨论只是为了简要介绍这个主题,并省略了许多细节。4.9.4节提供了有关基于核方法的更全面的讨论,在用于分类的非线性支持向量机中讨论了这些问题。基于核分析的更翔实的参考资料可以在本章的文献注释中找到。
2.4.8 Bregman散度
本节,我们简略介绍Bregman散度(Bregman divergence),它是一组具有共同性质的邻近函数。这样,可以构造使用Bregman散度的一般数据挖掘算法,如聚类算法,具体的例子是K均值聚类算法(7.2节)。注意,本节需要向量计算方面的知识。Bregman散度是损失或失真函数。为了理解损失函数,考虑如下情况:设x和y是两个点,其中y是原来的点,而x是它的某个失真或近似,例如,x可能是由于添加了一些随机噪声到y上而产生的。损失函数的目的是度量用x近似y导致的失真或损失。当然,x和y越类似,失真或损失就越小,因而Bregman散度可以用作相异性函数。有如下正式定义。定义2.6(Bregman散度) 给定一个严格凸函数Φ(连同一些通常会满足的适度限制),由该函数生成的Bregman散度(损失函数)D(x,y)通过下面的公式给出:
其中,Φ(y)是在y上计算的Φ的梯度,x-y是x与y的向量差,而<Φ(y),(x-y)>是Φ(y)和(x-y)的内积。对于欧几里得空间中的点,内积就是点积。D(x,y)可以写成D(x,y)=Φ(x)-L(x),其中L(x)=Φ(y)+<Φ(y),(x-y)>代表在y上正切于函数Φ的平面方程。使用微积分学的术语,L(x)是函数Φ在y点附近的线性部分,而Bregman散度是一个函数与该函数的线性近似之间的差。选取不同的Φ,可以得到不同的Bregman散度。例2.25 我们使用平方欧几里得距离给出Bregman散度的一个具体例子。为了简化数学计算,我们仅限于一维。设x和y是实数,而Φ(t)是实数值函数,Φ(t)=t2。在此情况下,梯度归结为导数,而点积归结为乘积。例如,式(2.25)变成式(2.26):
该例的图形在图2.20中给出,其中y=1。在x=2和x=3上给出了Bregman散度。
2.4.9 邻近度计算问题
本节讨论与邻近度度量有关的一些重要问题:(1)当属性具有不同的尺度(scale)或相关时如何处理;(2)当对象包含不同类型的属性(例如,定量属性和定性属性)时如何计算对象之间的邻近度;(3)当属性具有不同的权重(即并非所有的属性都对对象的邻近度具有相等的贡献)时,如何处理邻近度计算。
1.距离度量的标准化和相关性
距离度量的一个重要问题是当属性具有不同的值域时如何处理。(这种情况通常称作“变量具有不同的尺度。”)在前面的例子中,使用欧几里得距离,基于年龄和收入两个属性来度量人之间的距离。除非这两个属性是标准化的,否则两个人之间的距离将被收入所左右。一个相关的问题是,除值域不同外,当某些属性之间还相关时,如何计算距离。当属性相关、具有不同的值域(不同的方差),并且数据分布近似于高斯(正态)分布时,欧几里得距离的拓展——Mahalanobis距离是有用的。相关变量对标准距离度量有很大影响,因为任何相关变量的变化反映在所有相关变量的变化中。具体地说,两个对象(向量)x和y之间的Mahalanobis距离定义为:
其中,Σ-1是数据协方差矩阵的逆。注意,协方差矩阵Σ是这样的矩阵,它的第ij个元素是第i个和第j个属性的协方差,由式(2.11)定义。例2.26 在图2.21中有1000个点,其x属性和y属性的相关度为0.6。在椭圆长轴两端的两个大点之间的欧几里得距离为14.7,但Mahalanobis距离仅为6。这是因为Mahalanobis距离不太关注最大方差方向的差异。实践中,计算Mahalanobis距离的代价昂贵,但是对于其属性相关的对象来说是值得的。如果属性相对来说不相关,只是具有不同的值域,则只需要对变量进行标准化就足够了。
2.组合异种属性的相似度
前面的相似度定义所基于的方法都假定所有属性具有相同类型。当属性具有不同类型时,就需要更一般的方法。直截了当的方法是使用表2.7分别计算出每个属性之间的相似度,然后使用一种输出为0和1之间相似度的方法组合这些相似度。一种方法是将总相似度定义为所有属性相似度的平均值。不幸的是,如果某些属性是非对称属性,这种方法的效果不好。例如,如果所有的属性都是非对称的二元属性,则相似性度量先归结为简单匹配系数——一种对于二元非对称属性并不合适的度量。处理该问题的最简单的方法是:如果两个对象在非对称属性上的值都是0,97则在计算对象相似度时忽略它们。类似的方法也能很好地处理缺失值。概括地说,算法2.2可以有效地计算具有不同类型属性的两个对象x和y之间的相似度。修改该过程可以很轻松地处理相异度。
3.使用权值
在前面的大部分讨论中,所有的属性在计算邻近度时都会被同等对待。但是,当某些属性对邻近度的定义比其他属性更重要时,我们并不希望同等对待。为了处理这种情况,可以通过对每个属性的贡献加权来修改邻近度公式。属性权重为wk时,式(2.28)变成:
闵可夫斯基距离的定义也可以修改为:
2.4.10 选择正确的邻近度度量
一些一般观察可能会对你有所帮助。首先,邻近度度量的类型应当与数据类型相适应。98对于许多稠密的、连续的数据,通常使用距离度量,如欧几里得距离等。连续属性之间的邻近度通常用属性值的差来表示,并且距离度量提供了一种将这些差组合到总邻近度度量的良好方法。尽管属性可能有不同的取值范围和不同的重要性,但这些问题通常都可以用前面介绍的方法处理,例如规范化和属性加权。对于稀疏数据,常常包含非对称的属性,通常使用忽略00匹配的相似性度量。从概念上讲,这反映了如下事实:对于一对复杂对象,相似度依赖于它们共同具有的性质数而不是依赖于它们都缺失的性质数目。余弦、Jaccard和广义Jaccard度量对于这类数据是合适的。数据向量还有一些其他特征需要考虑。之前讨论了欧几里得距离、余弦和相关性对于缩放(乘法)和平移(加法)的不变性。这种考虑的实际意义是,余弦更适合于稀疏的文档数据,因为文档向量中只需要考虑数据的缩放,而相关性更适用于时间序列,因为时间序列中数据的缩放和平移都很重要。当两个数据向量的每个特征取值比较接近时,欧几里得距离或其他类型的闵可夫斯基距离是最合适的。在某些情况下,需要使用数据变换或规范化去得到合适的相似性度量。例如,时间序列数据可能具有显著影响相似性的趋势或周期模式。此外,正确地计算相似度还需要考虑时间延迟。最后,两个时间序列可能只在特定的时间周期上相似,例如,气温与天然气的用量之间存在很强的联系,但是这种联系仅出现在取暖季节。实践考虑也是重要的。有时,一种或多种邻近度度量已经在某个特定领域使用,因此,其他人已经回答了应当使用何种邻近度度量的问题。另外,所使用的软件包或聚类算法可能完全限制了选择;如果关心效率,则可能希望选择具有某些性质的邻近度度量,这些性质(如三角不等式)可以用来降低邻近度计算量(见本章习题25)。然而,如果常见的实践或实践限制并未规定某种选择,则正确地选择邻近度度量可能是一项耗时的任务,需要仔细地考虑领域知识和度量使用的目的。可能需要评估许多不同的相似性度量,以确定哪些结果最有意义。
文献注释
理解待分析的数据至关重要,并且在基本层面,这是测量理论的主题。比如说,定义属性类型的初始动机是精确地指出哪些统计操作对何种数据是合法的。我们给出了测量理论的概述,这些源于S.S.Stevens的经典文章[112]。(表2.2和表2.3取自Stevens[113]。)尽管这是最普遍的观点并且相当容易理解和使用,但是测量理论远不止这些。权威的讨论可以在测量理论基础的三卷系列书[88,94,114]中找到。同样值得关注的是Hand[77]的文章,文中广泛地讨论了测量理论和统计学,并且附有该领域其他研究者的评论。许多关于Stevens论文的评论和扩展见文献[66,97,117]。最后,有许多书籍和文章都介绍了科学与工程学特定领域中的测量问题。数据质量是一个范围广泛的主题,涉及使用数据的每个学科。精度、偏置、准确率的讨论和一些重要的图可以在许多科学、工程学和统计学的导论性教材中找到。数据质量“适合使用”的观点在Redman[103]中有更详细的解释。对数据质量感兴趣的人一定也会对MIT的总体数据质量管理计划[95,118]感兴趣。然而,处理特定领域的数据质量问题所需要的知识最好是通过考察该领域的研究者的数据质量实践得到。与其他预处理任务相比,聚集是一个不够成形的主题。然而,聚集是数据库联机分析处理(OLAP)[68,76,102]领域使用的主要技术之一。聚集在符号数据分析领域也起到了一些作用(Bock和Diday[64])。该领域的一个目标是用符号数据对象汇总传统的记录数据,而符号数据对象的属性比传统属性更复杂。例如,这些属性的值可能是值的集合(类别)、区间、具有权重的值的集合(直方图)。符号数据分析的另一个目标是能够在由符号数据对象组成的数据上进行聚类、分类和其他类型的数据分析。抽样是一个已经在统计学及其相关领域中透彻研究的主题。许多统计学导论性书籍(如Lindgren[90])中都有关于抽样的讨论,并且还有通篇讨论该主题的书,如Cochran的经典教科书[67]。Gu和Liu[74]提供了关于数据挖掘抽样的综述,而Olken和Rotem[98]提供了关于数据库抽样的综述。还有许多涉及数据挖掘和数据库抽样的文献也值得关注,包括Palmer和Faloutsos[100]、Provost等[101]、Toivonen[115]、Zaki等[119]。在统计学中,已经用于维归约的传统技术是多维定标(MDS)(Borg和Groenen[65],Kruskal和Uslaner[89])和主成分分析(PCA)(Jolloffe[80]),主成分分析类似于奇异值分解(SVD)(Demmel[70])。维归约详见附件B。离散化是一个已经在数据挖掘领域广泛讨论的主题。有些分类算法只能使用分类属性,并且关联分析需要二元数据,这样就有了重要的动机去考察如何最好地对连续属性进行二元化或离散化。对于关联分析,建议读者阅读Srikant和Agrawal[111],而分类领域离散化的一些有用的参考文献包括Dougherty等[71]、Elomaa和Rousu[72]、Fayyad和Irani[73]以及Hussain等[78]。特征选择是另一个在数据挖掘领域被彻底研究的主题,Molina等的综述[96]以及Liu和Motada的两本书[91,92]提供了涵盖该主题的广泛资料。其他有用的文章包括Blum和Langley[63]、Kohavi和John[87]和Liu等[93]。很难提供特征变换主题的参考文献,因为不同学科的实践差异很大。许多统计学书籍都讨论了变换,但是通常都限于特定的目的,如确保变量的规范性,或者确保变量具有相等的方差。我们提供两个参考文献:Osborne[99]和Tukey[116]。尽管已经讨论了一些最常用的距离和相似性度量,但是还有数以百计的这样的度量,并且更多的度量正在被提出。与本章的其他许多主题一样,许多度量都局限于特定的领域,例如,在时间序列领域,见Kalpakis等[81]、Keogh和Pazzani[83]的文章。聚类方面的书提供了最好的一般讨论,特别是如下书籍:Anderberg[62]、Jain和Dubes[79]、Kaufman和Rousseeuw[82]以及Sneath和Sokal[109]。尽管基于信息的相似性度量的计算难度大且计算代价高,但是它最近却变得越来越流行。Cover和Thomas[69]很好地阐述了信息理论。如果连续变量遵循一个如高斯等常见的分布,则该连续变量的互信息的计算比较简单。然而,实际情况往往比较复杂,因此许多新技术被提出。Khan等人的文章[85]在短时间序列上研究比较了被提出的各种方法。参见R和Matlab的相关信息包。Resher等人最近发表的论文[104,105]让互信息备受关注。该论文提出了基于互信息的方法,该方法具有很优越的性能。在论文发表初期,得到了一些支持[110],但是也有研究者提出了该方法的局限性[75,86,108]。两本较流行的介绍核方法的书籍是文献[106]和文献[107]。后者还给出一个与核方法相关的网站[84]。此外,当前许多数据挖掘、机器学习和统计学习教材都有一些关于核方法的介绍。关于核方法在支持向量机中的使用的参考文献见4.9.4节。
参考文献
习题
1.在第2章的第一个例子中,统计人员说:“是的,字段2和3也有不少问题。”从所显示的三行样本数据,你能解释她为什么这样说吗?2.将下列属性分类成二元的、离散的或连续的,并将它们分类成定性的(标称的或序数的)或定量的(区间的或比率的)。某些情况下可能有多种解释,因此如果你认为存在二义性,简略给出你的理由。例子:年龄。回答:离散的、定量的、比率的。(a) 用AM和PM表示的时间。(b) 根据曝光表测出的亮度。(c) 根据人的判断测出的亮度。(d) 按度测出的0和360之间的角度。(e) 奥运会上授予的铜牌、银牌和金牌。(f) 海拔高度。(g) 医院中的病人数。(h) 书的ISBN号(查找网上的格式)。(i) 用如下值表示的透光能力:不透明、半透明、透明。(j) 军衔。(k) 到校园中心的距离。105(l) 用每立方厘米克表示的物质密度。(m) 外套寄存号码。(出席一个活动时,你通常会将外套交给服务生,然后他给你一个号码,你可以在离开时用它来领取你的外套。)3.某个地方公司的销售主管与你联系,他相信他已经设计出了一种评估顾客满意度的完美方法。他这样解释他的方案:“这太简单了,我简直不敢相信,以前竟然没有人想到,我只是记录顾客对每种产品的抱怨次数,我在数据挖掘书中读到计数具有比率属性,因此,我的产品满意度度量必定具有比率属性。但是,当我根据顾客满意度度量评估产品并拿给老板看时,他说我忽略了显而易见的东西,说我的度量毫无价值。我想,他简直是疯了,没发现我们的畅销产品满意度最差,因为对它的抱怨最多。你能帮助我摆平他吗?”(a) 谁是对的,销售主管还是他的老板?如果你的回答是他的老板,你需要做些什么来修正满意度度量?(b) 对于原来的产品满意度度量的属性类型,你的想法是什么?4.几个月之后,习题3中提到的那个销售主管又同你联系。这次,他设计了一个更好的方法,用以评估顾客喜爱一种产品超过喜爱其他类似产品的程度。他解释说:“在开发一种新产品时,我们通常创建一些变种并评估顾客更喜欢哪一种。我们的标准做法是同时散发所有的产品变种并要求他们根据喜爱程度对产品变种划分等级,然而,我们的评测题目很不明确,当有两个以上产品时尤其如此,这让测试占用了很长的时间。我建议对产品逐对比较,然后使用这些比较来划分等级,这样,如果我们有3个产品变种,我们就让顾客比较变种1和2,然后是2和3,最后是3和1。使用我的方法,评测时间是原来的三分之一,但是进行评测的雇员抱怨说,他们不能从评测结果得到一致的等级评定。昨天,我的老板想要知道最新的产品评估。另外我还得告诉你,老的产品评估方法就是他提出的。你能帮助我吗?”(a) 销售主管是否陷入困境?他的方法能够根据顾客的喜好产生产品变种的有序等级吗?解释你的观点。106(b) 是否有办法修正销售主管的方法?对于基于逐对比较创建序数度量,你做何评价?(c) 对于原来的产品评估方案,每个产品变种的总等级通过计算所有评测题目上的平均值得到,你是否认为这是一种合理的方法?你会采取哪种方法?5.标识号对于预测是有用的,你能想象出一种情况吗?6.一位教育心理学家想使用关联分析来分析测试结果。测试包含100个问题,每个问题有4个可能的答案。(a) 如何将该数据转换成适合关联分析的形式?(b) 能得到何种属性类型以及有多少个属性?7.下面哪种量更可能具有时间自相关性:日降水量和日气温?为什么?8.讨论:为什么文档词矩阵是具有非对称的离散特征或非对称的连续特征的数据集?9.许多科学领域依赖于观测而不是(或不仅是)设计的实验,比较涉及观测科学与实验科学和数据挖掘的数据质量问题。10.讨论测量精度与术语单精度和双精度之间的差别。在计算机科学,单精度和双精度通常分别表示32位和64位浮点数。11.对于处理存放在文本文件而不是二进制格式中的数据,给出至少两个优点。12.区别噪声和离群点。确保考虑以下问题:(a) 噪声曾令人感兴趣或使人期望吗?离群点呢?(b) 噪声对象可能是离群点吗?(c) 噪声对象总是离群点吗?(d) 离群点总是噪声对象吗?(e) 噪声能将典型值变成例外值吗?反之呢?10713.考虑发现数据对象的K个最近邻问题。某个程序员为该任务设计了算法2.3。(a) 如果数据集中存在重复对象,讨论该算法可能存在的问题。假定对于相同的对象,距离函数只返回距离0。(b) 如何解决该问题?
14.对亚洲象群的成员测量如下属性:重量、高度、象牙长度、象鼻长度和耳朵面积。基于这些测量,可以使用2.4节的哪种相似性度量来对这些大象进行比较或分组?论证你的答案并说明特殊情况。15.给定m个对象的集合,这些对象划分成K组,其中第i组的大小为mi。如果目标是得到容量为n(a) 从每组随机地选择n×mi/m个元素。(b) 从数据集中随机地选择n个元素,而不管对象属于哪个组。16.考虑一个文档词矩阵,其中tfij是第i个词(术语)出现在第j个文档中的频率,而m是文档数。考虑由下式定义的变量变换:
其中,dfi是出现第i个词的文档数,称作词的文档频率(document frequency)。该变换称作逆文档频率(inverse document frequency)变换。(a) 如果词出现在一个文档中,该变换的结果是什么?如果术语出现在每个文档中呢?(b) 该变换的目的可能是什么?17.假定我们对比率属性x使用平方根变换,得到一个新属性x'。作为分析的一部分,你识别出区间(a,b),在该区间内,x'与另一个属性y具有线性关系。(a) 换算成x,(a,b)的对应区间是什么?(b) 给出y关联x的方程。18.本习题比较和对比某些相似性和距离度量。(a) 对于二元数据,L1距离对应于汉明距离,即两个二元向量不同的位数。Jaccard相似度是两个二元向量之间相似性的度量。计算如下两个二元向量之间的汉明距离和Jaccard相似度。x=0101010001y=0100011000(b) Jaccard相似度与汉明距离哪种方法更类似于简单匹配系数,哪种方法更类似于余弦度量?解释你的结论。(注意:汉明度量是距离,而其他三种度量是相似性,但是不要被这一点所迷惑。)(c) 假定你正在根据共同包含的基因的个数比较两个不同物种的有机体的相似性。你认为哪种度量更适合用来比较构成两个有机体的遗传基因,是汉明距离还是Jaccard相似度?解释你的结论。(假定每种动物用一个二元向量表示,其中如果一个基因出现在有机体中,则对应的属性取值1,否则取值0。)(d) 如果你想比较构成相同物种的两个有机体的遗传基因(例如,两个人),你会使用汉明距离、Jaccard系数,还是一种不同的相似性或距离度量?解释原因。(注意,两个人的相同基因超过99.9%。)19.对于下面的向量x和y,计算指定的相似性或距离度量。(a) x=(1,1,1,1),y=(2,2,2,2),计算余弦、相关性、欧几里得。(b) x=(0,1,0,1),y=(1,0,1,0),计算余弦、相关性、欧几里得、Jaccard。(c) x=(0,-1,0,1),y=(1,0,1,0),计算余弦、相关性、欧几里得。(d) x=(1,1,0,1,0,1),y=(1,1,1,0,0,1),计算余弦、相关性、Jaccard。(e) x=(2,-1,0,2,0,-3),y=(-1,1,-1,0,0,-1),计算余弦、相关性。20.这里,进一步考察余弦度量和相关性度量。(a) 对于余弦度量,可能的值域是什么?(b) 如果两个对象的余弦度量为1,它们相等吗?解释原因。(c) 如果余弦度量与相关性度量有关系的话,有何关系?(提示:在余弦和相关性相同或不同情况下,考虑诸如均值、标准差等统计量。)(d) 图2.22a显示100000个随机生成的点的余弦度量与欧几里得距离之间的关系,这些点已经规范化,L2的长度为1。当向量的L2长度为1时,关于欧几里得距离与余弦相似性之间的关系,你能得出什么样的一般观测结论?
(e) 图2.22b显示100000个随机生成的点的相关性度量与欧几里得距离之间的关系,这些点已经标准化,具有均值0和标准差1。当向量已经标准化,具有均值0和标准差1时,关于欧几里得距离与相关性之间的关系,你能得出什么样的一般观测结论?(f) 当每个数据对象的L2长度为1时,推导余弦相似度与欧几里得距离之间的数学关系。(g) 当每个数据点通过减去均值并除以其标准差标准化时,推导相似度与欧几里得距离之间的数学关系。21.证明下列给出的集合差度量满足2.4.3节的度量公理:
其中,A和B是集合,A-B是集合差。22.讨论如何将相关值从区间[-1,1]映射到区间[0,1]。注意,你所使用的变换类型可能取决于你的应用。因此,考虑两种应用:对时间序列聚类,给定一个时间序列预测另一个的性质。23.给定一个在区间[0,1]取值的相似性度量,描述两种将该相似度变换成区间[0,∞]中的相异度的方法。24.通常,邻近度定义在一对对象之间。(a) 阐述两种定义一组对象之间邻近度的方法。(b) 如何定义欧几里得空间中两个点集之间的距离?(c) 如何定义两个数据对象集之间的邻近度?(除邻近度定义在任意一对对象之间之外,对数据对象不做任何假定。)25.给定欧几里得空间中一个点集S,以及S中每个点到点x的距离。(x是否属于S并不重要。)(a) 如果目标是发现点y(y≠x)指定距离ε内的所有点,解释如何利用三角不等式和已经计算得到的到x的距离,来减少必需的距离计算数量。提示:三角不等式d(x,z)≤d(x,y)+d(y,x)可以写成d(x,y)≥d(x,z)-d(y,z)。(b) x和y之间的距离对距离计算的数量有何影响?(c) 假定你可以从原来的数据点的集合中发现一个较小的子集S′,使得数据集中的每个点至少到S′中一个点的距离不超过指定的ε,并且你还得到了S′中每对点之间的距离矩阵。描述一种技术——使用这些信息,以最少的距离计算量,从数据集中计算到一个指定点距离不超过β的所有点的集合。26.证明1-Jaccard相似度是两个数据对象x和y之间的一种距离度量,该度量满足2.4.3节的度量公理。具体地,d(x,y)=1-J(x,y)。27.证明定义为两个数据向量x和y之间夹角的距离度量满足2.4.3节的度量公理。具体地,d(x,y)=arccos(cos(x,y))。28.解释为什么计算两个属性之间的邻近度通常比计算两个对象之间的相似度简单。
文章
数据挖掘 · 算法 · 编解码 · 数据采集 · 数据库
2019-11-18
【智驾深谈】自动驾驶潜在突破点:传感器与车载集成系统(万字干货)
近来,采埃孚(ZF)收购激光雷达公司Ibeo的40%股权,Velodyne旗下激光雷达公司Velodyne LiDAR获福特汽车和百度联合注资1.5亿美元。Mobileye宣布终止与特斯拉的合作,不再为特斯拉Autopilot系统提供EyeQ系列芯片支持,转而与英特尔、宝马共同开发无人驾驶汽车技术和技术平台。这些智能车圈的热点事件背后,是自动驾驶技术快速发展道路上的车载传感器、核心部件、计算平台等资源的整合,智能车辆研发进入关键节点上、面向实用化的技术突破方面的考虑。
本文从工程实践角度,总结历届智能车大赛中无人驾驶技术进展,从几个潜在的突破点出发探讨了自动驾驶/无人驾驶技术的实用化内容,聚焦环境感知技术及车载传感器、车辆系统集成、V2X和车联网、高精度定位和地图技术、深度学习和计算平台等方面,其内容可供智能车辆研发者参考。
1、引言
1.1 从智能车挑战赛看中国智能车发展情况
从2009开始,在国家自然科学基金委“视听觉信息的认知计算”重大研究计划支持下,分别在西安、鄂尔多斯、赤峰、常熟等地举办了七届“中国智能车未来挑战赛”。智能车挑战赛是现有的国内外唯一专门面向无人驾驶的赛事,对中国无人驾驶车辆研究起到很大的推动作用。
历届中国智能车未来挑战赛
在前几届比赛中,参赛无人车辆行驶还比较慢,需要较多的人工干预。在2013年之后,国内相关研究单位取得了较大进步,参赛无人车辆已能在真实交通环境中进行顺畅地自主驾驶,与其他车辆进行交互。在诸多研究单位中,涌现出了清华大学、国防科技大学、同济大学、上海交大、军事交通学院、西安交通大学、北京理工、北京联合大学、南京理工大学、中科院合肥物资研究院、武汉大学、湖南大学等知名团队。这些团队已经和一汽集团、上汽集团、广汽集团、比亚迪和长城汽车等国内众多车企开展了许多深度合作。
不同年份中国无人驾驶车辆差异对比:
(a)2009年参赛无人车辆
(b)2015年参赛无人车辆
从上图可以看出,2009年参赛无人车辆都是在现有商用车上经过加装外置传感器和外置控制器等设备改装而成。而在2015年参赛的部分无人车辆则体现了研究单位与车企深度合作的结果,已经将大部分传感器内置并结合车载总线进行了控制和深度改造。除此之外,国内IT巨头们也纷纷投入无人驾驶研究,例如乐视已在多处开展研发,百度与宝马合作的无人驾驶车辆已经在北京的环路上进行了测试,长安汽车从重庆到北京进行了长途无人驾驶测试,这些车辆体现了不同等级智能化程度。在后续能够集成人工智能研究最新成果,有望引领中国智能汽车发展。
IT企业和车企也投入智能车辆研发
1.2 无人驾驶面临问题及潜在的突破点
虽然国内外的智能车辆研究取得了极大的进展,但是从近期的谷歌无人驾驶汽车和特斯拉自动驾驶汽车的事故来看,相关技术实用化还面临多重挑战。其中,最为关键的是如何提高环境感知精确程度,在环境感知能力上突破。在此基础上,特别是针对许多突发的交通场景,无人车辆需要进行智能决策和处理。
无人驾驶车辆的环境感知
本文探讨了无人驾驶技术几个潜在突破点:
首先,需要面向自动驾驶功能进行传感感器选择和优化配置。由于交通环境的复杂性,需要高精度的传感器进行环境检测。现阶段传感器均受其工作范围限制以及气候环境因素和车辆运动的干扰,无法保证所有情况下的保证安全驾驶的行车要素的准确检出。以激光雷达为典型的外部传感器价格昂贵,极大限制了实际大范围应用。所以,需要面向复杂环境感知需求,集成低价、性能优秀的车内和车外传感器,发挥各传感器的优势,在合适的成本基础上,按照不同等级的自动驾驶功能需求进行自身姿态和周边驾驶环境感知的传感器选择和优化配置。
其次,需要面向自动驾驶重新设计的车载集成系统。结合全新自动驾驶架构设计,结合集成化控制系统和新型总线分布,对自动驾驶功能进行扩展和集成。通过集成更优秀感知和决策算法的车载软件,使得自动驾驶系统具备更高安全性和鲁棒性。
再次,需要V2X无线网络支持。通过车联网络实现信息共享和传感器视距和感知范围扩展。需要高精度GPS定位和高精度的3D地图支持,降低对高精度环境感知的要求,降低实现高级自动驾驶系统的难度。
此外,需要高性能计算平台支持。通过集成高性能车载计算平台,结合深度学习技术,扩展车辆智能化水平。通过接入远程智能服务实现智能扩展与共享,将人工智能技术的新突破应用于无人驾驶。
2、面向不同等级的自动驾驶进行传感感器优化配置
现阶段常用的外部传感器,只在某些特定情况下适用,精确感知需要进行多传感器信息融合。例如,毫米波雷达可以准确检测前方车辆的距离和速度,具备较强的穿透雾、烟、灰尘的能力;但无法对目标进行细化识别。而相机视觉系统可以获得车道线、交通信号等目标的颜色和形状等细节,从而进行深度识别。但是相机视觉系统的测距能力没有激光雷达精确。激光雷达通过点云来建立周边环境的3D模型,可以检测出包括车辆、行人、树木、路缘等细节。所以,通过激光雷达或毫米波雷达与视觉传感器进行融合,不仅可以进行目标物体检测,而且还能进行目标空间测距,目标图像识别等功能。类似,GPS定位、视觉传感器和激光雷达进行融合,则可以实现车道保持所需的高精度定位,也能实现多类障碍物目标检测。
基于激光雷达等传感器的环境感知模型
近期特斯拉汽车事故说明要做到高级自动驾驶仅靠单类传感器则难以实现,而是需要多种传感器融合,特别是关键性传感器不能减配。无人驾驶汽车的车载传感器配置可作为完整性参考方案。
1、车载传感器选择参数
在选择车载传感器时,一般需要综合考虑多个方面的属性,包括传感器精度、分辨率、灵敏度、动态范围、传感器视角、主动与被动传感器、时间精度和输出接口。以及误报率、温度适应性、黑暗适应性、不良天气适应性、硬件成本、信号处理能力等。表1是常见的几类传感器综合指标,包括超声波雷达、激光雷达、毫米波雷达、摄像头、红外探头等,可以综合考虑加以选取配置。
表1. 车载传感器指标对比
传感器
指标项
激光雷达
毫米波雷达
24G/77G
视觉相机
红外
超声波
前向
全向
单目
双目
精度
优
优
良
一般
优
一般
一般
分辨率
优
优
良
一般
优
一般
一般
灵敏度
优
优
优
良
优
良
一般
动态范围
优
良
优
一般
良
良
一般
传感器视角
良
优
一般
良
良
良
一般
主动与被动
主动
主动
主动
被动
被动
被动
主动
时间精度
优
良
优
良
一般
良
一般
误报率
良
良
优
良
良
良
良
温度适应性
优
优
优
优
优
良
良
黑暗适应性
优
优
优
一般
一般
优
优
天气适应性
良
良
优
一般
一般
一般
良
硬件成本
高
高
中
低
中
低
低
处理能力
优
优
优
良
优
良
一般
输出接口
优
优
良
良
良
良
一般
注:
(1)传感器精度:真实值和传感器的测量值之间的误差,取决于外部干扰等因素。
(2)传感器分辨率:两次测量值之间的最小方差,通常比传感器的实际精度更低。
(3)传感器灵敏度:可检测或测量的最小值。
(4)传感器的动态范围:最小以及可以准确地报告最大值。
(5)传感器视角:描述传感器可以看到的视场角度。
(6)主动与被动传感器:有源传感器主动感测环境,无源传感器则比较依赖环境条件。
(7)传感器时间精度:传感器的刷新速率和测量带宽变化频率
(8)传感器输出接口:输出模拟电压,电流,数字信号,串口或网络数据流等方式。
(9)低误报率:由于噪声、干扰等引起检测结果误报的比例。
(10)温度适应性:是否能在不同温度条件下正常工作。
(11)黑暗适应性:是否能在不同光照条件下正常工作。
(12)不良天气适应性:是否能在下雨、扬尘、潮湿等天气中正常工作。
(13)低成本硬件:传感器硬件价格成本。
(14)信号处理能力:传感器数据量。
2、实现不同等级的自动驾驶所需传感感器
在不同等级的自动驾驶功能实现中,通过对雷达、激光雷达、视觉相机(单目、双目和红外)、超声波等常见传感器的优劣势分析,最终形成适当的车载传感器配置。
表2. 实现不同自动驾驶功能所需传感器及感知参数分析
如下图所示,要实现典型的自动驾驶功能,要求车载传感器能够覆盖长、短距检测、兼顾日夜行驶等需求。典型方案中要求配备毫米波雷达传感器6个(超长距前窄角1个,中距前窄角1个,后/侧面广角4个)、红外夜视传感器1个(长距前窄角)、图像摄像头6个(长距前窄角1个,短距广角后方1个、侧面4个)、以及超声波传感器4个(前/后侧短距广角)。
实现自动驾驶系统所需的车载传感器配置
而要实现无人驾驶,除了上述传感器之外,还需要选配高精度GPS定位系统及高精度测距传感器,还需要应对复杂路况的各类激光雷达传感器等。如图5所示,参加DARPA Urban Challenge比赛的Stanford 大学“Junior”无人车,则在大众SUV基础上,配备5个激光雷达(IBEO,Riegl,SICK和Velodyne),1个Applanix GPS惯性导航系统,5个BOSCH毫米波雷达,以及前向相机系统。
Junior无人驾驶车辆及其传感器配置
Junior无人驾驶车辆定位通过Applanix POS LV 420集成惯性导航系统实现,包括GPS方位航向测量、高性能惯性测量单元、车轮里程计(DMI)和OMNISTAR卫星虚拟基站服务,提供低于100厘米和0.1度的实时位置和方向误差。2个侧向的SICK LMS 291-S14激光雷达和1个前向的RIEGL LMS-Q120激光雷达提供3D道路结构和车道标线检测,并进行车辆高精度定位。1个车顶64线Velodyne HDL-64E激光雷达用于障碍物和移动车辆检测,形成水平方向360度和垂直方向30度视域的扫描数据,由车尾的2个SICK LDLRS激光雷达和前保险杠2个 IBEO ALASCA XT激光雷达进行视野补充。5个安装在前格栅的BOSCH长距离雷达(LRR2)提供周围移动车辆的检测信息。由两个英特尔四核服务器通过一个千兆以太网进行连接来提供传感器融合等车载计算服务。
3、通过车载传感器集成与智能化降低整体费用
通过车载传感器集成与智能化与能够突破自动驾驶技术所需的环境感知基础支撑,通过配置优秀和价格低廉的车载传感器,实现环境感知,推进无人驾驶技术进展。如图6所示,现有的车载传感器通过各类总线技术进行集成和配置,再通过传感器信息的智能化处理,输出自动驾驶所需的环境感知信息。
车载传感器集成与智能化
同样,智能车辆也需要从车身内的传感器的智能化与集成内容入手,分析实现自动驾驶需要哪些车载传感器。通过融合车载的IMU、车头指向设备和GPS等传感器进行车辆位姿精确感知,实现车辆控制。
现有车辆设计还没有考虑智能化需求,车身载传感器的种类较多,分布在各个子系统中,有一些传感器重复使用。下一阶段,更多考虑智能化功能需求,并且通过传感器的微型化、多功能和智能化、集成化发展。通过MEMS传感器实现微型化;通过集成多功能、减少车载传感器数量,提高车辆姿态感知可靠性;通过传感器与微处理器结合集成智能化处理算法,减少ECU复杂度。通过传感器总线集成,可以实现车身传感器信息共享,降低了成本。例如,速度传感器、加速度传感器、加速踏板位置传感器、节气门位置传感器、方向盘转角传感器等信息,可以智能车辆的各个子控制系统功能模块中共享。
车载自身姿态感知传感器方案
3、扩展环境感知能力和降低对传感器依赖
3.1通过V2X车辆联网扩展智能车环境感知能力
通过V2X应用可以扩展车载传感器感知范围,通过多车之间沟通各自速度、加减速和转向等信息,提高自动驾驶安全性,为交通的可预测和管控提供基础。通过V2X应用广播前车的环境感知结果,使得施工、交通事故、道路异物、坑洞和路滑等情况可以预先告知后车,有效提高自动驾驶安全。使智能车辆的环境感知范围扩大,不再受限于车载传感器的视距范围限制,减少了多变的天气和复杂环境因素影响。
基于V2X技术扩展智能车辆感知能力
通过V2X网络互联到云端,可以获得更大范围的环境信息,扩展了实时导航和路径规划等服务。在没有网络信号的地方,通过本地通讯服务,在几百米范围内形成车间局域网络,形成一个几公里范围的视野,更容易实现安全的自动驾驶。
现阶段较多采用IEEE802.11P等短距通讯来构建DSRC短程车间网络,更大范围的网络基于LET-V等技术来构建,还包括LTE标准(LTE V2X)技术,通过LTE-Direct (LTE-D)技术能寻找500m内数千车载设备并提供服务,让最接近的LTE-D设备实现通讯。此外,正在发展中的5G网路技术也可为车载应用构建基础支撑。DSRC之类短距通讯已经开展并通过了一系列的现场测试,进入实际部署工作;而LTE V2X等新技术还在开发阶段,需要制定新标准和开展更多测试。
3.2基于高精度定位和3D高精度地图支持降低对传感器依赖
智能车辆都采用GPS或者北斗等全球定位系统进行定位和导航,现阶段还需要提高定位系统的精度,提供高精度导航地图来满足自动驾驶需求。通过提供厘米级的定位以及应对复杂驾驶环境的精确三维地图数据,智能车辆获得最佳行车路线,地形特征,位置映射等,方便进行动态目标检测和障碍物检测等,极大降低对传感器依赖。
1、高精度定位系统
民用级GPS在接收到4个或更多卫星时能提供约为十米级的定位精度,差分GPS((Differential Global Positioning System)通过在位置已经精确测定的已知点上配备一台 GPS 接收机作为固定地面参考点,参考点和定位设备间利用广播等方式增加一步位置修正,可以达到米级定位精度。要实现厘米级精度的定位,还需要将GPS设备和高精度惯性测量单元(IMU)结合起来,GPS提供高精度定位数据,惯性测量单元提供高频率采集数据。例如,在自动驾驶方案中采用Applanix POS的系统提供多双频GPS接收信息实时集成,包括GPS方位航向测量、高性能惯导测量单元(6自由度、安装靠近后轴处)、车轮里程计(DMI)、OMNISTAR卫星虚拟基站服务等,系统实时位置误差通常可低于100厘米,方向误差低于0.1度。这些高精度定位方法成本较贵,限制了实际大范围应用。后续需要集成基于低功耗、低价、微小型智能定位传感器,提供高精度定位服务。
Applanix POS LV420系统
2、高精度导航地图
目前所用导航地图所提供信息的精细程度还无法满足自动驾驶要求。通过采用激光雷达获取三维点云数据,并进行人工标记之后建立路面模型,包含道路上较为全面的交通标志、交通信号灯等信息,还包括车道线位置、数量和宽度等信息,包括道路坡度和斜率等,还包括车道限高、下水道口、障碍物以及其他道路上一些细节。地图既可以提供当前道路的静态环境模型,也可以通过预先存储的点云和图像特征数据来提供高精度定位。
在高精度地图技术路线中,一类是谷歌和Here的激光雷达和摄像头获取3D点云数据测量的地图,在点云数据基础上进而建模分类得到高精度地图。另外一类是通用、大众联手Mobileye的RoadBook众包地图,通过车辆摄像头和GPS,结合本地以及云端软件来开展高精度地图服务。
高精度地图需要使用高精度激光雷达,收集数据后进行人工标记才能使用,比较耗时费力,测绘成本较高,不会频繁更新数据,实用性下降。采用众包方式收集数据,通过每辆车载终端得到车道线、各项道路标志以及道路上的基础交通设施等信息发送云端,虽然精度不如激光雷达测定,但通过增加数据量来提高精度,可以降低成本,并且实时更新地图。例如,Mobileye通过EyeQ4系统上增加更多检测设备并整合其软件系统,结合道路经验管理系统(RoadExperience Management,REM),利用深度学习技术来对道路上各种行车要素的识别和采集,最后构建Roadbook。REM根据驾驶环境来综合分析路况,如前车运动轨迹、路边静止的物体等信息,得到合适的可行驶路线。所采集信息在本地进行预处理之后得到近处以一维数据为主的表示,结合必要的三维数据,最终让地图信息保持较小规模,方便及时上传与下载更新。通过多车辆的学习和完善,云端系统将会比人类驾驶员更熟练地处理复杂交通场景,有利于克服自主驾驶面临的困难挑战。
图10.Roadbook高精度导航地图
高精度地图是实现自动驾驶和无人驾驶不可或缺的基础支撑,许多企业开始开发定制化地图,包括Here(奥迪宝马和戴姆勒)发布的HDLive地图、Mobileye发布RoadBook、TOMTOM为苹果、Uber和Bosch提供地图数据,发布RoadDNA,大陆的RoadDB(RoadDatabase),以及车企如丰田推出的全新地图绘制技术,国内百度、高德、四维图新和武汉光庭等公司开发的高精度地图等。
4、面向自动驾驶的车载集成系统
通过全新的面向智能车辆的架构设计,结合集成化控制系统和新型总线,将传感器和智能计算单元进行配置和集成,将可为自动驾驶提供基础架构支撑。
4.1面向自动驾驶的新型车辆总线控制架构
无人驾驶技术离不开车载控制系统的深度集成,由于车企保护做法,许多车辆总线系统还没对外开放,现在还有许多实现方案是不对原车做任何改动,直接附加一套电机装置,类似于ADAS测试中使用的ADB机器人,但这种方法安全性极低。自动驾驶车辆的执行器改装主要分为转向、制动和油门改装等部分。由于没有车企的支持,现有一些自动驾驶方案中还是通过外加转向机器人、制动机器人和油门机器人的方式来实现对车的控制。由于这类改装方式,需要外部控制系统,例如刹车采用电机拉动钢丝绳,钢丝绳连在刹车踏板上,刹车的反应时间增加,可靠性和实时控制都降低,无法体现无人驾驶的优势。
设计复杂的自动驾驶机器人
而基于线控技术集成的自动驾驶系统将极大提高智能车辆的可靠性和操控性能。自动驾驶方案中动力、转向和制动(部分还包括悬挂)三个系统需要X-by-wire线控技术。得到车企和博世等零部件供应商支持的自动驾驶方案中,能够通过车辆内部CAN通信的方式实现对EPS、ESP等执行机构的准确控制。此外,在纯电动或者混动车基础上改装具备线控(液压)刹车的配置,将具有很大的优势。
基于线控技术的自动驾驶方案
现阶段,还需要通过一种可行的通用集成方案,将控制系统集成到CAN总线、Flexray或者快速以太网总线上。通过将决策控制信息与车辆底层控制系统深度集成。CAN FD 1.0作为CAN 2.0的技术升级,可以作为智能车辆车载总线的实现方式。此外,由于智能车辆技术发展,急需满足更高数据带宽的车内连接。Tesla在车载信息服务上采用以太网作为总线网络。例如,基于IEEE802.3bp的1000BASE-T1标准草案设计,满足汽车系统严格的EMI要求,支持车内传输多路高清视频流。单对双绞线以太网允许选择轻量型、低成本线束。
4.2、车载高性能集成计算平台
智能车辆一旦完成车身完整构建,采用传感器获得环境感知信息,还需要能够处理大容量数据,所以处理器芯片对无人驾驶车辆同样重要。许多移动终端产品芯片供应商已经开始为自动驾驶技术的实现提供图像处理功能。由于嵌入式平台计算能力提升,现在智能车辆计算平台一般采用带有GPU单元的嵌入式处理器来构建。例如高通、三星也推出了车载嵌入式平台,高通骁龙602A应用处理器,拓展面向汽车的产品组合,实现多系统支持的感知功能;三星处理器芯片目前主打车机互联系统、汽车智能硬件等。
在奥迪自动驾驶汽车架构中的驾驶辅助控制器(zFAS)中的传感器融合单元核心部件是NVIDIATegra K1平台,极大简化了车载计算平台。NVIDIA的TK1有四个ARMCortex-A15核,192Kepler GPU集成CUDA,提供327GFLOPS计算性能,处理CUDA数据时功率小于6W(包括SoC和DRAM)。英伟达Drive PX无人驾驶汽车平台的两个Tegra X1处理器,能够处理来自12个摄像头的数据流,完成驱动高级驾驶员辅助功能运行。最新的DRIVE PX 2硬件计算平台,支持12路摄像头输入、激光定位、雷达和超声波传感器;包括两颗新一代NVIDIA Tegra处理器,其中包括8个A57核心和4个Denver核心;基于NVIDIA的新一代GPU架构Pascal设计,单精度计算能力达到8TFlops,超越TITAN X的10倍以上的深度学习计算能力。
NVIDIA DRIVE PX 2自动驾驶开发平台
NVIDIA开发网提供算法库支持,有助于加速开发。NVIDIA建造NvidiaPX2构建的Drivenet平台,已在自动驾驶车辆上进行测试。能够将外部传感器获取的图像数据处理后形成高精度点云,并上传至云端服务器,经过更高性能的基于DGX-1的服务器处理后,融合成完整高精度地图。车载计算平台和云端服务器形成NVIDIA完整的自动驾驶技术平台解决方案。
流行的深度学习框架如Caffe、Theano、Torch推出CUDA工具库,大幅提高图像识别准确率,让车载计算平台拥有更强的数据处理能力,通过运行深度学习算法来加强车辆感知能力,对车载各类传感器数据进行处理与分析,进行驾驶决策。
深度学习的车载嵌入式计算平台
5、结语
智能车辆研发已经进入关键节点,其技术突破的难点已经从算法研究转移到了面向自动驾驶的车载传感器、车辆总体架构设计、智能计算平台集成等实用化技术上。本文结合多年的智能车研发经历,聚焦在环境感知技术及车载传感器、车辆系统集成、V2X和车联网、高精度定位和地图技术、深度学习和计算平台等方面上,针对这些可能的突破点进行探讨,其中内容可作为智能车辆研发的参考。
参考资料:
[1] en.wikipedia.org/wiki/
[2] 新智元公众号
[3] http://www.cheyun.com
[4] www.nvidia.com/object/drive-px.html
[5] Jaycil Z. Varghese, Overview of Autonomous Vehicle Sensors and Systems,Proceedings of the 2015 International Conference on Operations Excellenceand Service Engineering
[6] Junior: The Stanford Entry in the Urban Challenge, Michael Montemerlo,Jan Becker, .., and Sebastian Thrun. 2008. Junior: The Stanford entry in theUrban Challenge. J. Field Robot. 25, 9 (September 2008), 569-597.
[7] C. Urmson, J. Anhalt, D. Bagnell,., , “Autonomous driving in urbanenvironments: Boss and the urban challenge,” J. Field Robot.,vol. 25, no. 1,pp. 425–466, Jun. 2008.
[8] W. Huang, D. Wen, J. Geng, N.-N. Zheng, "Task-Specific performanceevaluation of UGVs: Case studies at the IVFC," IEEE Transactions on Intelligent Transportation Systems, vol. 15,no. 5, pp. 1969-1979, 2014.
[9] 黄武陵. 无人驾驶汽车带来的交通便利[J].单片机与嵌入式系统应用,2016,16(6):6-8.
[10] 黄武陵.智能车辆环境感知技术与平台构建[J].单片机与嵌入式系统应用,2016,(7).
[11] 黄武陵.智能车辆的道路检测及其应用[J].单片机与嵌入式系统应用,2016,(8).
文章转自新智元公众号,原文链接
文章
传感器 · 机器学习/深度学习 · 自动驾驶 · 机器人 · 定位技术
2017-08-02
带你读《无线数字通信:信号处理的视角》之一:引言
国外电子与电气工程技术丛书点击查看第二章无线数字通信:信号处理的视角Introduction to Wireless Digital Communication:A Signal Processing Perspective
[美] 罗伯特·W.希思(Robert W. Heath Jr.) 著郭宇春 张立军 李 磊 译机械工业出版社China Machine Press
第1章 引言
1.1 无线通信简介
在过去的100年里,无线通信(wireless communication)已经进入我们生活的各个方面。无线通信比有线通信(wired communication)出现得更早,现在无线通信正在取代有线通信。语音就是一个无线系统的史前例子,尽管在语音之前还有手势,比如拍打胸部以示权威(黑猩猩仍然常用这个手势)。遗憾的是,语音能够有效传递的距离有限,因为人类的语声功率有限,而且功率的自然衰减随距离而增大。无线通信系统早期的工程尝试包括烟火信号、火炬信号、信号弹和鼓声信号。日光反照通信镜是这类系统中比较成功的一种,它利用小镜子反射太阳光来实现数字信号的传递。现代意义的无线通信系统利用发送和接收电磁波实现通信。这个概念由Maxwell在理论上阐述,Hertz于1888年在实际中实现。早期对无线通信系统实现做出贡献的其他学者还有Lodge、Bose和de Moura。无线通信最早的例子用的是现在的数字通信(digital communication)。数字的英文digital一词源于拉丁语的digitus,意思是手指或脚趾。数字通信是一种通过在一定时间内从一个集合中选择一种符号来传递信息的通信方式。例如,如果一次只伸出一根手指,那一只手一次可以传递5种符号中的一种。如果一次可以伸出两根手指,一只手一次可以传递5×4=20种符号中的一种。快速重复做出手势,可以连续送出多种符号。这就是数字通信的本质。变化时间连续信号(或模拟信号)的参数,数字通信可以利用电磁波传输一系列二元信息或比特。19世纪最常用的有线通信系统是电报系统,利用导线跨国甚至跨洋传送用Morse码表示的含有字母、数字、休止符和空格的数字报文消息(message)。Marconi在1896年取得无线电报专利,无线电报通常被视为最早的无线(电磁)数字通信系统。1901年Marconi发出第一封跨大西洋的Morse码电报报文。无线数字通信的历史与无线本身一样悠久。尽管人们对无线电报的兴趣并未减少,但直到20世纪80年代,模拟通信一直占据着主导地位,是无线通信中的主要调制方式。利用模拟通信,传递的信号参数随输入的连续时间信号而变化。早期模拟通信的例子是19世纪70年代发明的电话系统,语声信号在送话器中转换成电信号,并且可以放大并在导线上传输。无线模拟通信系统早期的例子至今仍在使用,包括AM(Amplitude Modulation,幅度调制,简称调幅)和FM(Frequency Modulation,频率调制,简称调频)广播,还有老式的广播电视(television)。无线通信系统中一直广泛使用模拟通信,但是现在正在被数字通信取代。数字通信现在能够取代模拟通信的主要原因是数字化数据的优势和半导体技术的发展。在计算机和计算机网络出现之前,数字化数据不普及。现在计算机上存储的或者通过互联网交换的东西都是数字的,包括电子邮件、语音电话、音乐流媒体、视频以及网页浏览等。集成电路的发展使得一定面积的半导体上能够容纳越来越多的晶体管,提高了数字信号处理的能力。虽然在数字通信中不是必需的,但是利用数字信号处理技术能够实现更好的发射机和接收机的算法。20世纪60年代,在有线电话骨干网中数字通信电路开始完全取代模拟电路,部分原因是远距离传输时数字信号的噪声抵抗能力强(与放大器相比,中继器对于噪声的敏感度低)。但是,直到20世纪80年代早期无线通信才发生相似的变化。其原因似乎是因为这个时期集成电路技术才发展到能够用于便携无线器件的程度。差不多同一时期,光盘(Compact Disc,CD)才开始取代磁带和黑胶唱片(vinyl records)。现在数字通信已经是无线通信的基本技术了。实际上,差不多所有当代以及下一代的无线通信系统(实际上也包括所有研发中的标准)都利用数字通信技术。现在只要有用到有线介质的情况,都有提案要用无线方式取代有线方式。大量商业、军事和消费应用都采用无线数字通信。
1.2 无线系统
本节概述网络通信的常见应用,介绍有助于讨论实际无线应用的关键术语。讨论的问题包括无线广播、广播电视、蜂窝通信、无线局域网、个域通信、卫星通信、自组网络、传感器网络以及水下通信。随着讨论的进展将介绍关键概念以及与数字通信的联系。
1.2.1 无线广播
音乐广播是最早的无线通信应用之一。一种典型的无线广播或电视的系统体系结构如图1.1所示。直到最近,无线广播仍然是模拟的,利用20世纪20年代和20世纪40年代分别发明的技术采用通用的AM和FM波段发送信号。调幅广播是利用幅度调制技术实现无线广播的技术,在20世纪前80年一直是主流无线广播技术。由于这种技术容易受到大气和电气干扰,调幅广播现在主要用于谈话和新闻节目的广播。20世纪70年代,无线广播,特别是音乐广播和公共广播,改为调频(FM)广播,采用频率调制提供高保真声音信号。
20世纪90年代,无线广播从模拟技术转向数字技术。1995年出现了数字音频广播(Digital Audio Broadcasting,DAB)标准,也称为Eureka 147。欧洲和世界其他地区采用了DAB,在有些情况下与传统的AM和FM技术一同使用。数字音频广播采用一种称为编码正交频分复用(Coded Orthogonal Frequency-Division Multiplexing,COFDM)的数字调制技术,广播多个数字广播流。COFDM是OFDM的一个特例,本书将专门讨论OFDM。美国采用一种不同的数字方法,称为HD广播(一个商标名)。这种方法2002年获得联邦通信委员会(Federal Communications Commission,FCC)的批准,作为AM和FM数字广播系统,在发送现有模拟广播信号的同时发送数字广播信号。HD广播采用一种专利传输技术,是一种能够利用现有FM广播电台信号之间的频率空隙的OFDM技术。美国2007年开始应用HD广播技术。采用数字编码与调制技术,能够通过卫星或地面站广播CD质量的立体声信号。除了能够提高音频信号质量之外,数字音频广播技术还有其他的业务优势:附加数据业务、多种音频信号源、点播音频业务。与现在的模拟调幅、调频广播类似,HD广播不要求服务费。现在大多数汽车出厂时就安装了HD广播接收机。因此,新车的车主可以马上收听HD音频广播,使用附加的数据服务。
1.2.2 广播电视
无线广播之后出现的另一种最有名的无线应用就是广播电视。1936年英国和法国开始模拟电视广播,1939年美国开始模拟电视广播。直到最近广播电视还在沿用20世纪50年代的几种模拟标准:根据美国国家电视系统委员会(National Television System Committee,NTSC)命名的NTSC在美国、加拿大等国家使用;欧洲和南亚采用的逐行倒相(Phase Alternating Line,PAL);以及苏联和非洲部分国家采用的SECAM(SÉquentiel Couleur Á Mémoire)。除了基本的质量限制以外,模拟电视系统本质上是严格定义在很窄的性能范围之内,没有什么可供选择的。而数字电视技术,能够提供更高信号质量(高清图像和高质量环绕立体声)以及多种业务形式。20世纪90年代,数字视频广播(Digital Video Broadcasting,DVB)系列标准开始用于数字电视和高清数字电视。美国以外的世界上大多数国家采用DVB标准。类似于DAB,DVB技术也采用OFDM数字调制技术。还有几种专为陆地、卫星、有线和手持应用设计的DVB改进技术。美国采用了一种不同的高清数字广播技术,产生的数字信号具有类似模拟NTSC信号的频谱。先进电视系统委员会(Advanced Television Systems Committee,ATSC)数字标准采用8-VSB(残余边带)调制,并且用一种特殊的栅格(trellis)编码器(栅格码调制在无线通信中少有的几种应用之一)。ATSC系统要求采用定向天线限制多径程度,因为相比DVB标准中采用的OFDM调制,均衡相对困难。2009年模拟NTSC信号在美国使用了半个多世纪后被ATSC信号取代。
1.2.3 蜂窝通信网络
蜂窝通信(Cellular Communication)利用基站(base station)网络给大范围分布的移动用户提供通信。蜂窝(cell)这个术语指一个基站所覆盖的区域。基站选址需要保证这些蜂窝能够相互重叠,从而保证用户被网络覆盖,如图1.2所示。一个蜂窝簇(cell cluster)共享一组无线频率,在不同地理范围上重用,从而最大限度地利用无线频谱。蜂窝系统支持切换,随着移动用户的移动,通信链路从一个基站的区域转移到另一个基站的区域。基站之间通常采用有线网络,并由一些功能设备提供漫游和计费等服务。蜂窝网络通常与公用电话网络(用于电话业务的网络)和互联网络相连接。第一代蜂窝通信器件采用模拟通信技术,特别是FM调制,用于移动用户与基站之间的无线链路。这些系统所用的技术是20世纪60年代设计的,在20世纪70年代后期和20世纪80年代早期部署使用。采用模拟技术没有什么安全性(采用合适的无线装置可以监听电话),能支持的数据速率也有限。很多类似的但不兼容的第一代系统差不多在同一时间投入使用,包括美国的先进移动电话系统(Advanced Mobile Phone System,AMPS)、斯堪的纳维亚使用的北欧移动电话(Nordic Mobile Telephony,NMT)、欧洲一些国家使用的全接入通信系统(Total Access Communication System,TACS)、法国采用的Radiocom 2000、意大利的无线电电信移动集成(Radio Telefono Mobile Integrato,RTMI),日本还有几种模拟标准。不同国家采用标准的数量之多造成国际漫游的困难。
第二代及之后的蜂窝标准采用数字通信。第二代系统是在20世纪80年代设计的,在20世纪90年代应用的。最常用的标准有全球移动通信系统(Global System for Mobile Communications,GSM),IS-95(Interim Standard 1995,1995暂行标准,也称为TIA-EIA-95),还有组合标准IS-54/IS-136(称为数字AMPS)。GSM是欧洲几个公司合作制定的欧洲电信标准局(European Telecommunications Standards Institute,ETSI)标准。最终在世界范围得到采纳,成为第一个实现全球漫游的标准。IS-95标准是由高通(Qualcomm)公司制定的,并且采用了当时的一种多址接入新技术,称为码分多址(Code Division Multiple Access,CDMA),因此IS-95也称为CDMA-1。IS-95标准在美国、韩国和其他几个国家应用。IS-54/IS-136标准的提出是为了提供向AMPS系统的数字化升级并且保持一定程度的向后兼容性。进入21世纪,逐渐被GSM和第三代技术所取代。第二代系统主要的改进是引入了数字技术、安全性、文字消息和数据服务(特别在后续的改进中)。2000年开始,第三代合作伙伴项目(3rd Generation Partnership Project,3GPP)和第三代合作伙伴项目2(3rd Generation Partnership Project 2,3GPP2)提出了第三代(3G)蜂窝标准。3GPP提出了基于GSM标准的通用移动通信系统(Universal Mobile Telecommunications System,UMTS)3G标准。这个标准采用类似的网络体系结构和高容量的数字传输技术。3GPP2则以cdmaOne为基础演进出CDMA2000标准。显然,UMTS和CDMA2000都采用了CDMA技术。第三代标准相对于第二代标准的主要改进是更高的话音质量(能够支持更多的话音用户)、互联网宽带接入和高速数据。第四代蜂窝标准是很多研发项目的目标,也有很多争议(甚至关于“四代”的定义)。最后,两种系统被官方认定为四代蜂窝系统。一个是3GPP长期演进高级版(Long Term Evolution-Advanced,LTE-Advanced)的版本10及后续版本。另一个是全球互通微波接入(Worldwide Interoperability for Microwave Access,WiMAX),IEEE 802.16 m标准的一个子集。尽管WiMAX更早出现,3GPP LTE成了事实上的4G标准。与三代系统主要区别是,四代系统是从零开始设计用以提供大范围的无线互联网接入能力的技术。3GPP LTE是3GPP的演进技术,支持宽带信道和基于正交频分多址接入(orthogonal frequency-division multiple access,OFDMA)的物理层技术,给不同用户动态分配子载波。OFDMA是正交频分复用(orthogonal frequency-division multiplexing,OFDM)的多址接入版本,将在第5章讨论。3GPP LTE Advanced增加了其他新的能力,包括通过基站和手持终端设置多天线对多输入多输出(Multiple Input Multiple Output,MIMO)通信提供更多支持,因此也能提供更高的数据速率。WiMAX是基于IEEE 802.16标准的。本质上,WiMAX论坛(一个行业论坛)定义了一个用以实现的功能子集,包括证书和测试功能,能够提供互通性。WiMAX也采用OFDMA,尽管早期的版本采用了一种基于OFDM的略有不同的接入技术。4代系统采用MIMO通信,更充分地利用多个天线,第6章将讨论这个技术。4代蜂窝系统承诺比以前的系统更高的数据速率,并且通过简化回程体系结构改进网络。3GPP已经开始对第5代蜂窝标准的研究。本书写作时,正在研究进一步提高吞吐量和质量,以及降低延迟和代价的各种技术。持续推进MIMO通信的极限也吸引了很多研究兴趣。大规模MIMO系统在基站采用数百个天线,能够同时支持更多的用户,全向MIMO系统利用水平和垂直波束,支持更多用户。利用30GHz以上的频谱的毫米波MIMO系统也被考虑用于第5代蜂窝系统。这些课题的研究都在进行。
1.2.4 无线局域网
无线局域网(WLAN)是一种无线形式的以太网(Ethernet),它最初的目标是从一个计算机向另一个计算机发送数据。无线局域网如图1.3所示。所有WLAN利用数字通信。WLAN原始的目标是实现一个局域网;现在的应用中,WLAN主要作为无线互联网接入的主要方法。与利用昂贵的授权频谱的蜂窝网络相比,WLAN使用非授权频段,如美国的工业、科学和医学(Industrial,Scientific,and Medical,ISM)和非授权国家信息基础设施(Unlicensed National Information Infrastructure,U-NII)无线频段。这就意味着任何人可以用授权设备安装,但不能提供有保证的服务。WLAN与蜂窝网络本质上不同。尽管二者都是用于无线互联网接入,但是WLAN主要用于有线网络的扩展,而非像蜂窝网络那样用于提供无缝广域覆盖。大多数WLAN如果实现了切换,也仅仅实现基础形式的切换。
最常用的WLAN标准是由IEEE 802.11工作组制定的。IEEE 802工作组制定LAN和城域网(Metropolitan Area Network,MAN)标准,主要关注物理层(PHY)、媒体接入层(Media Access Control,MAC)和链路(link)层的无线链路协议,对应传统网络架构中的第一层和第二层。IEEE 802.11工作组负责WLAN标准。Wi-Fi联盟(Wi-Fi Alliance)负责认证IEEE 802.11产品,保证其互通性(Wi-Fi和IEEE 802.11往往可互换使用,虽然它们并不完全相同)。IEEE 802.11不同的小组用不同的字母区分,例如IEEE 802.11b,IEEE 802.11a,IEEE 802.11g,和IEEE 802.11n。最初的IEEE 802.11标准支持2.4GHz ISM频段的0.5Mbps(每秒兆比特)数据速率,有两种物理层接入技术可以选择,一种是跳频扩频,另一种是直接序列扩频。IEEE 802.11b利用互补码键控调制技术扩展直接序列扩频模式,能够提供11Mbps(原文是11bps,有误。——译者注)数据速率。IEEE 802.11a和IEEE 802.11g分别在5.8GHz和2.4GHz频段提供54Mbps数据速率,采用第5章将要讨论的OFDM调制技术。IEEE 802.11n是IEEE 802.11g和IEEE 802.11a的高吞吐量扩展版本,利用MIMO通信结合OFDM提供更高的数据速率。MIMO促使一些新调制技术(其中一些可以支持同时传输多个数据流,另一些保证更高可靠性)得以应用,第6章将予以讨论。IEEE 802.11更高吞吐量的扩展版本有IEEE 802.11ac和IEEE 802.11ad。由于标准扩展版本已经用完了采用1个字母的选择,开始使用两个字母。IEEE 802.11ac关注6GHz以下的方案,IEEE 802.11ad关注更高频率,特别是60GHz未授权毫米波方案。相比IEEE 802.11n,IEEE 802.11ac支持更先进的MIMO 能力(最多8个天线),以及几个用户同时与接入点通信的多用户MIMO通信能力。IEEE 802.11ad是第一个毫米波WLAN方案,能够提供每秒吉比特(Gbps)峰值吞吐量。IEEE 802.11ay是正在制定的下一代WLAN标准,支持多用户通信,目标数据速率为100Gbps,目标传输距离为300~500m。
1.2.5 个域网
个域网(Personal Area Network,PAN)是用于短距离通信的数字网络,主要指10m半径范围内替代有线技术的方案。图1.4给出了一个PAN的例子。无线个域网(Wireless PAN,WPAN)最合适的应用之一是连接用户个人空间中的设备,也就是,一个人携带的设备,比如键盘、耳机、显示器、音频/视频播放器、平板电脑或智能手机。根据标准,PAN可以视为围绕一个人的“个人可通信气泡”。所有PAN都采用数字通信。PAN与WLAN在体系结构上有一个差别——PAN采用即时自组织连接(ad hoc connection)的通信方式。这就意味着无须中心控制器(或接入点)的辅助,终端设备就可以形成自组织的对等网络。PAN也采用非授权频段实现。
大多数PAN是IEEE 802.15工作组制定的。蓝牙(Bluetooth)标准,也就是IEEE 802.15.1a以及后来的扩展版本,最常用于无线头戴式耳机与蜂窝电话、无线键盘和无线计算机鼠标的连接。另一个PAN标准是IEEE 802.15.4,称为ZigBee,用于低功率嵌入式应用,例如传感器网络、家用监视和自动控制以及工业控制。IEEE 802.15.3c是802.15的一个高数据速率的扩展版本,工作在毫米波非授权频段(57~64GHz),但是没有WirelessHD成功,后者是由一个行业论坛开发的。这些系统提供超过2Gbps的高速连接和无线视频显示器连接,例如无线高清多媒体接口(High-Definition Multimedia Interface,HDMI)。随着IEEE 802.11ad取代了很多60GHz PAN的功能,WLAN与PAN的界限开始变得模糊。
1.2.6 卫星系统
卫星系统用空间收发机在远高于地球表面的高度上进行很大范围的远距离传输,如图1.5所示。可以作为陆地通信网络的替代方案,后者的基础设施位于地面上。通信卫星的思想源于科幻小说作家Arthur C.Clarke于1945年发表在《无线世界》(Wireless World)杂志上的一篇论文。论文提出了在35800km的静止地球卫星轨道上部署3颗卫星的轨道配置方案,以提供洲际通信服务。其他轨道,比如500km和1700km高度的近地轨道(Low Earth Orbit,LEO)和5000km~10000km之间以及20000km以上的中地球轨道(Medium Earth Orbit,MEO)也已投入使用。轨道越高覆盖范围越大,也就是说,可以使用更少的卫星,但是要承受更大的传播延迟和自由空间衰耗的代价。直到20世纪60年代,卫星还用于观察和探测,并未实际用于通信。1958年启动的SCORE项目是世界上第一个通信卫星,提供了成功的空间通信中继系统的实验。此后发射的通信卫星数量不断增长:1960—1970年间发射了150颗卫星,1970—1980年间发射了450颗卫星,1980—1990年间发射了650颗卫星,1990—2000年间发射750颗卫星。
在通信中,卫星作为中继器,支持点到点和点到多点信号传输。通信卫星应用广泛,包括电话、电视广播、无线电广播和数据通信业务。与其他系统相比,通信卫星系统的优势在于覆盖范围大,特别是能够覆盖地理上偏僻区域或者困难地形。例如,移动卫星服务主要为陆地移动用户、海事用户以及航空用户提供服务。卫星提供远程(特别是洲际)点到点或中继电话以及移动电话服务。1965年,Intelsat发射了第一颗商用卫星,名为Early Bird(晨鸟),提供洲际固定电话服务。卫星通信系统采用数字通信技术提供全球移动电话服务。第一个提高移动服务的GEO卫星Marisat(海事卫星),是在1976年发射进入轨道的。卫星系统的其他例子还包括Iridium(铱星),Inmarsat(海事卫星)和Globalstar(全星)。由于在轨道上放置卫星的高成本及其低容量,卫星电话很昂贵。卫星电话在偏远区域和海事通信中很有用,在人口稠密地区其应用已经被蜂窝网络取代。卫星市场的通信服务中75%是电视。早期无线电视系统采用模拟调制并且需要大尺寸碟形接收天线。1989年发射了第一颗电视直播卫星TDF 1。现在大多数卫星电视节目是通过利用数字通信技术的直播卫星提供。用于电视广播应用的通信卫星系统包括美国的Galaxy和EchoStar卫星,欧洲的Astra和Eutelsat Hot Bird,印度的INSAT,还有日本的JSAT卫星。卫星广播最新的一种应用是高保真无线电广播。过去20年,很多地区已经开展卫星广播。卫星无线电广播提供高保真音频广播服务,用户采用常规的AM或FM广播收音机。现在已经广泛用于向用户的无线电收音机发送音频信号。类似基于Sirius和XMI技术的SiriusXM,卫星无线电系统采用数字通信技术向订购服务的用户进行数字音乐多播。在这些信号的卫星传输中还可以同时传输其他信息,例如交通或天气信息。卫星系统最新的应用是数据通信。卫星系统提供各种数据通信服务,包括广播、多播和点到点单向或双向数据业务。具体业务包括消息、寻呼、传真、从传感器网络收集数据,当然还有无线互联网接入。单向或双向通信业务通常由采用GEO卫星的甚小孔径卫星终端(Very Small Aperture Terminal,VSAT)网络提供。VSAT网络适于由中心主机和大量地理散布系统构成的集中式网络。典型的例子包括具有中心总部和不同地点的分支机构的小型和中型企业。VSAT网络也可以用于在农村地区提供无线互联网接入。高空平台(High-Altitude Platform,HAP)站是结合陆地和卫星通信系统的混合技术。HAP的应用包括无人飞艇和有人/无人飞机,在对流层之上大约17km或更高的平流层飞行。卫星通信系统与卫星距离远、昂贵,对用户终端要求高,地面发射机覆盖范围有限,HAP站可以填补这些通信系统之间的鸿沟。在缺少蜂窝网络设施的地方,HAP系统也可以作为蜂窝系统的替代方案,提供电话和无线互联网接入。
1.2.7 无线自组织网络
自组织网络的特点是没有基础设施。蜂窝网络的用户通常与固定的基站通信,而自组织网络的用户相互通信,所有用户发送、接收并转发数据。自组织网络一个很重要的应用场景是应急通信(警务、搜索和救援)。例如飓风Katrina,海地地震或者菲律宾台风这样的灾难,会毁坏蜂窝网络基础设施。救援队的合作、与亲人的通信及协调救援物资运输都会受到设施毁坏的影响。移动自组织网络可以将一个智能手机变成既是发射塔也是手机。这样,就可以在灾难地区发送数据。在高度移动性、没有固定设备可用的军事环境中,自组织网络也很重要。未来的士兵可以使用可靠的、容易部署的、非中心的高速通信网络,发送高质量视频、图像、声音和位置数据,保证战斗中的信息优势。自组织网络有很多实际的应用。自组织组网能力是大多数PAN的核心部分。例如,采用蓝牙技术,用一个设备作为主设备,其他设备作为主设备的从设备,可以把设备组成一个微微网络。主设备协调不同设备之间的通信。WLAN也支持设备之间通信的自组织能力,IEEE 802.11s标准中还有一个更为正式的网状(mesh)组网能力。蜂窝网络开始支持设备之间(device-to-device)通信,设备可以直接交换数据,不需要通过基站。尽管这不是完全的自组织即时通信,因为终端设备可能需要通过基站协调关键的网络功能,例如发现终端设备。移动自组织网络一个最新的应用是车辆自组织网络(Vehicle Ad hoc NETwork,VANET)。如图1.6所示,VANET涉及车辆到车辆通信和车辆到基础设施通信,是车辆互连和自动控制车辆的关键因素。VANET与其他自组织网络的差别是顶层应用。安全性是VANET最重要的应用。例如,专用短程通信协议允许车辆在前部碰撞警告等应用中交换位置和车辆信息。下一代联网车辆能够互相交换更多的信息。例如,在相邻车辆之间共享感知数据可以将一辆车的感知范围扩展到超过其视线范围。这种数据可以融合起来形成对周边交通流量的鸟瞰图,能够帮助困难驾驶任务(例如超车和变换车道)中的自动驾驶车辆和人类司机。VANET,特别是毫米波频段的,一直是一个活跃的研究领域。
1.2.8 无线传感器网络
无线传感器网络是一种自组织形式的无线网络,无线连接传感器在适当的时间向某些特定节点转发信息。无线通信、信号处理和电子学的发展使得小尺寸的具有感知、数据处理和通信功能的低成本、低功率、多功能的传感器节点得以实现。无线传感器网络设计中最重要的因素是有限容量电池导致的短网络生命周期。能源网络能够以传感器网络的方式提供另一种潜在的无线通信应用。电力网络采用有百年历史的技术,即电网用电表测量电量消耗量,但很少能及时读取。采用传感器能够实现智能电网,支持基于用量定价和分布式能源生产。智能电网的很多属性能够通过无线电表实现。智能电网可以用不同的有线或无线通信技术实现。智能电网技术存在的挑战包括控制、学习和系统级问题。射频识别(Radio Frequency IDdentification,RFID)是一种特殊的通信方式,用于制造、供应链管理、库存控制、个人财产追踪和远程医疗等应用。RFID系统包括用于标识物品和目标的RFID标签,以及RFID读取器。为了信息控制,读取器在射频范围内广播对标签的查询,标签应答存储的信息,一般采用广播查询为RFID电路和发射机供电。由于不涉及主动发送信号,通信的耗电很低。RFID可以在传感器网络中作为传感器使用,也可以作为通信方法检测,比如一个地点是否存在某个RFID标签(或者贴了这个标签的物品)。RFID已经由EPCglobal和国际标准化组织(International Organization for Standardization,ISO)标准化。典型RFID标签的无源设计使得它不同于其他常规通信系统。
1.2.9 水下通信
水下通信是无线通信的另一种小众应用。图1.7给出一些水下通信的应用。本章讨论的水下通信与其他通信方式的一个重要差异是水下通信往往涉及声波传播,而射频无线系统则通过电磁波传播。海水的含盐量导致其具有高导电性,导致电磁辐射的很大衰耗,因而电磁波在水中不能长距离传输。声波方法的局限主要是带宽很窄。一般来说,声波方法用于低速率长距离传输,而电磁波方法用于高速率短距离传输。
现代水下通信系统采用数字传输。从信号处理的角度而言,水下通信需要复杂的自适应的接收机技术。原因是,相对而言,水下传播信道是变化的,并且呈现大量的多径。大多数射频无线系统的设计都具有一种块不变性,其中时间变化可以在短的处理间隔内被忽略。由于信道的快速变化,这种假设可能不适用于水下通信。尽管在石油工业中有商业应用,例如水下无人驾驶舰船,但水下通信的主要应用可以在军事领域,例如船到船、船到岸和船到潜艇。水下通信是美国海军的增长型行业。潜艇和巴哈马的大西洋海底测试和评估中心(Atlantic Undersea Test and Evaluation Center,AUTEC)航程控制站之间的双向水下数字通信已经成功展示。传感器网络也用于水下,进行海洋学数据采集、环境监测、探测以及战术监测。本书要讨论的很多概念都可以用于水下通信系统,考虑传播信道可用性进行某些修正即可。
1.3 无线通信的信号处理
信号是描述物理或非物理变量随时间或空间变化的函数。信号通常由传感器采集并由转换器转换为适当的形式进行存储、处理或传输。例如,传声器包含一个振动膜来捕捉音频信号,还有一个传感器将该信号转换为电压信号。在无线通信系统中,典型的信号是用于通过无线信道将数据从发射机传输到接收机的电流和电磁场。除音频和通信信号之外,还有许多其他类型的信号:语音、图像、视频、医疗信号(如心电图)或测量股票价格演变的金融信号。信号处理是一个相对较新的工程学科,它研究如何处理信号来提取信息或根据特定目的改变信号特征。虽然信号处理包括数字和模拟技术,但数字信号处理(DSP)主导了大多数应用场景。因此,要处理的模拟信号在操作之前被离散化和量化。例如,无线通信系统中,接收机必须对接收到的信号进行处理以去除噪声、消除干扰或消除由于通过无线信道传播造成的失真;在发送端,需要采用信号处理产生要发送的波形,将单位时间发送的信息范围或信息量最大化。目前的趋势是以数字方式执行所有这些操作,将模数转换器(ADC)或数模转换器(DAC)分别放置在尽可能靠近接收或发射天线的位置。图1.8显示了一个使用模拟和数字信号处理方法的基本通信系统的例子。
信号处理在其他领域有很多应用,例如:
语音和音频,用于说话人识别、文本到语音转换、语音识别、语音或音频压缩、噪声消除或室内均衡。
图像和视频,用于图像和视频压缩、降噪、图像增强、特征提取、运动补偿或目标跟踪。
医学,用于监测和分析生物信号。
基因组学,用于解释基因组信息。
财务,以预测为目的财务变量分析。
雷达,用于检测目标并估计它们的位置和速度。
信号处理是信号处理和应用数学交叉的一门学科。直到20世纪中叶它才成为一个独立的研究领域。那时,诺伯特·维纳(Norbert Wiener)提出了一个信息源的随机过程模型。他还发明了维纳滤波器,该滤波器从观察到的噪声过程中提供未知过程的统计估计。克劳德·香农(Claude Shannon)于1948年撰写的标志性论文“通信的数学理论”,通过从信号处理的角度分析基本的数字通信系统,使用维纳的思想建模信息信号,从而建立了通信理论的基础。哈里·奈奎斯特(Harry Nyquist)于1928年提出的采样定理,由香农于1949年在他的论文“噪声存在下的通信”中得到证明,它解决了连续信号的采样和重构问题,这是DSP的一个里程碑。然而,随后的几年中,模拟信号处理继续主导从雷达信号处理到音频工程的信号处理应用。库利(Cooley)和杜克(Tukey)在1965年发表了一种用于快速实现傅里叶变换(现在称为FFT)的算法,使卷积计算能够更有效地实现,导致DSP的爆炸式增长。当时,电话传输的语音编码是一个非常活跃的信号处理领域,这项研究开始受益于自适应算法,并促成了DSP的成功。从那时起,DSP算法不断发展,性能越来越好,从中受益的应用范围越来越大。无线通信也不例外,通过增加DSP技术的复杂性,使得近年来许多通信系统的性能和数据速率的惊人增加成为可能。信号处理方法从系统角度解决问题,包括系统中每个模块的输入和输出信号模型。不同的模块表示不同的处理阶段,可以用模拟设备或数字处理器中实现的数字算法来实现,如图1.8所示。在用于信号和系统的模拟组件的模型的复杂性和性能之间存在折中:更精确的模型为系统的仿真和实际评估提供了极好的工具,但它们增加了复杂性和仿真时间,并使问题的理论分析变得困难。使用随机过程理论和概率对信号进行统计表征,为携带信息的信号以及无线通信系统中出现的噪声和干扰信号提供了有用的模型。信号处理理论还提供了使用微积分、线性代数和统计学概念的数学工具,将系统中的不同信号联系起来。第3章详细介绍了可用于无线通信系统设计和分析的基本信号处理成果。线性时不变系统广泛用于无线通信,对系统中的不同设备进行建模,例如滤波器或均衡器。通信系统的许多功能在频域中更好理解,因此傅里叶分析也是无线工程师的基本工具。数字通信系统也利用多速率理论成果,因为多速率滤波器可以有效实现数字发射机或接收机中执行的许多操作。最后,线性代数的基本成果是许多用于接收机不同任务的信号处理算法(例如信道均衡)的基础。数字信号处理方法,对于无线通信,即所谓的软件定义无线电(Software-Defined Radio,SDR)概念,是有意义的,例如易于重新配置(软件下载)或同时接收不同通道和标准,如图1.9所示。然而,由于技术(非常高的采样频率)或成本(ADC上功耗过高)的原因,将接收天线输出端的通信信号数字化可能并不可行。因此,在实际的通信系统中通常进行模拟信号处理与DSP之间的平衡,通常包含一个模拟级,用于对信号进行下变频,然后是数字级,如图1.9所示。本书后面的章节提供了几个使用这种方法的当前通信系统的功能框图示例。
1.4 本书贡献
本书从信号处理角度介绍无线数字通信的基本原理。首先,它提供了理解无线数字通信所需的数学工具的基础。其次,它从信号处理的角度介绍数字通信的基本原理,重点介绍了最常见的调制方式,而不是通信系统的最一般的描述。第三,它描述了特定的接收机算法,包括同步、载波频率偏移估计、信道估计和均衡。本书可以与同时开发的实验室课程一起使用,也可以独立使用。目前已经有不少关于无线通信和数字通信相关主题的教科书。大多数其他的无线通信教科书都是针对通信的研究生的,建立在随机过程和数字通信的研究生课程基础上。不幸的是,本科生、其他领域的研究生和工程师可能没有学过这些教科书要求的典型的研究生先修课。有关数字通信的其他教科书针对的是一个或两个学期的研究生课程,试图以最常用的形式呈现数字通信。然而,本书关注的是数字通信的一个子集,称为复脉冲幅度调制,该调制在大多数商用无线系统中使用。此外,本书详细描述了重要的接收机信号处理算法,这是实现无线通信链路所需要的。虽然大多数概念是针对具有单个发射天线和单个接收天线的通信系统而提出的,但在本书最后将其扩展到MIMO通信系统,现在这些系统在实践中已广泛部署。对于通信工程师来说,本书不仅提供了有关接收机算法的背景信息,如信道估计和同步(这在其他教科书中通常没有详细解释),还提供了有关MIMO通信原理的易于理解的介绍。对于信号处理工程师来说,本书解释了如何从信号处理的角度理解通信链路。特别是,在数字信号处理基本原理的基础上建立输入输出关系,因此整个系统可以用离散时间信号表示。本书提供了关于通信系统损伤及其模型的关键背景,以及对无线信道建模原理的易于理解的介绍。对于模拟信号、混合信号和电路设计人员,本书介绍了无线数字通信的数学原理。相比其他教科书,这些公式得以简化,并且本书给出的公式是可以直接实际应用的,并可用于无线通信链路的原型设计。本书内容是有意缩小范围的。本书并不试图提出一个包含每种可能的数字通信的框架。而是重点讨论复脉冲幅度调制系统。本书也不试图为所有不同的信道损伤提供最佳的接收机信号处理算法,而是重点讨论如何使用更简单的估计器,如实际中有效的线性最小二乘法。本书提供的基础是进一步在无线通信领域工作的绝佳平台。
1.5 本书框架
本书旨在让学生、研究人员和工程师在关键的物理层信号处理概念方面奠定坚实的基础。每章开始有一个引言,预先介绍各节内容,并以条目形式总结要点作为结束。为了帮助读者测试知识掌握程度,提供了很多示例和大量的作业习题。本章作为无线通信的引言,不仅提供了大量应用的概述,还提供了关于信号处理的一些历史背景,并给出了使用信号处理来理解无线通信的例子。第2章概述了数字通信。这个概述是围绕数字通信系统的典型框图建立的,为后续章节的展开提供背景知识。然后更详细地讨论该章的组成部分。首先概述无线信道引入的失真类型,包括加性噪声、干扰、路径损耗和多路径。无线信道的存在给接收机信号处理引入了许多挑战。然后简要概述信源编码和译码,并举例说明无损和有损编码。信源编码压缩数据,减少需要发送的比特数。接下来,对私有密钥和公开密钥加密提供了一些背景知识,用于保护无线链路免受窃听者的攻击。然后概述信道编码和译码。信道编码插入结构化冗余,译码器可以利用这种冗余纠正错误。该章最后介绍了调制和解调,包括基带和频带概念,并预览了不同信道损伤的影响。本书后续章节着重于调制和解调、纠正信道损伤、对信道进行建模以及扩展系统对多个天线的可见性。第3章介绍在本书的后续部分中将要利用的信号处理基础知识。首先介绍相关的连续时间和离散时间信号的表示符号,以及线性时不变系统的背景知识、冲激响应和卷积。线性时不变系统用于建立多径无线信道。该章继续回顾了几个与概率和随机过程有关的重要概念,包括稳态性、遍历性和高斯随机过程。接下来,提供了连续时间和离散时间的傅里叶变换以及信号功率和带宽的知识,因为在时域和频域中考虑通信信号都是有用的。该章接着推导出复基带信号表示和复基带等效信道,这两个信号用于抽象出通信信号的载波频率。然后介绍了多速率信号处理概念,这些概念可以用于脉冲整形的数字实现。该章最后介绍线性代数关键概念的背景,特别是线性方程的最小二乘解。第4章介绍复脉冲幅度调制的主要原理。首先介绍调制的主要特征,包括符号映射、星座图和已调信号带宽。然后介绍最基本的加性高斯白噪声损伤。为了最小化加性噪声的影响,定义了最佳脉冲整形设计问题,并采用奈奎斯特脉冲形式解决这个问题。假定使用这种脉冲形状,可以推导出最大似然符号检测器并分析符号错误的概率。本章的主题是对使用脉冲幅度调制进行数字通信的基本介绍,其中使用了完美的同步,并且只考虑最基本的加性噪声损伤。第5章介绍了无线通信中引入的其他损伤。首先概述平坦衰落信道的符号同步和帧同步。涉及确定何时进行采样以及数据帧的开始位置。然后提出一个多传播路径的频率选择性影响的线性时不变模型。描述了几种缓解策略,包括线性均衡。由于频率选择性信道引入的失真随时间而变化,本章还介绍信道估计的方法。信道估计用于计算均衡器的系数。然后引入有利于均衡的几种调制策略:单载波频域均衡(Single-Carrier Frequency-Domain Equalization,SC-FDE)和OFDM。然后针对单载波和OFDM系统讨论了特定信道估计和载波频率偏移校正算法。本章的大多数算法的设计思想都是先设计线性系统再确定最小二乘解。本章最后介绍了传播和衰落信道模型。这些统计模型广泛用于无线系统的设计和分析。提供了捕获数百倍波长范围的信道变化的大尺度模型,以及纳入了波长几分之一倍范围信道变化的小尺度模型。介绍了量化频率选择性和时间选择性的方法。本章最后描述了平坦和频率选择性信道的常用小尺度衰落信道模型。第6章总结了本书,简要介绍了MIMO通信。在多个发射或接收天线的假设下,重新审视了本书讨论的关键概念。大部分结论都是围绕平坦衰落信道建立的,最终通过MIMO-OFDM扩展了频率选择性。该章首先介绍SIMO(单输入多输出)、MISO(多输入单输出)和MIMO配置中多种天线的不同配置。然后介绍SIMO系统接收机分集的基础知识,包括天线选择和最大比组合,及其对矢量符号误差概率的影响。接下来,解释了一些在MISO通信系统中提取分集的方法,包括波束形成、有限反馈和空时编码。随后介绍了被称为空间复用的重要MIMO技术。还描述了其在预编码、有限反馈和信道估计上的扩展。最后概述了MIMO-OFDM,将MIMO空间复用技术与OFDM系统易于均衡化的特征相结合。针对具有频率选择性信道的MIMO这一具有挑战性的情境,重新讨论了诸如均衡、预编码、信道估计和同步等重要概念。很多商业无线系统中采用了MIMO和MIMO-OFDM.本书中讨论的概念非常适合软件定义无线电的实际部署实现。作者同时开发了一个实验室手册,该手册是作为NI公司通用软件无线电外设的一部分出售的。该实验手册包含了7个实验,涵盖了第4章和第5章的主要主题,以及一个探索差错控制编码优点的奖励实验。当然,这些概念可以用其他方式在实践中演示,甚至使用扬声器作为发射天线和麦克风作为接收天线。鼓励读者在可能的情况下进行算法、例题和习题的仿真实现。
1.6 符号和常用定义
在本书中,我们使用表1.1中的表示法,并为特定的定义分配表1.2中的变量符号。
1.7 小结
无线通信有大量的应用,在传播环境、传输范围和基础技术上各不相同。
大多数主要的无线通信系统都使用数字通信。数字技术相对于模拟技术的优势包括适用于数字数据、对噪声的鲁棒性、更容易支持多种数据速率、多用户的能力以及更容易实现安全性。
数字信号处理与数字通信非常匹配。数字信号处理使用高质量可重现的数字组件。它还利用摩尔定律,从而导致更多计算并降低功耗和成本。
本书从信号处理角度介绍无线数字通信的基本原理。侧重于复脉冲幅度调制以及实现无线接收机时面临的最常见的挑战:加性噪声、频率选择性信道、符号同步、帧同步和载波频率偏移同步。
习题
1.实际中的无线设备/网络 这个问题需要对无线网络或无线设备的技术规范进行一些研究。(a) 从以下制造商中选三家制造商:诺基亚、三星、苹果、LG、华为、索尼、黑莓、摩托罗拉或你选择的其他厂家,对这三家制造商各选一款手机,描述每种手机支持的无线和蜂窝技术以及频段。(b) 至少说出你所在国家的三个移动服务提供商。它们的网络目前分别支持哪些蜂窝技术?(c) 这三家移动服务提供商中的哪一家收取数据费?其典型的用户(非企业)资费计划的收费是多少?你为什么认为一些提供商已经停止提供无限的数据计划?
2.无线设备比较 请填写下表中的三家公司生产的三种蜂窝设备:
3.可见光通信(Visible Light Communication,VLC) 对VLC进行一些研究,VLC可以作为使用RF(射频)信号的无线通信的替代方案。本书未涉及这个主题,但是本书内容可用来理解其基本原理。请务必在答案中给出引用来源。注意:你应该寻找可靠的参考来源(例如,维基百科文章中可能存在错误,或者可能不完整)。(a) IEEE 802 LAN/MAN标准委员会的哪一部分涉及VLC?(b) VLC的概念是什么?(c) 典型的VLC应用程序的带宽是多少?(d) 解释如何使用VLC进行安全的点对点通信。(e) 解释VLC如何用于室内基于位置的服务。(f) 解释为什么在飞机上VLC可能是首选的多媒体传送技术。(g) 解释VLC如何用于智能交通系统。
4.传感器网络 无线传感器网络等多种无线网络在制造业中有着重要的应用。通常归类为低速无线个人区域网络。本书未涉及这个主题,但是本书内容可用来理解其基本原理。请务必在答案中给出引用来源。注意:你应该寻找可靠的参考来源(例如,维基百科文章中可能存在错误,或者可能不完整)。(a) 什么是无线传感器网络?(b) 什么是IEEE 802.15.4?(c) 什么是ZigBee?(d) IEEE 802.15.4和ZigBee如何相关?(e) 在美国IEEE 802.15.4支持哪些通信频段?(f) IEEE 802.15.4规定的通信信道的带宽是多少?注意:这是以赫兹为单位的带宽,而不是数据速率。(g) IEEE 802.15.4设备的典型范围是什么?(h) 在IEEE 802.15.4设备中电池应该使用多长时间?(i) 如何用传感器网络监测公路桥梁?
5.无线和知识产权 无线通信行业一直饱受知识产权诉讼的困扰。确定一个最近感兴趣的案例并描述各方及其立场。对知识产权在无线通信中的作用,至少用半页篇幅描述你的看法。
文章
物联网 · 传感器 · 5G · 算法 · 存储
2019-11-13
《2019人工智能发展报告》!计算机视觉深度解读,文中附全报告下载链接
本文节选《2019人工智能发展报告》第三章计算机视觉篇,涵盖计算机视觉概念、发展历史、人才概况、论文解读以及计算机视觉当前进展的深度解读。本报告共393页,足够详实,想要下载报告请戳链接:https://yq.aliyun.com/download/3877
3.1计算机视觉概念
计算机视觉(computer vision),顾名思义,是分析、研究让计算机智能化的达到类似人类的双眼“看”的一门研究科学[3]。即对于客观存在的三维立体化的世界的理解以及识别依靠智能化的计算机去实现。确切地说,计算机视觉技术就是利用了摄像机以及电脑替代人眼使得计算机拥有人类的双眼所具有的分割、分类、识别、跟踪、判别决策等功能。总之,计算机视觉系统就是创建了能够在2D的平面图像或者3D的三维立体图像的数据中,以获取所需要的“信息”的一个完整的人工智能系统。
计算机视觉技术是一门包括了计算机科学与工程、神经生理学、物理学、信号处理、认知科学、应用数学与统计等多门科学学科的综合性科学技术。由于计算机视觉技术系统在基于高性能的计算机的基础上,其能够快速的获取大量的数据信息并且基于智能算法能够快速的进行处理信息,也易于同设计信息和加工控制信息集成。
计算机视觉本身包括了诸多不同的研究方向,比较基础和热门的方向包括:物体识别和检测(Object Detection),语义分割(Semantic Segmentation),运动和跟踪(Motion & Tracking),视觉问答(Visual Question & Answering)等[4]。
物体识别和检测
物体检测一直是计算机视觉中非常基础且重要的一个研究方向,大多数新的算法或深度学习网络结构都首先在物体检测中得以应用如VGG-net,GoogLeNet,ResNet等等,每年在imagenet数据集上面都不断有新的算法涌现,一次次突破历史,创下新的记录,而这些新的算法或网络结构很快就会成为这一年的热点,并被改进应用到计算机视觉中的其它应用中去。
物体识别和检测,顾名思义,即给定一张输入图片,算法能够自动找出图片中的常见物体,并将其所属类别及位置输出出来。当然也就衍生出了诸如人脸检测(Face Detection),车辆检测(Viechle Detection)等细分类的检测算法。
语义分割
语义分割是近年来非常热门的方向,简单来说,它其实可以看作一种特殊的分类——将输入图像的每一个像素点进行归类,用一张图就可以很清晰地描述出来。很清楚地就可以看出,物体检测和识别通常是将物体在原图像上框出,可以说是“宏观”上的物体,而语义分割是从每一个像素上进行分类,图像中的每一个像素都有属于自己的类别。
运动和跟踪
跟踪也属于计算机视觉领域内的基础问题之一,在近年来也得到了非常充足的发展,方法也由过去的非深度算法跨越向了深度学习算法,精度也越来越高,不过实时的深度学习跟踪算法精度一直难以提升,而精度非常高的跟踪算法的速度又十分之慢,因此在实际应用中也很难派上用场。
学术界对待跟踪的评判标准主要是在一段给定的视频中,在第一帧给出被跟踪物体的位置及尺度大小,在后续的视频当中,跟踪算法需要从视频中去寻找到被跟踪物体的位置,并适应各类光照变换,运动模糊以及表观的变化等。但实际上跟踪是一个不适定问题(ill posed problem),比如跟踪一辆车,如果从车的尾部开始跟踪,若是车辆在行进过程中表观发生了非常大的变化,如旋转了180度变成了侧面,那么现有的跟踪算法很大的可能性是跟踪不到的,因为它们的模型大多基于第一帧的学习,虽然在随后的跟踪过程中也会更新,但受限于训练样本过少,所以难以得到一个良好的跟踪模型,在被跟踪物体的表观发生巨大变化时,就难以适应了。所以,就目前而言,跟踪算不上是计算机视觉内特别热门的一个研究方向,很多算法都改进自检测或识别算法。
视觉问答
视觉问答也简称VQA(Visual Question Answering),是近年来非常热门的一个方向,其研究目的旨在根据输入图像,由用户进行提问,而算法自动根据提问内容进行回答。除了问答以外,还有一种算法被称为标题生成算法(Caption Generation),即计算机根据图像自动生成一段描述该图像的文本,而不进行问答。对于这类跨越两种数据形态(如文本和图像)的算法,有时候也可以称之为多模态,或跨模态问题。
3.2 计算机视觉发展历史
尽管人们对计算机视觉这门学科的起始时间和发展历史有不同的看法,但应该说,1982年马尔(David Marr)《视觉》(Marr,1982)一书的问世,标志着计算机视觉成为了一门独立学科。计算机视觉的研究内容,大体可以分为物体视觉(object vision)和空间视觉(spatial vision)二大部分。物体视觉在于对物体进行精细分类和鉴别,而空间视觉在于确定物体的位置和形状,为“动作(action)”服务。正像著名的认知心理学家J.J.Gibson所言,视觉的主要功能在于“适应外界环境,控制自身运动”。适应外界环境和控制自身运动,是生物生存的需求,这些功能的实现需要靠物体视觉和空间视觉协调完成。
计算机视觉40多年的发展中,尽管人们提出了大量的理论和方法,但总体上说,计算机视觉经历了三个主要历程。即:马尔计算视觉、多视几何与分层三维重建和基于学习的视觉。下面将对这三项主要内容进行简要介绍[5]。
马尔计算视觉(Computational Vision)
现在很多计算机视觉的研究人员,恐怕对“马尔计算视觉”根本不了解,这不能不说是一件非常遗憾的事。目前,在计算机上调“深度网络”来提高物体识别的精度似乎就等于从事“视觉研究”。事实上,马尔的计算视觉的提出,不论在理论上还是研究视觉的方法论上,均具有划时代的意义。
马尔的计算视觉分为三个层次:计算理论、表达和算法以及算法实现。由于马尔认为算法实现并不影响算法的功能和效果,所以,马尔计算视觉理论主要讨论“计算理论”和“表达与算法”二部分内容。马尔认为,大脑的神经计算和计算机的数值计算没有本质区别,所以马尔没有对“算法实现”进行任何探讨。从现在神经科学的进展看,“神经计算”与数值计算在有些情况下会产生本质区别,如目前兴起的神经形态计算(Neuromorphological computing),但总体上说,“数值计算”可以“模拟神经计算”。至少从现在看,“算法的不同实现途径”,并不影响马尔计算视觉理论的本质属性。
多视几何与分层三维重建
上世纪90年代初计算机视觉从“萧条”走向进一步“繁荣”,主要得益于以下二方面的因素:首先,瞄准的应用领域从精度和鲁棒性要求太高的“工业应用”转到要求不太高,特别是仅仅需要“视觉效果”的应用领域,如远程视频会议(teleconference),考古,虚拟现实,视频监控等。另一方面,人们发现,多视几何理论下的分层三维重建能有效提高三维重建的鲁棒性和精度。
多视几何的代表性人物首数法国INRIA的O.Faugeras,美国GE研究院的R.Hartely和英国牛津大学的A.Zisserman。应该说,多视几何的理论于2000年已基本完善。2000年Hartley和Zisserman合著的书(Hartley & Zisserman2000)对这方面的内容给出了比较系统的总结,而后这方面的工作主要集中在如何提高“大数据下鲁棒性重建的计算效率”。
大数据需要全自动重建,而全自动重建需要反复优化,而反复优化需要花费大量计算资源。所以,如何在保证鲁棒性的前提下快速进行大场景的三维重建是后期研究的重点。举一个简单例子,假如要三维重建北京中关村地区,为了保证重建的完整性,需要获取大量的地面和无人机图像。假如获取了1万幅地面高分辨率图像(4000×3000),5千幅高分辨率无人机图像(8000×7000)(这样的图像规模是当前的典型规模),三维重建要匹配这些图像,从中选取合适的图像集,然后对相机位置信息进行标定并重建出场景的三维结构,如此大的数据量,人工干预是不可能的,所以整个三维重建流程必须全自动进行。这样需要重建算法和系统具有非常高的鲁棒性,否则根本无法全自动三维重建。在鲁棒性保证的情况下,三维重建效率也是一个巨大的挑战。所以,目前在这方面的研究重点是如何快速、鲁棒地重建大场景。
基于学习的视觉
基于学习的视觉,是指以机器学习为主要技术手段的计算机视觉研究。基于学习的视觉研究,文献中大体上分为二个阶段:本世纪初的以流形学习为代表的子空间法和目前以深度学习为代表的视觉方法。
物体表达是物体识别的核心问题,给定图像物体,如人脸图像,不同的表达,物体的分类和识别率不同。另外,直接将图像像素作为表达是一种“过表达”,也不是一种好的表达。流形学习理论认为,一种图像物体存在其“内在流形”(intrinsic manifold),这种内在流形是该物体的一种优质表达。所以,流形学习就是从图像表达学习其内在流形表达的过程,这种内在流形的学习过程一般是一种非线性优化过程。深度学习的成功,主要得益于数据积累和计算能力的提高。深度网络的概念上世纪80年代就已提出来了,只是因为当时发现“深度网络”性能还不如“浅层网络”,所以没有得到大的发展。
目前似乎有点计算机视觉就是深度学习的应用之势,这可以从计算机视觉的三大国际会议:国际计算机视觉会议(ICCV),欧洲计算机视觉会议(ECCV)和计算机视觉和模式识别会议(CVPR)上近年来发表的论文可见一般。目前的基本状况是,人们都在利用深度学习来“取代”计算机视觉中的传统方法。“研究人员”成了“调程序的机器”,这实在是一种不正常的“群众式运动”。牛顿的万有引力定律,麦克斯韦的电磁方程,爱因斯坦的质能方程,量子力学中的薛定谔方程,似乎还是人们应该追求的目标。
3.3 人才概况
全球人才分布
学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为计算机视觉领域全球学者分布情况:
图 3-1计算机视觉全球学者分布
地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸;亚洲也有较多的人才分布,主要集中在我国东部及日韩地区;欧洲的人才主要分布在欧洲中西部;其他诸如非洲、南美洲等地区的学者非常稀少;计算机视觉领域的人才分布与各地区的科技、经济实力情况大体一致。此外,在性别比例方面,计算机视觉中男性学者占比91.0%,女性学者占比9.0%,男性学者占比远高于女性学者。
计算机视觉学者的h-index 分布如下图所示,大部分学者的h-index 分布在中间区域,其中h-index 在20-30 区间的人数最多,有706 人,占比34.7%,小于20 的区间人数最少,有81人。
中国人才分布
我国专家学者在计算机视觉领域的分布如下图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是珠三角和长三角地区,相比之下,内陆地区的人才较为匮乏,这种分布与区位因素和经济水平情况不无关系。同时,通过观察中国周边国家的学者数量情况,特别是与日韩、东南亚等亚洲国家相比,中国在计算机视觉领域学者数量相对较多。中国国际合作
中国与其他国家在计算机视觉的合作情况可以根据AMiner数据平台分析得到,通过统计论文中作者的单位信息,将作者映射到各个国家中,进而统计中国与各国之间合作论文的数量,并按照合作论文发表数量从高到低进行了排序,如下表所示。
从上表数据可以看出,中美合作的论文数、引用数、学者数遥遥领先,表明中美间在计算机视觉领域合作之密切;同时,中国与世界各地区之间的合作非常广泛,前10名合作关系里包含了欧洲、亚洲、北美洲以及大洋洲等;中国与加拿大合作的论文数虽然不是最多,但是拥有最高的平均引用数说明在合作质量上中加合作达到了较高的水平。3.4 论文解读
本节对本领域的高水平学术会议论文进行挖掘,解读这些会议在2018-2019年的部分代表性工作。会议具体包括:
IEEE Conference on Computer Vision and Pattern RecognitionIEEE International Conference on Computer VisionEuropean Conference on Computer Vision
我们对本领域论文的关键词进行分析,统计出词频Top20的关键词,生成本领域研究热点的词云图。其中,计算机视觉(computer vision)、图像(images)、视频(videos)是本领域中最热的关键词。
论文题目:Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
中文题目:具有空洞分离卷积的编码-解码器用于语义图像分割
论文作者:Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,Hartwig Adam
论文出处:Proceedings of the European conference on computer vision (ECCV). 2018: 801-818.
论文地址:https://link.springer.com/chapter/10.1007%2F978-3-030-01234-2_49
研究问题:语义分割是计算机视觉中一项基本且重要的研究内容,它是为图像中的每个像素分配语义标签。在深度学习语义分割任务中经常会使用空间金字塔池化和编码-解码器结构。空间金字塔池化可以通过不同分辨率的池化特征捕捉丰富的上下文信息,但网络中具有步进操作的池化或卷积会导致与对象边界有关的详细信息丢失。这可以通过空洞卷积提取更密集的特征图来缓解,但大大增加了计算资源的消耗。而编码-解码器结构则可以通过逐渐恢复空间信息来捕获更清晰的对象边界。通过组合两种方法的优点,提出新的模型—DeepLabv3+。
研究方法:如下图是DeepLabv3+的网络结构,通过添加一个简单但有效的解码器模块来优化分割结果,尤其是对象边界的分割结果,扩展了DeepLabv3。编码器模块(DeepLabv3)通过在多个尺度上应用空洞卷积,编码多尺度上下文信息。空洞卷积可以明确控制由深度卷积神经网络所提特征的分辨率,并调整滤波器的感受野以捕获多尺度信息。而简单而有效的解码器模块则沿对象边界调整分割结果。
为了进一步提高模型的性能和速度,将深度分离卷积应用于ASPP(空洞空间金字塔池化)和解码器模块。深度分离卷积将传统的卷积分解为一个深度卷积和一个1×1的逐点卷积,在深度卷积操作时应用膨胀率不同的空洞卷积,以获取不同的尺度信息。
研究结果:以用ImageNet-1k预训练的ResNet-101和修改的对齐Xception(更多的层、步进深度分离卷积替代最大池化、额外的BN和ReLU)为骨架网络,通过空洞卷积提取稠密特征。在PASCAL VOC 2012和Cityscapes数据集上证明了DeepLabv3+的有效性和先进性,无需任何后处理即可实现89%和82.1%的测试集性能。但是对非常相近的物体(例如椅子和沙发)、严重遮挡的物体和视野极小的物体较难进行分割。
论文题目:MobileNetV2: Inverted Residuals and Linear Bottlenecks
中文题目:MobileNetV2: 反向残差和线性瓶颈
论文作者:Sandler Mark,Howard Andrew,Zhu Menglong,Zhmoginov Andrey,Chen Liang-Chieh
论文出处:2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2018
论文地址:https://ieeexplore.ieee.org/document/8578572
研究问题:在众多计算机视觉领域中,深度神经网络正扮演越来越重要的角色。但是优秀性能的获得通常是以高昂计算资源为代价的,从而大大限制了在计算资源严重受限的移动端或嵌入式设备中使用。因此轻量化网络的研究在近期收到了大量关注,本文提出了一种新的移动端轻量化模型——MobileNetV2,在保持相同精度的同时显着减少了所需的操作和内存需求,关键是设计了具有线性瓶颈的反向残差模块。将上述模型应用于移动端目标检测,介绍了一种有效的方法—SSDLite。此外,通过简化的DeepLabv3构建移动端语义分割模型—Mobile DeepLabv3。
研究方法:MobileNetV2的关键是具有线性瓶颈的反向残差模块,该模块以低维压缩表示作为输入,首先将其扩张到高维,然后使用轻量级的深度卷积进行过滤,最后使用线性卷积将特征投影回低维表示。其包含两个主要的技术:深度分离卷积和残差模块。
深度分离卷积是很多有效的神经网络结构中关键的组成部分,其基本思想是将传统卷积分解为两部分:第一层称为深度卷积,它通过对每个输入通道应用单个卷积滤波器来执行轻量化滤波;第二层是1×1卷积,称为逐点卷积,它通过计算输入通道的线性组合来构建新特征。深度分离卷积的计算量相对于传统卷积减少了大约k2(k是卷积核大小),但是性能只有极小的降低。
我们可以认为深度神经网络中任意层的激活组成一个“感兴趣流形”,它可以嵌入到低维子空间中。也就是说,深度卷积层中所有单个通道的像素,其中编码的信息实际上位于某种流形中,而该流形可以嵌入到低维子空间中。通过分析作者得到两个属性:
(1)如果感兴趣流形在ReLU变换后仍保持非零值,则对应于线性变换;(2)ReLU能够保留输入流形的完整信息,但前提是输入流形位于输入空间的一个低维子空间中。
基于以上两个观点,帮助作者优化现有的神经网络结构:假设感兴趣流形是低维的,可以通过向卷积块插入线性瓶颈获得该流形,即本文核心具有线性瓶颈的反向残差模块,其结构如下图所示。先使用逐点卷积扩大通道数+ReLU激活,然后使用逐深度卷积提取特征+ReLU激活,最后使用逐点卷积降低通道数+线性激活,并且使用了shortcut连接。
研究结果:研究者首先通过实验验证了反向残差连接和线性瓶颈的有效性,然后在图像分类、目标检测和语义分割三个任务上证明了本文网络结构的先进性。ImageNet图像分类任务上MobileNetV2的Top1最好可达74.7,优于MobileNetV1、ShuffleNet和NASNet-A。在目标检测任务上,MNetV2+SSDLite与MNetV1+SSDLite的mAP很接近,但参数量和计算时间都明显减少。在语义分割任务上保持较好性能的同时减少了参数量和计算资源的消耗。
论文题目:The Unreasonable Effectiveness of Deep Features as a Perceptual Metric
中文题目:深度特征作为感知度量的有效性
论文作者:Zhang Richard,Isola Phillip,Efros Alexei A.,Shechtman Eli,Wang Oliver
论文出处:2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2018
论文地址:https://ieeexplore.ieee.org/document/8578166
研究方法:对于人类来说,评估两幅图像之间的感知相似度几乎是毫不费力且快速的,但其潜在过程却被认为是相当复杂的。视觉模式是高维且高度相关的,视觉相似性的概念十分主观。例如在图像压缩领域,压缩图像是为了人类看来与原始图像没有很大区别,而不关注它们在像素值上可能有很大的差别。
当今最广泛使用的、传统的基于像素值的度量方法(例如L2 欧式距离、PSNR)或感知距离度量(如SSIM、MSSIM 等)是简单的浅层函数,无法解决人类感知的许多细微差别,一个最典型的例子就是模糊会造成图像在感知上的很大不同,但是在L2 范数上却差别不大。如下图所示,传统的评价指标与人类的感知判断是完全相反的。
近期深度学习社区发现,将在ImageNet 分类中训练的VGG 网络模型所提取的深度特征,用作图像合成的训练损失是非常有用,一般将这种损失称为“感知损失” (perceptual losses)。但是这些感知损失的作用有多大?哪些要素对其成功至关重要?本文研究者们尝试探讨了这些问题。
研究方法:对于人类来说,评估两幅图像之间的感知相似度几乎是毫不费力且快速的, _但其潜在过程却被认为是相当复杂的。视觉模式是高维且高度相关的,视觉相似性的概念十分主观。例如在图像压缩领域,压缩图像是为了人类看来与原始图像没有很大区别,而不关注它们在像素值上可能有很大的差别。
当今最广泛使用的、传统的基于像素值的度量方法(例如L2 欧式距离、PSNR)或感知距离度量(如SSIM、MSSIM 等)是简单的浅层函数,无法解决人类感知的许多细微差别,一个最典型的例子就是模糊会造成图像在感知上的很大不同,但是在L2 范数上却差别不大。如下图所示,传统的评价指标与人类的感知判断是完全相反的。近期深度学习社区发现,将在ImageNet 分类中训练的VGG 网络模型所提取的深度特征,用作图像合成的训练损失是非常有用,一般将这种损失称为“感知损失” (perceptual losses)。
但是这些感知损失的作用有多大?哪些要素对其成功至关重要?本文研究者们尝试探讨了这些问题。
研究方法:为了研究将深度神经网络提取的深度特征作为感知损失的有效性,本文研究者们构造了一个人类感知相似性判断的新数据集——Berkeley-Adobe Perceptual Patch Similarity Dataset(BAPPS 数据集)。该数据集包括484K 个人类判断,具有大量传统失真,如对比度、饱和度和噪声等;还有基于CNN 模型的失真,例如自编码、降噪等造成的失真;以及一些真实算法的失真,如超分辨率重建、去模糊等真实应用。
论文用如下公式计算在给到一个网络时,参考和失真图像块的距离。首先提取特征,然后将通道维度的激活归一化,用向量缩放每个通道,并采用2 距离。最后对空间维度的所有层取平均。
研究结果:作者进行了大量的实验,系统地评估了不同网络结构和任务中的深度特征, _并将它们与经典指标进行比较,发现深度特征是一种非常好的感知度量指标。更令人惊讶的是,该结果不仅限于ImageNet 训练的VGG 提取的深度特征,而且还适用于不同的深度网络结构和不同的训练方式(监督,自监督,甚至无监督)。
论文题目:Residual Dense Network for Image Super-Resolution
中文题目:基于残差密集网络的图像超分辨率重建
论文作者:Yulun Zhang,Yapeng Tian,Yu Kong,Bineng Zhong,Yun Fu
论文出处:2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2018
论文地址:https://ieeexplore.ieee.org/document/8578360
研究内容:单幅图像超分辨率(SISR)旨在通过其退化的低分辨率(LR)观测结果生成视觉上令人愉悦的高分辨率(HR)图像。最近,深度卷积神经网络在图像超分辨率重建方面取得了巨大的成功,网络的不断加深使模型能提供丰富分层特征,图像中的目标具有不同的比例、视角和宽高比,来自非常深的网络的分层特征能为重建提供更多线索。但是,大多数基于卷积神经网络的深层图像超分辨率模型都没有充分利用原始低分辨率(LR)图像中的分层特征,以致获得了相对较低的性能。在本文中,研究者提出了一种新颖的残差密集网络(RDN)来解决图像超分辨率中的上述问题,使模型能充分利用所有卷积层提取的分层特征。
研究方法:如下图是残差密集网络RDN,主要包含四部分:浅层特征提取网络(SFEnet)、残差密集块(RDBs)、密集特征融合(DFF)和上采样网络(UPNet)。
一个非常深的网络直接提取LR 空间中每个卷积层的输出是困难且不切实际的,所以使用残差密集块(RDB)作为RDN 的构建模块。RDB 由密集连接层和具有局部残差学习能力的局部特征融合(LFF)组成。RDB还支持RDB之间的连续存储,一个RDB的输出可以直接访问下一个RDB中每一层,形成连续的状态传递。RDB中的每个卷积层都可以访问所有后续层,并传递需要保留的信息。局部特征融合将先前的RDB和当前RDB中所有先前层的状态连接在一起,通过自适应保留信息来提取局部密集特征。LFF通过更高的增长率来稳定更宽网络的训练。在提取多层局部密集特征后,进一步进行全局特征融合(GFF),以全局方式自适应地保留分层特征。在RDN中每个卷积层卷积核大小为3×3,局部和全局特征融合卷积核大小为1×1。在上采样部分使用ESPCNN提升图像的分辨率。
研究结果:使用DIV2K数据集中全部的800幅训练图像训练模型,测试选用5个标准基准数据集:Set5、Set14、B100、Urban和Manga109。为了全面地说明所提方法的有效性,模拟了三种图像退化过程:(1)双三次下采样(BI);(2)高斯核模糊HR图像,再下采样(BD);(3)先双三次下采样,再加入高斯噪声(DN)。
作者进行了大量的实验发现:(1)RDB数量或RDB中卷积层数量越多,模型性能越好;增长率越大也会获得更好的性能。当上述模块使用数量较少时RDN依然比SRCNN性能好。(2)进行了消融实验,验证了所提模型中连续存储、局部残差学习和全局特征融合的有效性。(3)在三种退化模型上与六种先进的模型进行了对比:SRCNN、LapSRN、DRNN、SRDenseNet、MemNet和MDSR。在不同比例因子、退化模型和数据集中,RDN都表现出了相近甚至更好的性能。
论文题目:ShuffleNet V2: Practical guidelines for efficient cnn architecture design
中文题目:ShuffleNet V2:高效CNN网络结构设计实用指南
论文作者:Ma Ningning,Zhang Xiangyu,Zheng Hai-Tao,Sun Jian
论文出处:Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), v 11218 LNCS, p 122-138, 2018, Computer Vision – _ECCV 2018 - 15th European Conference, 2018, Proceedings
论文链接:https://link.springer.com/chapter/10.1007%2F978-3-030-01264-9_8
研究内容:自AlexNet之后,ImageNet图像分类准确率被很多新的网络结构如ResNet和DenseNet等不断提高,但是除准确率外,计算复杂度也是CNN网络需要考虑的重要指标。实际任务通常是要在有限的计算资源下获得最佳的精度,过复杂的网络由于速度原因难以在移动端等设备中应用。
为此,研究者们提出了很多轻量化的CNN网络如MobileNet和ShuffleNet等,在速度和准确度之间做了较好地平衡。以往的移动端CNN网络结构设计在考虑计算复杂度时,直接致力于优化整体网络计算所需的FLOPs,并没有考虑真正关心的速度和延迟,且具有相似FLOPs的网络速度也是不同的。像内存访问开销(MAC)、计算平台等也是需要考虑的方面。为了实际需求,本文研究者不局限于追求理论FLOPs的减少,从更直接的角度为轻量化网络设计提供指导意见。
研究方法:
作者建议有效的网络结构设计应考虑两个原则。首先,应使用直接指标(例如速度)代替间接指标(例如FLOP)。其次,应在目标平台上评估此类指标。通过对两个代表性最新网络的分析,作者得出了关于有效网络设计的四项准则:
(1)卷积层的输入和输出特征通道数相等时MAC最小;(2)过多的组卷积会增大MAC;(3)网络碎片化会降低并行度;(4)元素级的操作(element-wise)会增加时间消耗。
遵循以上准则提出了一个更有效的网络结构——ShuffleNet V2。下图是ShuffleNet V1(图中a和b)和ShuffleNet V2(图中c和d)组成模块的对比。对比(a)和(b),ShuffleNet V2首先用Channel Split操作将输入按通道分成两部分,一部分直接向下传递,另外一部分则用于计算;然后弃用了1x1的组卷积,将通道混洗操作(Channel Shuffle)移到了最后,并将前面的Add操作用Concat代替。
研究结果:论文进行了大量的实验,与MobileNet V1/V2、ShuffleNet V1、DenseNet、Xception、IGCV3-D、NASNet-A等模型在速度、精度、FLOPs上进行了详细的对比。实验中不少结果都和前面几点发现吻合,ShuffleNet V2在准确率和速度方面达到了很好的平衡。
论文题目:A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
**中文题目:非视距形状重建的费马路径理论**论文作者:Shumian Xin, Sotiris Nousias, Kiriakos N. Kutulakos, Aswin C. Sankaranarayanan,Srinivasa G. Narasimhan, and Ioannis Gkioulekas.
论文出处:CVPR 2019 : IEEE Conference on Computer Vision and Pattern Recognition.
论文地址:https://www.ri.cmu.edu/wp-content/uploads/2019/05/cvpr2019.pdf
研究问题:很多时候摄像头可能无法拍摄全部场景或物体,例如,面对摄像机的物体背面,拐角处的物体或通过漫射器观察到的物体。非视距(non-line-of-sight,NLOS)成像对于许多安全保护应用至关重要。一些传统方法通过分析隐藏场景投射阴影的细微本影和半影,以估计粗糙的运动和结构,或使用光的相干特性来定位隐藏的对象,但很难重建任意隐藏场景的3D形状。基于主动照明的瞬态NLOS成像大多采用快速调制光源和时间分辨传感器,但现有的SPAD强度估计不理想,而且重建NLOS对象的朗伯反射率假设。作者使用NLOS瞬态测量得出几何约束而非强度约束的方法来克服上述限制。
上图为非视距成像示例:被遮光板遮挡(a)和被漫射板遮挡(b)的物体表面重建结果与视距扫描结果(c)对比。
研究方法:作者提出了一个新的光费马路径(Fermat path)理论,即光在已知的可见场景和不处于瞬态相机视线范围内的未知物体之间,这些光要么从镜面反射,要么被物体的边界反射,从而编码了隐藏物体的形状。作者证明,费马路径对应于瞬态测量中的不连续性,间断点的位置仅与NLOS对象的形状有关,与其反射率(BRDF)无关。并推导出一个新的约束条件,它将这些不连续处的路径长度的空间导数与曲面的曲率相关联。
基于此理论,作者提出了一种称为费马流(Fermat Flow)的算法,用于估计非视距物体的形状。其关键在于,费马路径长度的空间导数可唯一确定隐藏场景点的深度和法线,再拟合和估算平滑路径长度函数,进一步结合深度和法线获得光滑的网格,从而精确恢复了对复杂对象(从漫反射到镜面反射)形状,范围从隐藏在拐角处以及隐藏在漫射器后面的漫反射到镜面反射。最后,该方法与用于瞬态成像的特定技术无关。
研究结果:作者使用了一些不同BRDF的凹凸几何形状的日常物品,包括半透明(塑料壶),光滑(碗,花瓶),粗糙镜面(水壶)和光滑镜面(球形)等。分别开展了使用SPAD和超快激光从皮秒级瞬态中恢复毫米级形状,以及使用干涉法实现从飞秒级瞬态中恢复毫米级形状的两种实验,实验结果显示重建细节与groundtruth形状非常吻合。
论文题目:Implicit 3D Orientation Learning for 6D Object Detection from RGB Images
**中文题目:从RGB 图像检测6维位姿的隐式三维朝向学习**论文作者:Martin Sundermeyer , Zoltan-Csaba Marton , Maximilian Durner , Rudolph Triebel
论文出处:ECCV 2018: European Conference on Computer Vision.
论文地址:http://openaccess.thecvf.com/content_ECCV_2018/papers/Martin_Sundermeyer_Implicit_3D_Orientation_ECCV_2018_paper.pdf
研究问题:对于诸如移动机器人控制和增强现实之类的应用而言,现代计算机视觉系统中最重要的组件之一就是可靠且快速的6D目标检测模块。至今尚无通用,易于应用,强大且快速的解决方案。原因是多方面的:首先,当前的解决方案通常不足以有效处理典型的挑战;其次,现有方法通常需要某些目标属性。而且,当前的方法在运行时间以及所需带标注的训练数据的数量和种类方面效率都不高。作者提出对单个RGB图像进行操作,可在很大程度上不需要深度信息,显著增加可用性。
研究方法:
上图为6D目标检测管道具有齐次坐标变换Hcam2obj(右上)和深度细化结果Hcam2obj(refined)(右下)。作者提出了一种基于RGB的实时目标检测和6D姿态估计流程。首先使用SSD(Single Shot Multibox Detector)来提供目标边界框和标识符。其次,在此基础上,采用新颖的3D方向估计算法,该算法基于之前的降噪自动编码器(Denoising Autoencoder)的通用版本,增强型自动编码器(AAE)。AAE使用一种新颖的域随机化策略,模型学到的并不是从输入图像到物体位姿的显式映射,而是会根据图像样本在隐含空间内建立一个隐式的物体位姿表征。因而,训练独立于目标方向的具体表示(例如四元数),避免从图像到方向的一对多映射,由此AAE可处理由对称视图引起的模糊姿态。另外学习专门编码3D方向的表征,同时实现对遮挡,杂乱背景的鲁棒性,并可推广到对不同环境和测试传感器。而且,AAE不需要任何真实的姿势标注训练数据。相反,它被训练为以自我监督的方式编码3D模型视图,克服了对大型姿势标注数据集的需要。下图为AAE训练过程。
研究结果:作者在T-LESS和LineMOD数据集上评估了AAE和整个6D检测管道,仅包括2D检测,3D方向估计和投影距离估计。与最先进的深度学习方法相比,AAE准确性更好,同时效率更高。另外,作者也分析了一些失败案例,主要源于检测失败或强遮挡。
论文题目:SinGAN: Learning a Generative Model from a Single Natural Image
中文题目:SinGAN:从单张图像学习生成模型
论文作者:Tamar Rott Shaham ,Technion Tali Dekel ,Google Research ,Tomer Michaeli ,Technion
论文出处:ICCV 2019 : IEEE International Conference on Computer Vision.
论文地址:https://arxiv.org/pdf/1905.01164.pdf
研究问题:生成对抗网络(Generative Adversarial Nets ,GAN)在模拟视觉数据的高维分布方面取得了巨大飞跃。特别是用特定类别的数据集(如人脸、卧室)进行训练时,非条件GAN在生成逼真的、高质量的样本方面取得了显著成功。但对高度多样化、多种类别的数据集(如ImageNet)的模拟仍然是一项重大挑战,而且通常需要根据另一输入信号来调整生成或为特定任务训练模型。对单个自然图像中各种图像块的内部分布进行建模已被公认为是许多计算机视觉任务的有用先验。作者将GAN带入到一个新领域—从单个自然图像中学习非条件生成模型。单个自然图像通常具有足够的内部统计信息,可学习到强大的生成模型,而不必依赖某个相同类别的数据集。为此,作者提出了一个新的单图像生成模型SinGAN,能够处理包含复杂结构和纹理的普通自然图像的神经网络。
相对于左边的原始图像,SinGAN生成新的逼真的图像样本,该样本在创建新的对象配置和结构的同时保留原始图像块分布。
研究方法:作者的目标是学习一个非条件生成模型,该模型可捕获单个训练图像的内部统计数据。 此任务在概念上与常规GAN设置相似,不同之处在于,训练样本是单个图像的多尺度的图像块,而非整个图像样本。为此,SinGAN生成框架由具有层级结构的patch-GANs(马尔可夫判别器)组成,其中每个判别器负责捕获不同尺度的分布,这是第一个为从单个图像进行内部学习而探索的网络结构。图像样本从最粗尺度开始,然后依次通过所有的生成器直到最细尺度,且每个尺度都注入噪声。所有生成器和判别器具有相同的感受野,因此,随着生成过程推进可以捕获更细尺寸的结构。在训练时,对抗损失采用WGAN-GP损失,以增加训练稳定性。并设计了一种重建损失来确保可以生成原始图像的特定噪声图谱集合。
研究结果:作者在图像场景跨度很大的数据集上进行了测试。直观上,SinGAN很好地保留目标的全局结构和纹理信息,很真实地合成了反射和阴影效果。再使用AMT真假用户调研和FID的单幅图像版本进行量化。AMT测试结果表明可以生成很真实的样本,对于细节保留的也更多,人类判别的混淆率较高。FID结果与AMT一致。
3.5 计算机视觉进展
近年来,巨量数据的不断涌现与计算能力的快速提升,给以非结构化视觉数据为研究对象的计算机视觉带来了巨大的发展机遇与挑战性难题,计算机视觉也因此成为学术界和工业界公认的前瞻性研究领域,部分研究成果已实际应用,催生出人脸识别、智能视频监控等多个极具显示度的商业化应用。
计算机视觉的研究目标是使计算机具备人类的视觉能力,能看懂图像内容、理解动态场景,期望计算机能自动提取图像、视频等视觉数据中蕴含的层次化语义概念及多语义概念间的时空关联等。计算机视觉领域不断涌现出很多激动人心的研究成果,例如,人脸识别、物体识别与分类等方面的性能已接近甚至超过人类视觉系统。本文根据近两年计算机视觉领域顶级会议最佳论文及高引论文,对该领域中的技术现状和研究前沿进行了综合分析。
近两年大多数研究都集中在深度学习、检测和分类以及面部/手势/姿势、3D传感技术等方面。随着计算机视觉研究的不断推进,研究人员开始挑战更加困难的计算机视觉问题,例如,图像描述、事件推理、场景理解等。单纯从图像或视频出发很难解决更加复杂的图像理解任务,一个重要的趋势是多学科的融合,例如,融合自然语言处理领域的技术来完成图像描述的任务。图像描述是一个融合计算机视觉、自然语言处理和机器学习的综合问题,其目标是翻译一幅图片为一段描述文字。目前主流框架为基于递归神经网络的编码器解码器结构其核心思想类似于自然语言机器翻译。
但是,由于递归网络不易提取输入图像和文本的空间以及层次化约束关系,层次化的卷积神经网络以及启发自认知模型的注意力机制受到关注。如何进一步从认知等多学科汲取知识,构建多模态多层次的描述模型是当前图像描述问题研究的重点。
事件推理目标是识别复杂视频中的事件类别并对其因果关系进行合理的推理和预测。与一般视频分析相比,其难点在于事件视频更加复杂,更加多样化,而最终目标也更具挑战性。不同于大规模图像识别任务,事件推理任务受限于训练数据的规模,还无法构建端到端的事件推理系统。目前主要使用图像深度网络作为视频的特征提取器,利用多模态特征融合模型,并利用记忆网络的推理能力,实现对事件的识别和推理认知。当前研究起源于视频的识别和检测,其方法并未充分考虑事件数据的复杂和多样性。如何利用视频数据丰富的时空关系以及事件之间的语义相关性,应是今后的关注重点。
场景理解的目的是计算机视觉系统通过分析处理自身所配置的传感器采集的环境感知数据,获得周围场景的几何/拓扑结构、组成要素(人、车及物体等)及其时空变化,并进行语义推理,形成行为决策与运动控制的时间、空间约束。近年来,场景理解已经从一个初期难以实现的目标成为目前几乎所有先进计算机视觉系统正在不断寻求新突破的重要研究方向。
利用社会-长短记忆网络(Social-LSTM)实现多个行人之间的状态联系建模,结合各自运动历史状态,决策出未来时间内的运动走向。此外神经网络压缩方向也是是目前深度学习研究的一个热门的方向,其主要的研究技术有压缩,蒸馏,网络架构搜索,量化等。
综上所述,视觉的发展需要设计新的模型,它们需要能考虑到空间和时间信息;弱监督训练如果能做出好的结果,下一步就是自监督学习;需要高质量的人类检测和视频对象检测数据集;结合文本和声音的跨模态集成;在与世界的交互中学习。
立即体验工业视觉智能平台训练:
https://www.aliyun.com/product/indvi?spm=5176.12825654.h2v3icoap.467.e9392c4a1KMEL9&aly_as=c7DQGDJ5
将阿里云基于工业各场景中的最佳实践所获得的预训练模型与用户实际场景中的样本数据结合,通过用户样本数据的训练对模型进行定制优化,从而适配用户实际使用场景。
文章
机器学习/深度学习 · 传感器 · 存储 · 编解码 · 人工智能 · 自然语言处理 · 监控 · 算法 · 定位技术 · 计算机视觉
2019-12-26
镁客网每周硬科技领域投融资汇总(3.10-3.16),英伟达大手笔发起芯片收购案
本周,恒大健康在今年第三次为“新能源造车梦”添砖加瓦。
本周硬科技领域投融资事件一共52起,人工智能领域发生23起融资事件和1起收购事件,占比45%;生物医药领域发生9起融资事件,占比17%;物联网领域发生6起融资事件,区块链领域发生5起融资事件和1起收购事件,分别占比12%;半导体领域发生3起融资事件和1起收购事件,占比8%;3R(VR/AR/MR)、新能源领域分别发生1起收购事件,新材料领域发生1起融资事件,分别占比2%。
本周,半导体领域发生一起巨额收购事件,主体分别是买方英伟达和卖方Mellanox,后者主要面向服务器、数据中心提供网络处理器、网卡、交换机等产品,应用场景包括高性能计算、企业数据中心等等。收购之后,Mellanox将能够助力英伟达进军不断增长的数据中心组件市场。
与此同时,恒大健康也在本周为自己的“新能源造车梦”再次添砖加瓦。今年1月份,恒大健康曾相继宣布收购电动汽车公司NEVS的51%股权、动力电池生产商上海卡耐新能源58.07%的股权,这一次,被它选中收购的对象为轮毂电机研发和生产泰特机电。可以看到,恒大健康宣布收购的三家公司均为不同属性,而这些收购都是它为了构造新能源汽车全产业链的布局。显然,这些是不够的,恒大健康未来或将继续发起收购事件。
人工智能
TartanSense
农业机器人初创公司TartanSense完成1.5亿卢比的种子轮融资,投资方包括Omnivore Partners、Blume Ventures和BEENEXT等风投公司,以及Vicarious AI公司联合创始人Dileep George等一批天使投资人。
TartanSense旨在利用深层技术研发专注于农业经济的机器人解决方案。目前,该公司正致力于创造具有更好视野的小型机器人,以便有效、精确地清除一些受损、患病以及受传染的农作物。
越凡创新
专注泛零售领域的服务机器人方案提供商越凡创新完成数千万人民币的A轮融资,投资方为猎豹移动。
越凡创新的核心产品是“FANBOT小贩机器人”,能够在复杂环境中主动寻找目标顾客进行商品推广及销售,并可实时托出商品,帮助客户增加销售收入、提升营销效果。目前,公司已实现底盘软硬件系统的通用化、机器人标准化单元的模块化,同时基于FAN OS交互系统,它能够将机器人整机系统的产品化开发周期缩短至3个月。
星逻智能
无人机机库服务商星逻智能完成千万人民币的Pre-A轮融资,由远瞻资本领投,遨问创投跟投。
星逻智能专注于无人机赋能领域,为行业用户和合作伙伴提供可自动充电、自动调度、自主飞行、自动采集、自动分析等基于机库及云端的产品,可被应用于政府、工业、农业、安防和军用等多个领域。
云信达
云数据管理公司云信达获得数千万人民币的A轮融资,投资方为东方富海。
云信达致力于数据中心、云计算、云存储、云安全、云教育等领域的投入和研发,主要为通信、金融等企业用户提供具有自有知识产权的产品和服务,产品配备各种客户所需要的模块。
Silot
智能金融决策平台Silot完成800万美元的A轮融资,由日本SBI领投,住友商事、Krungsri Finnovate和Arbor Ventures跟投。
Silot的核心是通过快速和可延展的人工智能技术,帮助东南亚银行从传统决策方式向智能化转型。公司的智能平台能够帮助银行将支付、市场营销,信贷以及合规等不同决策连接起来,将数据通过人工智能转化成可应用的商业结论和人工智能决策,提高银行的效率。
虎博科技
智能金融搜索引擎虎博科技完成3300万美元的A轮融资,投资方为PAC、宜信新金融产业投资基金和高榕资本。
基于深度学习及NLP技术,虎博科技目前自主研发了七大金融领域的关键技术,包括智能搜索、智能推荐、机器阅读理解、总结、翻译、舆情分析及撰稿等,在此基础上推出了智能金融搜索和问答系统“虎博搜索”与其他产品。
Shortlyster
Shortlyster获得500万美元的A轮融资,投资方为Tink Taylor、Deepbridge Capital、Andrew Richard Banks投资。
Shortlyster是一个智能招聘优化平台。
Figure Eight
AI平台Figure Eight被Appen以3亿美元的价格收购。
Figure Eight专注于机器学习,特别是将非结构化文本、图像、音频和视频数据转换成人工智能训练数据,主要用于自动驾驶车辆、消费品识别、自然语言处理、搜索相关性和智能聊天机器人。
Tmxmall
Tmxmall完成1800万人民币的A轮融资,由广州市思科尔投资领投。
Tmxmall是一家极致专注于翻译记忆库研究与应用的互联网科技公司,主要致力于翻译记忆库的检索、交换、以及在线CAT等计算机辅助翻译服务,旨在让每一位翻译者都能享受优质翻译记忆库提供的最优翻译服务。
国辰机器人
机器人技术与产业孵化平台国辰机器人完成1亿人民币的A轮融资,由盈实基金领投,洪城资本跟投。
国辰机器人成立于2015年,围绕建设智能机器人产业链生态的目标,有三块核心业务:自有机器人产品研发销售,内部企业孵化,外部投资整合。从商业模式上来说,国辰机器人一方面是通过自有机器人产品和解决方案的销售盈利,另一方面是通过对内部孵化企业以及外部投资企业的持股中获得回报。
Yalochat
基于人工智能驱动的客户关系管理平台Yalochat完成800万美元的A轮融资,领投方为Sierra Ventures。
得益于专业的人工智能技术,Yalochat的解决方案能够在WhatsApp、Facebook Messenger和微信等即时通讯应用平台上实现B2C通讯。
睿智科技
智能金融科技公司睿智科技获得1.9亿人民币的A轮融资,投资方包括三泰控股、北京华鼎新维度企业并购管理中心、宁波梅山保税港区汇莘投资管理合伙企业、成都瑞霖博雅企业管理中心。
睿智科技以大数据洞察力与人工智能技术为手段,专注科技赋能,为广大金融机构提供风控、获客、服务、平台。目前,公司的产品体系包括信贷风险管理、智能催收、一站式智能决策云和智能导流,合计四大类接近二十小类产品,其中信贷风险管理业务包括大数据评分、反欺诈、预警等级、客户画像等产品。
琅瑞医疗
智能心电SaaS平台琅瑞医疗获得Pre-A轮融资,由磐霖资本主投。
琅瑞医疗是国内首家智能心电SaaS平台,自主研发的心电分析SaaS系统能兼容各类心电检测硬件,以独创的智能(AI)算法,对硬件记录的海量心电数据进行识别、处理并归类,将医生从繁杂机械的剔除干扰等工作中解放出来,提升心电医生工作效率并缩短了病患的等待时间。
卓道医疗
卓道医疗完成千万级人民币的Pre-A轮融资,由幂方资本领投,中铂基金跟投。
卓道医疗是一家专注于康复机器人与智能康复解决方案研发与应用的企业,致力于为临床康复提供全球领先的机器人辅助技术和智能康复解决方案。依靠力学交互与智能算法,卓道医疗的康复机器人产品ARMGUIDER能在治疗过程中准确感知患者的意图,以此为依据给予相应的专业力学引导,还提供多种情景训练与游戏系统。
万国数据
高性能数据中心运营商和服务商万国数据获得1.5亿美元的股权融资,投资方为平安海外控股。
万国数据向客户提供业务连续管理体系的全面服务,包括高可用性IT基础环境服务、灾难恢复(BC/DR)规划、实施、运行外包服务、测试中心服务、数据中心平台服务、ECC运行监控服务等,致力于推动中国IT外包服务的发展。
Determined AI
AI初创企业Determined AI完成1100万美元的A轮融资,由GV领投,Amplfy Partners、Haystack和SV Angel也参与投资。
Determined AI的想法是创建软件来处理从管理集群计算资源到工作流程自动化的所有事情,从而使任何组织都能接触到大公司使用的技术。目前,公司正试图帮助客户从目前可用的通用解决方案转向更个性化的方法,使用Determined AI工具来帮助加快AI的开发过程。
灵西机器人
灵西机器人完成数千万人民币的Pre-A轮融资,由希夷资产投资。
灵西机器人专注于仓储物流、先进制造、食品农业等领域的产业升级,以应用计算机视觉技术和机器人智能规划技术提供产业无人化解决方案。官方称,公司的产品灵动机器人能快速识别各种物品混合摆放的情况,识别准确率高,作业效率能达到800件每小时。
Enpicom
生物医学软件开发公司Enpicom完成120万欧元的A轮融资,由BOM Brabant Ventures领投,Nextgen Ventures和Arches Capital跟投。
Enpicom专注于为免疫治疗开发人员提供软件技术支持,以加速新型免疫疗法的发现和开发。公司开发了市场上第一个全套测序数据分析平台ImmunoGenomix(IGX),可用于管理、储存、分析和解释T细胞和B细胞受体库的克隆测序数据,正处于全球推广准备工作的最后阶段。
Think Surgical
医疗设备制造商Think Surgical完成1.34亿美元的融资。
Think Surgical致力于开发帮助外科医生执行手术的机器人辅助系统,确保医生的外科专业知识能够得到充分利用,外科手术计划能够准确地按照规定实施。公司研发的外科辅助系统“TSolution One”旨在使用基于计算机断层扫描的三维规划和开放的种植体库,帮助医生制定个性化的术前关节置换计划。
RCT STUDIO
AI娱乐公司RCT STUDIO获得来自YC中国、星瀚资本的两轮融资,金额约为数百万美元。
RCT STUDIO的主要业务是借助分布式机器学习、自然语言处理等AI 技术,重构好莱坞电影与游戏行业,为用户提供类似《西部世界》、《头号玩家》中的娱乐交互体验。
Dental Monitoring
牙科及正畸领域人工智能解决方案提供商Dental Monitoring获得4500万欧元的融资,投资方为Vitruvian Partners。
Dental Monitoring的所有解决方案均为app或云端服务,允许牙科专业人员在诊所或远程评估和监测包括正畸在内的牙科病况,旨在通过运用精密评估工具来提高治疗水平,通过简化沟通来增进患者参与度,并同时提高患者便利和执业效率。
Polarr
Polarr完成1150万美元的A轮融资,由DFJ德丰杰领投,Cota Capital和Pear Ventures跟投。
Polarr长期致力于计算机视觉以及深度学习技术研发,产品除泼辣修图外,还包括主打AI影像的泼辣相册、泼辣构图等产品。此外,Polarr的视觉引擎还应用于不同的硬件企业,包括三星、高通、OPPO、HoverCam等。
易航智能
自动驾驶解决方案服务商易航智能获得1亿人民币的B+轮融资,由广汽资本旗下基金投资。
易航智能的目标是为国内外主机厂提供完整的自动驾驶域控制器,涵盖感知、决策、控制各环节,还包括满足功能安全要求的整套故障诊断算法。易航智能为L2-L2.5级量产车配备的传感器包括了超声波雷达、毫米波雷达和摄像头,而针对L3级量产车,他们会选择性地添加车规级激光雷达,以适应高速行驶的要求。
TriNetX
临床研究数据分析软件开发商TriNetX获得4000万美元的D轮融资,由Merck’s Global Health Innovation Fund领投,MPM Capital、三井、伊藤忠、F2 Ventures和Deerfield Management等参投。
TriNetX提供了三个基于云计算、符合美国HIPAA患者隐私法案和欧盟《通用数据保护条例》的订阅服务:TriNetX Research、TriNetX Download和TriNetX Analyze,让用户能够从“数十亿”临床事实组成的数据库中查询、下载数据,包括出院小结、实验室、生命体征、跨治疗领域的深入专业信息等等。此外,TriNetX利用来自德国Averbis公司的自然语言处理技术,从患者的医生记录中挖掘非结构化数据,该数据随后映射到标准化临床术语,以便补充不完整的医疗记录。
3R(VR/AR/MR)
Mindesk
AR/VR实时CAD协作平台开发商Mindesk完成90万美元的种子轮融资,投资方为HTC Vive、Barcamper Ventures、A11 Venture和Invitalia Ventures。
Mindesk已经为CAD软件开发了一系列的插件,如McNeel Rhinoceros和Grasshopper。在安装后,用户能够快速跳转至VR,以原始格式可视化、创建和编辑3D CAD项目。
物联网
常仁科技
健康管理整体解决方案服务商常仁科技获得1亿人民币的A轮融资,投资方为某国企。
常仁科技依托于物联网、AI大数据、云计算等技术、以家用机器人为载体帮助用户进行日常健康管理。服务过程中,公司旗下机器人产品“小宝”将连接健康报警手环、血氧仪等监测或检测设备,帮助用户在家全面和持续地检测包含体温、体重、心电等指标,并将数据实时传输至云平台,后者经过大数据分析会借由语音播报或短信形式指导用户健康,给出更科学的建议。
云呼科技
基层医疗产业互联网服务平台云呼科技完成数千万美元的A+轮融资,由创世伙伴资本领投,元璟资本、晨兴资本、国科嘉和、博远资本跟投。
云呼科技主要通过自建的冷链物流运输系统,将检验样本快速送至实验室,经过检测、分析和审核后,检测结果将上传至云呼检验服务云平台。客户可以登陆平台下载查看,平台同时提供检验报告解读及疾病诊疗建议等精准检验服务、健康管理服务和增值服务,以此帮助提升基层医疗机构综合诊疗能力。
EroNkan
物联网初创公司EroNkan完成A轮融资,投资方为GVFL。
EroNkan主要为食品和饮料、制药以及制造加工等多个行业领域提高工具、技术、咨询等服务,并对企业的工业流程、机器性能和车间情况进行分析,帮助企业及时与基层和高级管理层做出决策,提高整个组织生产力、产品质量和可用性。在EroNkan平台上,制造商可以实时跟踪其运营设备效率并减少浪费。
长扬科技
工业互联网安全企业长扬科技完成数千万人民币的A+轮融资,投资方为合创智能基金。
面向能源、制造、轨道交通等国家基础产业,由北京国资委、经信委投资指导的长扬科技为工业控制网络、物联网及关键基础设施网络安全防护领域,提供安全解决方案和服务。
童乐物联
儿童游艺设备研发商童乐物联完成数百万人民币的天使轮融资。
童乐物联主要为儿童游艺自助类设备智能升级、物联网接入提供行业级SaaS解决方案。服务过程中,童乐物联为现有摇摇车等儿童游乐设备提供更便捷的数字化管理、移动支付、流量管理等功能,降低设备运营成本实现设备物联网升级,并有效激活本地下沉流量,获取多元化广告商城、本地服务等互联网增值服务收益。
Implicity
心脏植入电子器械研发公司Implicity完成400万欧元的种子轮融资,投资方有Serena、XAnge、Siparex和CapDecisif Management。
Implicity研发了一款心脏植入电子设备远程监控系统。通过该系统,医护人员可以十分便捷地联系病人并实时观测病人的身体健康状况。结合强大的人工智能算法,Implicity已经做到了将患者的医疗记录储存在智能监控系统中,使得个性化的远程医疗服务变成了可能。
生物医药
Cerebral Therapeutics
生物制药公司Cerebral Therapeutics完成1100万美元A轮融资,投资者是Granite Point Capital Management和Vivo Capital。
Cerebral Therapeutics致力于难治性癫痫药物的开发。该公司推出的新疗法采用慢性植入式输液系统,绕过血脑屏障,将合适剂量的抗癫痫药物直接通过ICV(脑室内注射),输送到大脑目标区域。这种疗法能够减少全身药物使用的可能和药物依从性,为患有慢性神经疾病的患者、特别是那些口服和静脉注射无效的患者提供了更优的选择。
耀海生物
细菌表达体系大分子药物CDMO服务企业耀海生物完成超5000万人民币的A轮融资,由武汉人福生物医药产业投资基金中心与泰州诚海生物技术合伙企业共同投资。
耀海生物是一家从事细菌表达体系大分子药物细分领域的合同研发生产服务(CDMO)平台企业,承接生物技术产品“定制研发+定制生产”等业务。目前,公司建有一条年生产能力1500万支冻干粉针剂的生产线,服务项目覆盖了临床前及I、II、III期临床等各个研发阶段的样品制备。
SOM Biotech
临床阶段药物研发公司SOM Biotech完成700万欧元的A轮融资,由一家欧洲家族控股公司领投。
SOM Biotech专注于研发治疗罕见疾病(亨廷顿舞蹈病、肾上腺脑白质营养不良、肾上腺髓鞘病和苯丙酮尿症)的药物,业务范围包括市场已有药物用途再调整、临床药物开发和中枢神经系统孤儿适应症的药物销售。
益方生物
生物医药研发商益方生物完成7000万美元的C轮融资,由尚珹投资和招银国际资本共同领投,浦东科创、礼来亚洲和奥博亚洲资本跟投。
益方生物专注于研发治疗肿瘤和痛风病的药品,并在中美两地展开研究工作,拥有肿瘤和痛风病治疗领域的4个候选药物,其中3个有望在中美两国进入一期临床试验。
Ossio
骨科医疗器械公司Ossio完成2200万美元融资,由OCV Partners领投,Ortho Vision和Secocha Ventures跟投。
Ossio致力于通过智能骨再生技术,替代传统骨科手术中使用的金属植入物,改善整形外科手术效果。公司旗下骨针产品OSSIO fiber在植入人体后会随着创口愈合,在临床研究中没有出现严重的炎症反应。目前,该公司正在欧洲进行OSSIO fiber的临床试验,预计将于2020年获得CE认证。
Snipr Biome
生物技术初创公司Snipr Biome完成5000万美元的A轮融资,由Lundbeckfonden Ventures投资。
Snipr Biome关注用于难以治疗的感染的靶向药物,以及自身免疫和癌症中的精确微生物体调节。目前,公司正在进行基于CRISPR的微生物组药物的临床试验,其独家技术正是使用CRISPR / Cas选择性地靶向并杀死具有特定DNA序列的细菌。
吉凯基因
疾病关键基因研究服务综合供应商吉凯基因获得C轮融资,由澳洋科技、金堤商业、谱润投资投资。
吉凯基因致力于打造肿瘤转化医学的产业化通道和国内领先的基因诊疗研发平台,目前已切入以嵌合抗原受体修饰的T细胞疗法(简称“CAR-T”)为主的肿瘤免疫治疗领域和以肿瘤早期诊断及用药指导为主的基因检测领域。
Harmony Biosciences
生物制药公司Harmony Biosciences获得2亿美元的的债务融资,投资方为CR Group LP。
Harmony Biosciences致力于为患有罕见孤儿病的人群提供新的治疗选择,重点针对中枢神经系统疾病,旗下主要产品是一款针对发作性睡病研发的药物“Pitolisant”。这是一种选择性组胺3受体拮抗剂,通过增强大脑中组胺能神经元的活性,抑制猝倒等症状发作。
EnClear Therapies
生物技术公司EnClear Therapies完成200万美元的种子轮融资,投资方包括Thiel Capital、Bioverge、Sanford Biosciences和Presight Capital共同参与。
EnClear Therapies开发了一种设备来治疗神经系统疾病。该设备能够过滤掉在神经退行性疾病患者大脑和脊髓中积聚的有毒蛋白质,并提供闭环递送(closed-loopdelivery)和脑脊液(CSF)监测。
新材料
Embody
再生医学公司Embody完成360万美元融资,投资方为Cultivate(MD))Capital Fund。
Embody专注于植入式医疗设备的开发和商业化,利用创新的生物材料设计和生物制造技术,改善软组织外科手术效果。目前,公司正通过创新性生物材料设计,改进静电纺丝和微流体,解决先前胶原蛋白在药物递送和伤口愈合应用的局限。
新能源
泰特机电
泰特机电被恒大健康以5亿人民币收购70%股权(此前被天津天海同步集团持有)。
泰特机电全资持有e-Traction公司100%股权,后者是轮毂电机及电动汽车驱动系统研发生产商,也是目前国际上五家轮毂电机生产商中唯一具备商品化条件。据悉,轮毂电机技术能够几大促进新能源汽车在智能化、动力传动、续航里程等领域的突破。
半导体
嘉楠耘智
芯片企业嘉楠耘智完成一轮金额达数亿美元的融资。
嘉楠耘智被称为全球第二大比特币矿机生产商、新兴的人工智能边缘计算芯片厂商,也是全球首个7nm芯片研发成功量产机构。官方表示,嘉楠耘智接下来将继续在人工智能、区块链生态方面布局,以芯片为切入点,搭建人工智能和区块链大的生态平台。
Mellanox
芯片制造商Mellanox被英伟达以69亿美元收购。
Mellanox成立于1999年,主要面向服务器、数据中心提供网络处理器、网卡、交换机等产品,适用于高性能计算、企业数据中心等场景以及电信、金融等行业应用。
大心电子
固态硬盘芯片研发销售商大心电子获得战略融资,投资方为得一微电子。
大心电子专注于固态硬盘相关的技术研发与设计,拥有国内领先的NVMe技术储备和LDPC IP,致力于PCIeSSD控制芯片相关技术的研发。其中,大心电子在LDPC IP方面拥有多项关键专利,产品是国内目前唯一支持企业级SSD的LDPC IP。公司采用采用动态可变码率(DVCR)技术,可提供业界领先的纠错性能。
亿智电子
以AI机器视觉算法和SOC芯片设计为核心的系统方案供应商亿智电子获得新一轮融资,投资方为英特尔与达泰资本。
亿智电子的Soc中包括音视频编解码、显示处理、图形处理、ISP 、AI 加速器、高速接口等数十个IP核,均由亿智自主研发,可以实现更低带宽、更低功耗、更低成本地落地应用产品。目前,亿智的商业模式主要为服务代理商和大客户提供整套的解决方案,主要聚焦于工业控制、消费类电子、汽车电子、智能家居等领域。
区块链
Bankorus
区块链银行平台Bankorus被Medici Ventures收购5.1%的股份。
Bankorus是建立在区块链上的私人财富管理平台。公司专注于区块链上的托管、贷款和资产交易。
Electron
Electron获得一笔来自OVO的融资。
Electron是一家使用区块链技术的能源技术公司,将利用此次投资收益来开发其能源平台和系统,或其分布式灵活性市场。
Seamon
区块链海鲜贸易初创企业Seamon获得一轮新融资,投资方为韩国演员兼商人裴勇俊。
Seamon正在开发基于区块链的海鲜交易和智能合约系统。该项目旨在使全球海鲜交易透明化,节约成本,实现更快、更安全的国际交易。此外,该公司还创建了加密数字货币Seamon coin,用作支付和价值存储,并计划在今年第三或第四季度推出交易所SeamonX,旨在解决拖欠款项或逾期付款等国际海产品在贸易过程中常见的问题。
Ground X
可扩展区块链平台Ground X获得9000万美元的融资,投资方包括Crescendo Equity Partners、IDG资本、Ledger Capital及Translink Capital。
Ground X致力于大规模采用区块链授权服务,以证实区块链技术的价值和实用性。
YAX
YAX获得战略融资,投资方为科银资本。
YAX是一家基于区块链技术的广告价值交换平台。在YAX的商业模式下,通过利用客户端的计算能力,用户可以通过向区块链网络贡献算力来换取个人或媒体方的实际收益。
Tendermint Inc
区块链共识算法及P2P网络协议公司Tendermint Inc获得900万美元的A轮融资,由Paradigm基金领投,贝恩资本、1confirmation等投资基金跟投。
Tendermint Inc的主营业务为分散式应用(DApp)构建和维护基础设施,如开源工具Tendermint Core和Cosmos SDK。同时Tendermint Inc也是跨链项目Cosmos Network的主要构建者,后者是一个独立,可扩展且可互操作的区块链的分散网络。
《2019人工智能发展报告》!计算机视觉深度解读,文中附全报告下载链接
本文节选《2019人工智能发展报告》第三章计算机视觉篇,涵盖计算机视觉概念、发展历史、人才概况、论文解读以及计算机视觉当前进展的深度解读。本报告共393页,足够详实,想要下载报告请戳链接:https://yq.aliyun.com/download/3877
3.1计算机视觉概念
计算机视觉(computer vision),顾名思义,是分析、研究让计算机智能化的达到类似人类的双眼“看”的一门研究科学[3]。即对于客观存在的三维立体化的世界的理解以及识别依靠智能化的计算机去实现。确切地说,计算机视觉技术就是利用了摄像机以及电脑替代人眼使得计算机拥有人类的双眼所具有的分割、分类、识别、跟踪、判别决策等功能。总之,计算机视觉系统就是创建了能够在2D的平面图像或者3D的三维立体图像的数据中,以获取所需要的“信息”的一个完整的人工智能系统。
计算机视觉技术是一门包括了计算机科学与工程、神经生理学、物理学、信号处理、认知科学、应用数学与统计等多门科学学科的综合性科学技术。由于计算机视觉技术系统在基于高性能的计算机的基础上,其能够快速的获取大量的数据信息并且基于智能算法能够快速的进行处理信息,也易于同设计信息和加工控制信息集成。
计算机视觉本身包括了诸多不同的研究方向,比较基础和热门的方向包括:物体识别和检测(Object Detection),语义分割(Semantic Segmentation),运动和跟踪(Motion & Tracking),视觉问答(Visual Question & Answering)等[4]。
物体识别和检测
物体检测一直是计算机视觉中非常基础且重要的一个研究方向,大多数新的算法或深度学习网络结构都首先在物体检测中得以应用如VGG-net,GoogLeNet,ResNet等等,每年在imagenet数据集上面都不断有新的算法涌现,一次次突破历史,创下新的记录,而这些新的算法或网络结构很快就会成为这一年的热点,并被改进应用到计算机视觉中的其它应用中去。
物体识别和检测,顾名思义,即给定一张输入图片,算法能够自动找出图片中的常见物体,并将其所属类别及位置输出出来。当然也就衍生出了诸如人脸检测(Face Detection),车辆检测(Viechle Detection)等细分类的检测算法。
语义分割
语义分割是近年来非常热门的方向,简单来说,它其实可以看作一种特殊的分类——将输入图像的每一个像素点进行归类,用一张图就可以很清晰地描述出来。很清楚地就可以看出,物体检测和识别通常是将物体在原图像上框出,可以说是“宏观”上的物体,而语义分割是从每一个像素上进行分类,图像中的每一个像素都有属于自己的类别。
运动和跟踪
跟踪也属于计算机视觉领域内的基础问题之一,在近年来也得到了非常充足的发展,方法也由过去的非深度算法跨越向了深度学习算法,精度也越来越高,不过实时的深度学习跟踪算法精度一直难以提升,而精度非常高的跟踪算法的速度又十分之慢,因此在实际应用中也很难派上用场。
学术界对待跟踪的评判标准主要是在一段给定的视频中,在第一帧给出被跟踪物体的位置及尺度大小,在后续的视频当中,跟踪算法需要从视频中去寻找到被跟踪物体的位置,并适应各类光照变换,运动模糊以及表观的变化等。但实际上跟踪是一个不适定问题(ill posed problem),比如跟踪一辆车,如果从车的尾部开始跟踪,若是车辆在行进过程中表观发生了非常大的变化,如旋转了180度变成了侧面,那么现有的跟踪算法很大的可能性是跟踪不到的,因为它们的模型大多基于第一帧的学习,虽然在随后的跟踪过程中也会更新,但受限于训练样本过少,所以难以得到一个良好的跟踪模型,在被跟踪物体的表观发生巨大变化时,就难以适应了。所以,就目前而言,跟踪算不上是计算机视觉内特别热门的一个研究方向,很多算法都改进自检测或识别算法。
视觉问答
视觉问答也简称VQA(Visual Question Answering),是近年来非常热门的一个方向,其研究目的旨在根据输入图像,由用户进行提问,而算法自动根据提问内容进行回答。除了问答以外,还有一种算法被称为标题生成算法(Caption Generation),即计算机根据图像自动生成一段描述该图像的文本,而不进行问答。对于这类跨越两种数据形态(如文本和图像)的算法,有时候也可以称之为多模态,或跨模态问题。
3.2 计算机视觉发展历史
尽管人们对计算机视觉这门学科的起始时间和发展历史有不同的看法,但应该说,1982年马尔(David Marr)《视觉》(Marr,1982)一书的问世,标志着计算机视觉成为了一门独立学科。计算机视觉的研究内容,大体可以分为物体视觉(object vision)和空间视觉(spatial vision)二大部分。物体视觉在于对物体进行精细分类和鉴别,而空间视觉在于确定物体的位置和形状,为“动作(action)”服务。正像著名的认知心理学家J.J.Gibson所言,视觉的主要功能在于“适应外界环境,控制自身运动”。适应外界环境和控制自身运动,是生物生存的需求,这些功能的实现需要靠物体视觉和空间视觉协调完成。
计算机视觉40多年的发展中,尽管人们提出了大量的理论和方法,但总体上说,计算机视觉经历了三个主要历程。即:马尔计算视觉、多视几何与分层三维重建和基于学习的视觉。下面将对这三项主要内容进行简要介绍[5]。
马尔计算视觉(Computational Vision)
现在很多计算机视觉的研究人员,恐怕对“马尔计算视觉”根本不了解,这不能不说是一件非常遗憾的事。目前,在计算机上调“深度网络”来提高物体识别的精度似乎就等于从事“视觉研究”。事实上,马尔的计算视觉的提出,不论在理论上还是研究视觉的方法论上,均具有划时代的意义。
马尔的计算视觉分为三个层次:计算理论、表达和算法以及算法实现。由于马尔认为算法实现并不影响算法的功能和效果,所以,马尔计算视觉理论主要讨论“计算理论”和“表达与算法”二部分内容。马尔认为,大脑的神经计算和计算机的数值计算没有本质区别,所以马尔没有对“算法实现”进行任何探讨。从现在神经科学的进展看,“神经计算”与数值计算在有些情况下会产生本质区别,如目前兴起的神经形态计算(Neuromorphological computing),但总体上说,“数值计算”可以“模拟神经计算”。至少从现在看,“算法的不同实现途径”,并不影响马尔计算视觉理论的本质属性。
多视几何与分层三维重建
上世纪90年代初计算机视觉从“萧条”走向进一步“繁荣”,主要得益于以下二方面的因素:首先,瞄准的应用领域从精度和鲁棒性要求太高的“工业应用”转到要求不太高,特别是仅仅需要“视觉效果”的应用领域,如远程视频会议(teleconference),考古,虚拟现实,视频监控等。另一方面,人们发现,多视几何理论下的分层三维重建能有效提高三维重建的鲁棒性和精度。
多视几何的代表性人物首数法国INRIA的O.Faugeras,美国GE研究院的R.Hartely和英国牛津大学的A.Zisserman。应该说,多视几何的理论于2000年已基本完善。2000年Hartley和Zisserman合著的书(Hartley & Zisserman2000)对这方面的内容给出了比较系统的总结,而后这方面的工作主要集中在如何提高“大数据下鲁棒性重建的计算效率”。
大数据需要全自动重建,而全自动重建需要反复优化,而反复优化需要花费大量计算资源。所以,如何在保证鲁棒性的前提下快速进行大场景的三维重建是后期研究的重点。举一个简单例子,假如要三维重建北京中关村地区,为了保证重建的完整性,需要获取大量的地面和无人机图像。假如获取了1万幅地面高分辨率图像(4000×3000),5千幅高分辨率无人机图像(8000×7000)(这样的图像规模是当前的典型规模),三维重建要匹配这些图像,从中选取合适的图像集,然后对相机位置信息进行标定并重建出场景的三维结构,如此大的数据量,人工干预是不可能的,所以整个三维重建流程必须全自动进行。这样需要重建算法和系统具有非常高的鲁棒性,否则根本无法全自动三维重建。在鲁棒性保证的情况下,三维重建效率也是一个巨大的挑战。所以,目前在这方面的研究重点是如何快速、鲁棒地重建大场景。
基于学习的视觉
基于学习的视觉,是指以机器学习为主要技术手段的计算机视觉研究。基于学习的视觉研究,文献中大体上分为二个阶段:本世纪初的以流形学习为代表的子空间法和目前以深度学习为代表的视觉方法。
物体表达是物体识别的核心问题,给定图像物体,如人脸图像,不同的表达,物体的分类和识别率不同。另外,直接将图像像素作为表达是一种“过表达”,也不是一种好的表达。流形学习理论认为,一种图像物体存在其“内在流形”(intrinsic manifold),这种内在流形是该物体的一种优质表达。所以,流形学习就是从图像表达学习其内在流形表达的过程,这种内在流形的学习过程一般是一种非线性优化过程。深度学习的成功,主要得益于数据积累和计算能力的提高。深度网络的概念上世纪80年代就已提出来了,只是因为当时发现“深度网络”性能还不如“浅层网络”,所以没有得到大的发展。
目前似乎有点计算机视觉就是深度学习的应用之势,这可以从计算机视觉的三大国际会议:国际计算机视觉会议(ICCV),欧洲计算机视觉会议(ECCV)和计算机视觉和模式识别会议(CVPR)上近年来发表的论文可见一般。目前的基本状况是,人们都在利用深度学习来“取代”计算机视觉中的传统方法。“研究人员”成了“调程序的机器”,这实在是一种不正常的“群众式运动”。牛顿的万有引力定律,麦克斯韦的电磁方程,爱因斯坦的质能方程,量子力学中的薛定谔方程,似乎还是人们应该追求的目标。
3.3 人才概况
全球人才分布
学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为计算机视觉领域全球学者分布情况:
图 3-1计算机视觉全球学者分布
地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸;亚洲也有较多的人才分布,主要集中在我国东部及日韩地区;欧洲的人才主要分布在欧洲中西部;其他诸如非洲、南美洲等地区的学者非常稀少;计算机视觉领域的人才分布与各地区的科技、经济实力情况大体一致。
此外,在性别比例方面,计算机视觉中男性学者占比91.0%,女性学者占比9.0%,男性学者占比远高于女性学者。
计算机视觉学者的h-index 分布如下图所示,大部分学者的h-index 分布在中间区域,其中h-index 在20-30 区间的人数最多,有706 人,占比34.7%,小于20 的区间人数最少,有81人。
中国人才分布
图 3-3中国计算机视觉学者分布 我国专家学者在计算机视觉领域的分布如下图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是珠三角和长三角地区,相比之下,内陆地区的人才较为匮乏,这种分布与区位因素和经济水平情况不无关系。同时,通过观察中国周边国家的学者数量情况,特别是与日韩、东南亚等亚洲国家相比,中国在计算机视觉领域学者数量相对较多。
中国国际合作
中国与其他国家在计算机视觉的合作情况可以根据AMiner数据平台分析得到,通过统计论文中作者的单位信息,将作者映射到各个国家中,进而统计中国与各国之间合作论文的数量,并按照合作论文发表数量从高到低进行了排序,如下表所示。
从上表数据可以看出,中美合作的论文数、引用数、学者数遥遥领先,表明中美间在计算机视觉领域合作之密切;同时,中国与世界各地区之间的合作非常广泛,前10名合作关系里包含了欧洲、亚洲、北美洲以及大洋洲等;中国与加拿大合作的论文数虽然不是最多,但是拥有最高的平均引用数说明在合作质量上中加合作达到了较高的水平。
3.4 论文解读
本节对本领域的高水平学术会议论文进行挖掘,解读这些会议在2018-2019年的部分代表性工作。会议具体包括:
IEEE Conference on Computer Vision and Pattern Recognition IEEE International Conference on Computer Vision European Conference on Computer Vision
我们对本领域论文的关键词进行分析,统计出词频Top20的关键词,生成本领域研究热点的词云图。其中,计算机视觉(computer vision)、图像(images)、视频(videos)是本领域中最热的关键词。
论文题目:Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
中文题目:具有空洞分离卷积的编码-解码器用于语义图像分割
论文作者:Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,Hartwig Adam
论文出处:Proceedings of the European conference on computer vision (ECCV). 2018: 801-818.
论文地址:https://link.springer.com/chapter/10.1007%2F978-3-030-01234-2_49
研究问题: 语义分割是计算机视觉中一项基本且重要的研究内容,它是为图像中的每个像素分配语义标签。在深度学习语义分割任务中经常会使用空间金字塔池化和编码-解码器结构。空间金字塔池化可以通过不同分辨率的池化特征捕捉丰富的上下文信息,但网络中具有步进操作的池化或卷积会导致与对象边界有关的详细信息丢失。这可以通过空洞卷积提取更密集的特征图来缓解,但大大增加了计算资源的消耗。而编码-解码器结构则可以通过逐渐恢复空间信息来捕获更清晰的对象边界。通过组合两种方法的优点,提出新的模型—DeepLabv3+。
研究方法: 如下图是DeepLabv3+的网络结构,通过添加一个简单但有效的解码器模块来优化分割结果,尤其是对象边界的分割结果,扩展了DeepLabv3。编码器模块(DeepLabv3)通过在多个尺度上应用空洞卷积,编码多尺度上下文信息。空洞卷积可以明确控制由深度卷积神经网络所提特征的分辨率,并调整滤波器的感受野以捕获多尺度信息。而简单而有效的解码器模块则沿对象边界调整分割结果。
为了进一步提高模型的性能和速度,将深度分离卷积应用于ASPP(空洞空间金字塔池化)和解码器模块。深度分离卷积将传统的卷积分解为一个深度卷积和一个1×1的逐点卷积,在深度卷积操作时应用膨胀率不同的空洞卷积,以获取不同的尺度信息。
研究结果: 以用ImageNet-1k预训练的ResNet-101和修改的对齐Xception(更多的层、步进深度分离卷积替代最大池化、额外的BN和ReLU)为骨架网络,通过空洞卷积提取稠密特征。在PASCAL VOC 2012和Cityscapes数据集上证明了DeepLabv3+的有效性和先进性,无需任何后处理即可实现89%和82.1%的测试集性能。但是对非常相近的物体(例如椅子和沙发)、严重遮挡的物体和视野极小的物体较难进行分割。
论文题目:MobileNetV2: Inverted Residuals and Linear Bottlenecks
中文题目:MobileNetV2: 反向残差和线性瓶颈
论文作者:Sandler Mark,Howard Andrew,Zhu Menglong,Zhmoginov Andrey,Chen Liang-Chieh
论文出处:2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2018
论文地址:https://ieeexplore.ieee.org/document/8578572
研究问题: 在众多计算机视觉领域中,深度神经网络正扮演越来越重要的角色。但是优秀性能的获得通常是以高昂计算资源为代价的,从而大大限制了在计算资源严重受限的移动端或嵌入式设备中使用。因此轻量化网络的研究在近期收到了大量关注,本文提出了一种新的移动端轻量化模型——MobileNetV2,在保持相同精度的同时显着减少了所需的操作和内存需求,关键是设计了具有线性瓶颈的反向残差模块。将上述模型应用于移动端目标检测,介绍了一种有效的方法—SSDLite。此外,通过简化的DeepLabv3构建移动端语义分割模型—Mobile DeepLabv3。
研究方法: MobileNetV2的关键是具有线性瓶颈的反向残差模块,该模块以低维压缩表示作为输入,首先将其扩张到高维,然后使用轻量级的深度卷积进行过滤,最后使用线性卷积将特征投影回低维表示。其包含两个主要的技术:深度分离卷积和残差模块。
深度分离卷积是很多有效的神经网络结构中关键的组成部分,其基本思想是将传统卷积分解为两部分:第一层称为深度卷积,它通过对每个输入通道应用单个卷积滤波器来执行轻量化滤波;第二层是1×1卷积,称为逐点卷积,它通过计算输入通道的线性组合来构建新特征。深度分离卷积的计算量相对于传统卷积减少了大约k2(k是卷积核大小),但是性能只有极小的降低。
我们可以认为深度神经网络中任意层的激活组成一个“感兴趣流形”,它可以嵌入到低维子空间中。也就是说,深度卷积层中所有单个通道的像素,其中编码的信息实际上位于某种流形中,而该流形可以嵌入到低维子空间中。通过分析作者得到两个属性:
(1)如果感兴趣流形在ReLU变换后仍保持非零值,则对应于线性变换;(2)ReLU能够保留输入流形的完整信息,但前提是输入流形位于输入空间的一个低维子空间中。
基于以上两个观点,帮助作者优化现有的神经网络结构:假设感兴趣流形是低维的,可以通过向卷积块插入线性瓶颈获得该流形,即本文核心具有线性瓶颈的反向残差模块,其结构如下图所示。先使用逐点卷积扩大通道数+ReLU激活,然后使用逐深度卷积提取特征+ReLU激活,最后使用逐点卷积降低通道数+线性激活,并且使用了shortcut连接。
研究结果: 研究者首先通过实验验证了反向残差连接和线性瓶颈的有效性,然后在图像分类、目标检测和语义分割三个任务上证明了本文网络结构的先进性。ImageNet图像分类任务上MobileNetV2的Top1最好可达74.7,优于MobileNetV1、ShuffleNet和NASNet-A。在目标检测任务上,MNetV2+SSDLite与MNetV1+SSDLite的mAP很接近,但参数量和计算时间都明显减少。在语义分割任务上保持较好性能的同时减少了参数量和计算资源的消耗。
论文题目:The Unreasonable Effectiveness of Deep Features as a Perceptual Metric
中文题目:深度特征作为感知度量的有效性
论文作者:Zhang Richard,Isola Phillip,Efros Alexei A.,Shechtman Eli,Wang Oliver
论文出处:2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2018
论文地址:https://ieeexplore.ieee.org/document/8578166
研究方法: 对于人类来说,评估两幅图像之间的感知相似度几乎是毫不费力且快速的,但其潜在过程却被认为是相当复杂的。视觉模式是高维且高度相关的,视觉相似性的概念十分主观。例如在图像压缩领域,压缩图像是为了人类看来与原始图像没有很大区别,而不关注它们在像素值上可能有很大的差别。
当今最广泛使用的、传统的基于像素值的度量方法(例如L2 欧式距离、PSNR)或感知距离度量(如SSIM、MSSIM 等)是简单的浅层函数,无法解决人类感知的许多细微差别,一个最典型的例子就是模糊会造成图像在感知上的很大不同,但是在L2 范数上却差别不大。如下图所示,传统的评价指标与人类的感知判断是完全相反的。
近期深度学习社区发现,将在ImageNet 分类中训练的VGG 网络模型所提取的深度特征,用作图像合成的训练损失是非常有用,一般将这种损失称为“感知损失” (perceptual losses)。但是这些感知损失的作用有多大?哪些要素对其成功至关重要?本文研究者们尝试探讨了这些问题。
研究方法: 对于人类来说,评估两幅图像之间的感知相似度几乎是毫不费力且快速的, _但其潜在过程却被认为是相当复杂的。视觉模式是高维且高度相关的,视觉相似性的概念十分主观。例如在图像压缩领域,压缩图像是为了人类看来与原始图像没有很大区别,而不关注它们在像素值上可能有很大的差别。
当今最广泛使用的、传统的基于像素值的度量方法(例如L2 欧式距离、PSNR)或感知距离度量(如SSIM、MSSIM 等)是简单的浅层函数,无法解决人类感知的许多细微差别,一个最典型的例子就是模糊会造成图像在感知上的很大不同,但是在L2 范数上却差别不大。如下图所示,传统的评价指标与人类的感知判断是完全相反的。近期深度学习社区发现,将在ImageNet 分类中训练的VGG 网络模型所提取的深度特征,用作图像合成的训练损失是非常有用,一般将这种损失称为“感知损失” (perceptual losses)。
但是这些感知损失的作用有多大?哪些要素对其成功至关重要?本文研究者们尝试探讨了这些问题。
研究方法: 为了研究将深度神经网络提取的深度特征作为感知损失的有效性,本文研究者们构造了一个人类感知相似性判断的新数据集——Berkeley-Adobe Perceptual Patch Similarity Dataset(BAPPS 数据集)。该数据集包括484K 个人类判断,具有大量传统失真,如对比度、饱和度和噪声等;还有基于CNN 模型的失真,例如自编码、降噪等造成的失真;以及一些真实算法的失真,如超分辨率重建、去模糊等真实应用。
论文用如下公式计算在给到一个网络时,参考和失真图像块的距离。首先提取特征,然后将通道维度的激活归一化,用向量缩放每个通道,并采用2 距离。最后对空间维度的所有层取平均。
研究结果: 作者进行了大量的实验,系统地评估了不同网络结构和任务中的深度特征, _并将它们与经典指标进行比较,发现深度特征是一种非常好的感知度量指标。更令人惊讶的是,该结果不仅限于ImageNet 训练的VGG 提取的深度特征,而且还适用于不同的深度网络结构和不同的训练方式(监督,自监督,甚至无监督)。
论文题目:Residual Dense Network for Image Super-Resolution
中文题目:基于残差密集网络的图像超分辨率重建
论文作者:Yulun Zhang,Yapeng Tian,Yu Kong,Bineng Zhong,Yun Fu
论文出处:2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2018
论文地址:https://ieeexplore.ieee.org/document/8578360
研究内容: 单幅图像超分辨率(SISR)旨在通过其退化的低分辨率(LR)观测结果生成视觉上令人愉悦的高分辨率(HR)图像。最近,深度卷积神经网络在图像超分辨率重建方面取得了巨大的成功,网络的不断加深使模型能提供丰富分层特征,图像中的目标具有不同的比例、视角和宽高比,来自非常深的网络的分层特征能为重建提供更多线索。但是,大多数基于卷积神经网络的深层图像超分辨率模型都没有充分利用原始低分辨率(LR)图像中的分层特征,以致获得了相对较低的性能。在本文中,研究者提出了一种新颖的残差密集网络(RDN)来解决图像超分辨率中的上述问题,使模型能充分利用所有卷积层提取的分层特征。
研究方法: 如下图是残差密集网络RDN,主要包含四部分:浅层特征提取网络(SFEnet)、残差密集块(RDBs)、密集特征融合(DFF)和上采样网络(UPNet)。
一个非常深的网络直接提取LR 空间中每个卷积层的输出是困难且不切实际的,所以使用残差密集块(RDB)作为RDN 的构建模块。RDB 由密集连接层和具有局部残差学习能力的局部特征融合(LFF)组成。RDB还支持RDB之间的连续存储,一个RDB的输出可以直接访问下一个RDB中每一层,形成连续的状态传递。RDB中的每个卷积层都可以访问所有后续层,并传递需要保留的信息。局部特征融合将先前的RDB和当前RDB中所有先前层的状态连接在一起,通过自适应保留信息来提取局部密集特征。LFF通过更高的增长率来稳定更宽网络的训练。在提取多层局部密集特征后,进一步进行全局特征融合(GFF),以全局方式自适应地保留分层特征。在RDN中每个卷积层卷积核大小为3×3,局部和全局特征融合卷积核大小为1×1。在上采样部分使用ESPCNN提升图像的分辨率。
研究结果: 使用DIV2K数据集中全部的800幅训练图像训练模型,测试选用5个标准基准数据集:Set5、Set14、B100、Urban和Manga109。为了全面地说明所提方法的有效性,模拟了三种图像退化过程:(1)双三次下采样(BI);(2)高斯核模糊HR图像,再下采样(BD);(3)先双三次下采样,再加入高斯噪声(DN)。
作者进行了大量的实验发现:(1)RDB数量或RDB中卷积层数量越多,模型性能越好;增长率越大也会获得更好的性能。当上述模块使用数量较少时RDN依然比SRCNN性能好。(2)进行了消融实验,验证了所提模型中连续存储、局部残差学习和全局特征融合的有效性。(3)在三种退化模型上与六种先进的模型进行了对比:SRCNN、LapSRN、DRNN、SRDenseNet、MemNet和MDSR。在不同比例因子、退化模型和数据集中,RDN都表现出了相近甚至更好的性能。
论文题目:ShuffleNet V2: Practical guidelines for efficient cnn architecture design
中文题目:ShuffleNet V2:高效CNN网络结构设计实用指南
论文作者:Ma Ningning,Zhang Xiangyu,Zheng Hai-Tao,Sun Jian
论文出处:Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), v 11218 LNCS, p 122-138, 2018, Computer Vision – _ECCV 2018 - 15th European Conference, 2018, Proceedings
论文链接:https://link.springer.com/chapter/10.1007%2F978-3-030-01264-9_8
研究内容: 自AlexNet之后,ImageNet图像分类准确率被很多新的网络结构如ResNet和DenseNet等不断提高,但是除准确率外,计算复杂度也是CNN网络需要考虑的重要指标。实际任务通常是要在有限的计算资源下获得最佳的精度,过复杂的网络由于速度原因难以在移动端等设备中应用。
为此,研究者们提出了很多轻量化的CNN网络如MobileNet和ShuffleNet等,在速度和准确度之间做了较好地平衡。以往的移动端CNN网络结构设计在考虑计算复杂度时,直接致力于优化整体网络计算所需的FLOPs,并没有考虑真正关心的速度和延迟,且具有相似FLOPs的网络速度也是不同的。像内存访问开销(MAC)、计算平台等也是需要考虑的方面。为了实际需求,本文研究者不局限于追求理论FLOPs的减少,从更直接的角度为轻量化网络设计提供指导意见。
研究方法:
作者建议有效的网络结构设计应考虑两个原则。首先,应使用直接指标(例如速度)代替间接指标(例如FLOP)。其次,应在目标平台上评估此类指标。通过对两个代表性最新网络的分析,作者得出了关于有效网络设计的四项准则:
(1)卷积层的输入和输出特征通道数相等时MAC最小;(2)过多的组卷积会增大MAC;(3)网络碎片化会降低并行度;(4)元素级的操作(element-wise)会增加时间消耗。
遵循以上准则提出了一个更有效的网络结构——ShuffleNet V2。下图是ShuffleNet V1(图中a和b)和ShuffleNet V2(图中c和d)组成模块的对比。对比(a)和(b),ShuffleNet V2首先用Channel Split操作将输入按通道分成两部分,一部分直接向下传递,另外一部分则用于计算;然后弃用了1x1的组卷积,将通道混洗操作(Channel Shuffle)移到了最后,并将前面的Add操作用Concat代替。
研究结果: 论文进行了大量的实验,与MobileNet V1/V2、ShuffleNet V1、DenseNet、Xception、IGCV3-D、NASNet-A等模型在速度、精度、FLOPs上进行了详细的对比。实验中不少结果都和前面几点发现吻合,ShuffleNet V2在准确率和速度方面达到了很好的平衡。
论文题目:A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
中文题目:非视距形状重建的费马路径理论
论文作者:Shumian Xin, Sotiris Nousias, Kiriakos N. Kutulakos, Aswin C. Sankaranarayanan,Srinivasa G. Narasimhan, and Ioannis Gkioulekas.
论文出处:CVPR 2019 : IEEE Conference on Computer Vision and Pattern Recognition.
论文地址:https://www.ri.cmu.edu/wp-content/uploads/2019/05/cvpr2019.pdf
研究问题: 很多时候摄像头可能无法拍摄全部场景或物体,例如,面对摄像机的物体背面,拐角处的物体或通过漫射器观察到的物体。非视距(non-line-of-sight,NLOS)成像对于许多安全保护应用至关重要。一些传统方法通过分析隐藏场景投射阴影的细微本影和半影,以估计粗糙的运动和结构,或使用光的相干特性来定位隐藏的对象,但很难重建任意隐藏场景的3D形状。基于主动照明的瞬态NLOS成像大多采用快速调制光源和时间分辨传感器,但现有的SPAD强度估计不理想,而且重建NLOS对象的朗伯反射率假设。作者使用NLOS瞬态测量得出几何约束而非强度约束的方法来克服上述限制。
上图为非视距成像示例:被遮光板遮挡(a)和被漫射板遮挡(b)的物体表面重建结果与视距扫描结果(c)对比。
研究方法: 作者提出了一个新的光费马路径(Fermat path)理论,即光在已知的可见场景和不处于瞬态相机视线范围内的未知物体之间,这些光要么从镜面反射,要么被物体的边界反射,从而编码了隐藏物体的形状。作者证明,费马路径对应于瞬态测量中的不连续性,间断点的位置仅与NLOS对象的形状有关,与其反射率(BRDF)无关。并推导出一个新的约束条件,它将这些不连续处的路径长度的空间导数与曲面的曲率相关联。
基于此理论,作者提出了一种称为费马流(Fermat Flow)的算法,用于估计非视距物体的形状。其关键在于,费马路径长度的空间导数可唯一确定隐藏场景点的深度和法线,再拟合和估算平滑路径长度函数,进一步结合深度和法线获得光滑的网格,从而精确恢复了对复杂对象(从漫反射到镜面反射)形状,范围从隐藏在拐角处以及隐藏在漫射器后面的漫反射到镜面反射。最后,该方法与用于瞬态成像的特定技术无关。
研究结果: 作者使用了一些不同BRDF的凹凸几何形状的日常物品,包括半透明(塑料壶),光滑(碗,花瓶),粗糙镜面(水壶)和光滑镜面(球形)等。分别开展了使用SPAD和超快激光从皮秒级瞬态中恢复毫米级形状,以及使用干涉法实现从飞秒级瞬态中恢复毫米级形状的两种实验,实验结果显示重建细节与groundtruth形状非常吻合。
论文题目:Implicit 3D Orientation Learning for 6D Object Detection from RGB Images
中文题目:从RGB 图像检测6维位姿的隐式三维朝向学习
论文作者:Martin Sundermeyer , Zoltan-Csaba Marton , Maximilian Durner , Rudolph Triebel
论文出处:ECCV 2018: European Conference on Computer Vision.
论文地址: http://openaccess.thecvf.com/content_ECCV_2018/papers/Martin_Sundermeyer_Implicit_3D_Orientation_ECCV_2018_paper.pdf
研究问题: 对于诸如移动机器人控制和增强现实之类的应用而言,现代计算机视觉系统中最重要的组件之一就是可靠且快速的6D目标检测模块。至今尚无通用,易于应用,强大且快速的解决方案。原因是多方面的:首先,当前的解决方案通常不足以有效处理典型的挑战;其次,现有方法通常需要某些目标属性。而且,当前的方法在运行时间以及所需带标注的训练数据的数量和种类方面效率都不高。作者提出对单个RGB图像进行操作,可在很大程度上不需要深度信息,显著增加可用性。
研究方法:
上图为6D目标检测管道具有齐次坐标变换Hcam2obj(右上)和深度细化结果Hcam2obj(refined)(右下)。作者提出了一种基于RGB的实时目标检测和6D姿态估计流程。首先使用SSD(Single Shot Multibox Detector)来提供目标边界框和标识符。其次,在此基础上,采用新颖的3D方向估计算法,该算法基于之前的降噪自动编码器(Denoising Autoencoder)的通用版本,增强型自动编码器(AAE)。AAE使用一种新颖的域随机化策略,模型学到的并不是从输入图像到物体位姿的显式映射,而是会根据图像样本在隐含空间内建立一个隐式的物体位姿表征。因而,训练独立于目标方向的具体表示(例如四元数),避免从图像到方向的一对多映射,由此AAE可处理由对称视图引起的模糊姿态。另外学习专门编码3D方向的表征,同时实现对遮挡,杂乱背景的鲁棒性,并可推广到对不同环境和测试传感器。而且,AAE不需要任何真实的姿势标注训练数据。相反,它被训练为以自我监督的方式编码3D模型视图,克服了对大型姿势标注数据集的需要。下图为AAE训练过程。
研究结果: 作者在T-LESS和LineMOD数据集上评估了AAE和整个6D检测管道,仅包括2D检测,3D方向估计和投影距离估计。与最先进的深度学习方法相比,AAE准确性更好,同时效率更高。另外,作者也分析了一些失败案例,主要源于检测失败或强遮挡。
论文题目:SinGAN: Learning a Generative Model from a Single Natural Image
中文题目:SinGAN:从单张图像学习生成模型
论文作者:Tamar Rott Shaham ,Technion Tali Dekel ,Google Research ,Tomer Michaeli ,Technion
论文出处:ICCV 2019 : IEEE International Conference on Computer Vision.
论文地址:https://arxiv.org/pdf/1905.01164.pdf
研究问题: 生成对抗网络(Generative Adversarial Nets ,GAN)在模拟视觉数据的高维分布方面取得了巨大飞跃。特别是用特定类别的数据集(如人脸、卧室)进行训练时,非条件GAN在生成逼真的、高质量的样本方面取得了显著成功。但对高度多样化、多种类别的数据集(如ImageNet)的模拟仍然是一项重大挑战,而且通常需要根据另一输入信号来调整生成或为特定任务训练模型。对单个自然图像中各种图像块的内部分布进行建模已被公认为是许多计算机视觉任务的有用先验。作者将GAN带入到一个新领域—从单个自然图像中学习非条件生成模型。单个自然图像通常具有足够的内部统计信息,可学习到强大的生成模型,而不必依赖某个相同类别的数据集。为此,作者提出了一个新的单图像生成模型SinGAN,能够处理包含复杂结构和纹理的普通自然图像的神经网络。
相对于左边的原始图像,SinGAN生成新的逼真的图像样本,该样本在创建新的对象配置和结构的同时保留原始图像块分布。
研究方法: 作者的目标是学习一个非条件生成模型,该模型可捕获单个训练图像的内部统计数据。 此任务在概念上与常规GAN设置相似,不同之处在于,训练样本是单个图像的多尺度的图像块,而非整个图像样本。为此,SinGAN生成框架由具有层级结构的patch-GANs(马尔可夫判别器)组成,其中每个判别器负责捕获不同尺度的分布,这是第一个为从单个图像进行内部学习而探索的网络结构。图像样本从最粗尺度开始,然后依次通过所有的生成器直到最细尺度,且每个尺度都注入噪声。所有生成器和判别器具有相同的感受野,因此,随着生成过程推进可以捕获更细尺寸的结构。在训练时,对抗损失采用WGAN-GP损失,以增加训练稳定性。并设计了一种重建损失来确保可以生成原始图像的特定噪声图谱集合。
研究结果: 作者在图像场景跨度很大的数据集上进行了测试。直观上,SinGAN很好地保留目标的全局结构和纹理信息,很真实地合成了反射和阴影效果。再使用AMT真假用户调研和FID的单幅图像版本进行量化。AMT测试结果表明可以生成很真实的样本,对于细节保留的也更多,人类判别的混淆率较高。FID结果与AMT一致。
3.5 计算机视觉进展
近年来,巨量数据的不断涌现与计算能力的快速提升,给以非结构化视觉数据为研究对象的计算机视觉带来了巨大的发展机遇与挑战性难题,计算机视觉也因此成为学术界和工业界公认的前瞻性研究领域,部分研究成果已实际应用,催生出人脸识别、智能视频监控等多个极具显示度的商业化应用。
计算机视觉的研究目标是使计算机具备人类的视觉能力,能看懂图像内容、理解动态场景,期望计算机能自动提取图像、视频等视觉数据中蕴含的层次化语义概念及多语义概念间的时空关联等。计算机视觉领域不断涌现出很多激动人心的研究成果,例如,人脸识别、物体识别与分类等方面的性能已接近甚至超过人类视觉系统。本文根据近两年计算机视觉领域顶级会议最佳论文及高引论文,对该领域中的技术现状和研究前沿进行了综合分析。
近两年大多数研究都集中在深度学习、检测和分类以及面部/手势/姿势、3D传感技术等方面。随着计算机视觉研究的不断推进,研究人员开始挑战更加困难的计算机视觉问题,例如,图像描述、事件推理、场景理解等。单纯从图像或视频出发很难解决更加复杂的图像理解任务,一个重要的趋势是多学科的融合,例如,融合自然语言处理领域的技术来完成图像描述的任务。图像描述是一个融合计算机视觉、自然语言处理和机器学习的综合问题,其目标是翻译一幅图片为一段描述文字。目前主流框架为基于递归神经网络的编码器解码器结构其核心思想类似于自然语言机器翻译。
但是,由于递归网络不易提取输入图像和文本的空间以及层次化约束关系,层次化的卷积神经网络以及启发自认知模型的注意力机制受到关注。如何进一步从认知等多学科汲取知识,构建多模态多层次的描述模型是当前图像描述问题研究的重点。
事件推理目标是识别复杂视频中的事件类别并对其因果关系进行合理的推理和预测。与一般视频分析相比,其难点在于事件视频更加复杂,更加多样化,而最终目标也更具挑战性。不同于大规模图像识别任务,事件推理任务受限于训练数据的规模,还无法构建端到端的事件推理系统。目前主要使用图像深度网络作为视频的特征提取器,利用多模态特征融合模型,并利用记忆网络的推理能力,实现对事件的识别和推理认知。当前研究起源于视频的识别和检测,其方法并未充分考虑事件数据的复杂和多样性。如何利用视频数据丰富的时空关系以及事件之间的语义相关性,应是今后的关注重点。
场景理解的目的是计算机视觉系统通过分析处理自身所配置的传感器采集的环境感知数据,获得周围场景的几何/拓扑结构、组成要素(人、车及物体等)及其时空变化,并进行语义推理,形成行为决策与运动控制的时间、空间约束。近年来,场景理解已经从一个初期难以实现的目标成为目前几乎所有先进计算机视觉系统正在不断寻求新突破的重要研究方向。
利用社会-长短记忆网络(Social-LSTM)实现多个行人之间的状态联系建模,结合各自运动历史状态,决策出未来时间内的运动走向。此外神经网络压缩方向也是是目前深度学习研究的一个热门的方向,其主要的研究技术有压缩,蒸馏,网络架构搜索,量化等。
综上所述,视觉的发展需要设计新的模型,它们需要能考虑到空间和时间信息;弱监督训练如果能做出好的结果,下一步就是自监督学习;需要高质量的人类检测和视频对象检测数据集;结合文本和声音的跨模态集成;在与世界的交互中学习。
立即体验工业视觉智能平台训练:
https://www.aliyun.com/product/indvi?spm=5176.12825654.h2v3icoap.467.e9392c4a1KMEL9&aly_as=c7DQGDJ5
将阿里云基于工业各场景中的最佳实践所获得的预训练模型与用户实际场景中的样本数据结合,通过用户样本数据的训练对模型进行定制优化,从而适配用户实际使用场景。
文章
机器学习/深度学习 · 传感器 · 存储 · 编解码 · 人工智能 · 自然语言处理 · 监控 · 算法 · 定位技术 · 计算机视觉
2019-12-26