先来做个题。
下面两张图里的狗狗是同一只狗狗么?
答案:是的。
这个题考的是:宠物身份验证。可以用眼,当然你得是宠物的主人才可能很肯定说出两只狗狗的细微区别。
还有一招:可以借助“目标重识别”技术。这是一项视觉识别技术里的基础技术能力。
这个技术领域里刚刚举行了一个世界级大赛:计算机视觉方向的三大顶级会议ICCV组织的Visual Inductive Priors(简称VIPriors)比赛,这个大赛里目标重识别这个赛道的最高成绩是97%(识别精度)。来自蚂蚁集团保险技术团队的参赛选手拿到了第三名的成绩(94%)。
物体识别是计算机视觉领域中的一项基础研究,它的任务是识别出图像中有什么物体,并报告出这个物体在图像表示的场景中的位置和方向。目前物体识别方法可以归为两类:基于模型的或者基于上下文识别的方法,二维物体识别或者三维物体识别方法。对于物体识别方法的评价标准,Grimson 总结出了大多数研究者主要认可的 4 个标准:健壮性(robustness)、正确性(correctness)、效率(efficiency)和范围(scope)。
在VIPriors的这个比赛里,物体图片识别还有一个赛道:图像实例分割。该团队参赛选手赢得了第二名的成绩。
目标重识别和图像实例分割都属于图片物体识别技术里的基础科学,能够有效解决场景中对物体的识别需求。
譬如在核保和报销中,图像实例分割可用于保险理赔场景下非规则形状的文字提取。像下图中电子票据中电子章的文字区域提取。
除了图片识别和分割的比赛,今年ICCV还组织了Occluded Video Instance Segmentation(简称OVIS,遮挡视频实例分割”)比赛。
OVIS比赛比的是:视频里存在大量多种多样物体之间的遮挡,要求算法能检测、分割、跟踪视频里所有的物体。
遮挡视频实例分割是一项需要同时对视频中感兴趣的对象实例进行分类、分割和跟踪的任务。可用于宠物社区宠物视频拍摄,和人宠互动视频拍摄。
这个比赛,蚂蚁集团保险技术团队的参赛选手获得第一名!
第一名的奖状长这样。
实例分割是计算机视觉中的基础问题之一。
目前,静态图像中的实例分割业界已经进行了很多的研究,但是对(遮挡)视频的实例分割的研究相对较少。而真实世界中的摄像头所接收的,无论是自动驾驶背景下车辆实时感知的周围场景,网络媒体中的长短视频,还是智能理赔流程中的凭证识别,大多数都是视频流信息而非纯图像信息。因而研究视频理解的模型有着十分重要的意义。
基于视频级别的实例分割技术相比图像级别,其优点在于可以充分利用物体跨帧的连续性和时态上下文线索,但同时也对计算资源提出更高要求。
遮挡视频实例分割是2019年由业内学者提出的新任务,自提出起便得到了Facebook、字节跳动、腾讯等国内外公司的关注,目前该领域还处于发展初级阶段。
该技术在视频流中的理赔凭证理解、电商险理赔商品识别,视频面访,宠物身份识别等保险场景中起到作用。蚂蚁保险推出的智能理赔服务可以利用该技术处理上述复杂场景。
目前,遮挡视频实例分割技术已经应用于蚂蚁保险的智能理赔场景中,大大提升理赔效率和准确率。
例如,利用该技术可以更便捷的识别视频流中的理赔凭证,从一摞纸中把最上面的凭证主体切割提取出来(图1)。
此外,以宠物险为例,除了利用鼻纹识别技术识别宠物之外,如下面视频中的四张图(图2)所示,算法模型可以将相互遮挡的三只猫体准确分割,从而进行就更精准的动物身份识别。
该技术未来在企业贷款的凭证上传,自动驾驶的场景理解,短视频或直播中的人物背景分离等应用场景也会有广泛的应用价值。
(图1:理赔凭证切割)
(图2:遮挡宠物分割)