2021国际计算机视觉挑战赛,我们赢了三个奖!

简介: 计算机视觉方向的三大顶级会议ICCV组织的Visual Inductive Priors(简称VIPriors)比赛,这个大赛里目标重识别这个赛道的最高成绩是97%(识别精度)。来自蚂蚁集团保险技术团队的参赛选手拿到了第三名的成绩(94%)。

先来做个题。


下面两张图里的狗狗是同一只狗狗么?

 

截屏2021-11-19 下午5.26.08.png


答案:是的。


这个题考的是:宠物身份验证。可以用眼,当然你得是宠物的主人才可能很肯定说出两只狗狗的细微区别。


还有一招:可以借助“目标重识别”技术。这是一项视觉识别技术里的基础技术能力。


这个技术领域里刚刚举行了一个世界级大赛:计算机视觉方向的三大顶级会议ICCV组织的Visual Inductive Priors(简称VIPriors)比赛,这个大赛里目标重识别这个赛道的最高成绩是97%(识别精度)。来自蚂蚁集团保险技术团队的参赛选手拿到了第三名的成绩(94%)。


物体识别是计算机视觉领域中的一项基础研究,它的任务是识别出图像中有什么物体,并报告出这个物体在图像表示的场景中的位置和方向。目前物体识别方法可以归为两类:基于模型的或者基于上下文识别的方法,二维物体识别或者三维物体识别方法。对于物体识别方法的评价标准,Grimson 总结出了大多数研究者主要认可的 4 个标准:健壮性(robustness)、正确性(correctness)、效率(efficiency)和范围(scope)。


在VIPriors的这个比赛里,物体图片识别还有一个赛道:图像实例分割。该团队参赛选手赢得了第二名的成绩。


目标重识别和图像实例分割都属于图片物体识别技术里的基础科学,能够有效解决场景中对物体的识别需求。


譬如在核保和报销中,图像实例分割可用于保险理赔场景下非规则形状的文字提取。像下图中电子票据中电子章的文字区域提取。

 

截屏2021-11-19 下午5.26.23.png

 

除了图片识别和分割的比赛,今年ICCV还组织了Occluded Video Instance Segmentation(简称OVIS,遮挡视频实例分割”)比赛。


OVIS比赛比的是:视频里存在大量多种多样物体之间的遮挡,要求算法能检测、分割、跟踪视频里所有的物体。


遮挡视频实例分割是一项需要同时对视频中感兴趣的对象实例进行分类、分割和跟踪的任务。可用于宠物社区宠物视频拍摄,和人宠互动视频拍摄。


这个比赛,蚂蚁集团保险技术团队的参赛选手获得第一名!


截屏2021-11-19 下午5.26.36.png

第一名的奖状长这样。


截屏2021-11-19 下午5.27.03.png


实例分割是计算机视觉中的基础问题之一。


目前,静态图像中的实例分割业界已经进行了很多的研究,但是对(遮挡)视频的实例分割的研究相对较少。而真实世界中的摄像头所接收的,无论是自动驾驶背景下车辆实时感知的周围场景,网络媒体中的长短视频,还是智能理赔流程中的凭证识别,大多数都是视频流信息而非纯图像信息。因而研究视频理解的模型有着十分重要的意义。


基于视频级别的实例分割技术相比图像级别,其优点在于可以充分利用物体跨帧的连续性和时态上下文线索,但同时也对计算资源提出更高要求。


遮挡视频实例分割是2019年由业内学者提出的新任务,自提出起便得到了Facebook、字节跳动、腾讯等国内外公司的关注,目前该领域还处于发展初级阶段。


该技术在视频流中的理赔凭证理解、电商险理赔商品识别,视频面访,宠物身份识别等保险场景中起到作用。蚂蚁保险推出的智能理赔服务可以利用该技术处理上述复杂场景。


目前,遮挡视频实例分割技术已经应用于蚂蚁保险的智能理赔场景中,大大提升理赔效率和准确率。


例如,利用该技术可以更便捷的识别视频流中的理赔凭证,从一摞纸中把最上面的凭证主体切割提取出来(图1)。


此外,以宠物险为例,除了利用鼻纹识别技术识别宠物之外,如下面视频中的四张图(图2)所示,算法模型可以将相互遮挡的三只猫体准确分割,从而进行就更精准的动物身份识别。


该技术未来在企业贷款的凭证上传,自动驾驶的场景理解,短视频或直播中的人物背景分离等应用场景也会有广泛的应用价值。

 

 截屏2021-11-19 下午5.27.13.png

(图1:理赔凭证切割)


截屏2021-11-19 下午5.27.24.png

(图2:遮挡宠物分割)

相关文章
|
Kubernetes 安全 持续交付
「译文」什么是 Terraform?
「译文」什么是 Terraform?
510特辑 | 读懂阿里日,也就读懂了阿里
510特辑 | 读懂阿里日,也就读懂了阿里
1487 0
|
8月前
|
SQL 运维 分布式计算
Dataphin离线数据开发规范
目前,用户在Dataphin上进行数据开发时,风格各异,缺乏一致性。为此,我们整理了一份开发规范文档,旨在帮助所有用户实现更高效和一致的开发流程。
366 4
|
机器学习/深度学习 人工智能 自然语言处理
AI发展与GPT简介
人工智能(AI)是指计算机系统执行通常需要人类智能的任务的能力,如视觉感知、语音识别、决策制定和语言翻译。简而言之,AI就是让计算机模仿人类的思考和行为过程。
1359 0
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
前端大模型入门(三):编码(Tokenizer)和嵌入(Embedding)解析 - llm的输入
本文介绍了大规模语言模型(LLM)中的两个核心概念:Tokenizer和Embedding。Tokenizer将文本转换为模型可处理的数字ID,而Embedding则将这些ID转化为能捕捉语义关系的稠密向量。文章通过具体示例和代码展示了两者的实现方法,帮助读者理解其基本原理和应用场景。
3126 1
|
11月前
|
人工智能 自然语言处理 程序员
跨界码王:21天从产品汪到攻城狮 | 通义灵码和TA的朋友们
从一个从没写通超过十行代码的编程小白,现在跑通了140行+代码实现了自己提的需求!欲知我是怎么左右互搏升级打怪的,请看正文分解~
|
12月前
|
监控 网络协议 安全
Linux系统日志管理
Linux系统日志管理
347 3
|
机器学习/深度学习 存储 算法
【博士每天一篇论文-算法】Continual Learning Through Synaptic Intelligence,SI算法
本文介绍了一种名为"Synaptic Intelligence"(SI)的持续学习方法,通过模拟生物神经网络的智能突触机制,解决了人工神经网络在学习新任务时的灾难性遗忘问题,并保持了计算效率。
660 1
【博士每天一篇论文-算法】Continual Learning Through Synaptic Intelligence,SI算法
|
机器学习/深度学习 存储 人工智能
【博士每天一篇文献-算法】Memory aware synapses_ Learning what (not) to forget
本文介绍了一种名为“记忆感知突触”(Memory Aware Synapses, MAS)的终身学习方法,该方法通过无监督在线评估神经网络参数的重要性,并在新任务学习时对重要参数的更改进行惩罚,有效防止了旧任务知识的覆盖,实现了内存效率和性能提升,同时具有灵活性和通用性。
265 1
|
消息中间件 Prometheus 监控
RabbitMQ性能调优指南
【8月更文第28天】RabbitMQ 是一个非常流行的消息队列中间件,它支持多种消息协议,并且可以轻松集成到各种系统中。随着应用的扩展,确保 RabbitMQ 在高负载环境下能够高效稳定地运行变得至关重要。本文将深入探讨如何通过配置、监控以及最佳实践来优化 RabbitMQ 的性能。
2032 1