支付宝安全实验室获Kaggle视觉挑战赛冠军,领跑「细粒度图像分类」技术

简介: 作为一家创新型科技公司,蚂蚁集团(支付宝母公司)科技战略进程不断加速。

近日,计算机视觉A类顶级会议CVPR 2020 开幕在即, 由Kaggle承办的FGVC(Fine-Grained Visual Categorization,细粒度图像分类)全球挑战赛结果揭晓,支付宝天筭安全实验室夺冠,超越全球1316支顶尖计算机视觉团队。Kaggle是全球最大机器学习平台。

0001.png

Kaggle 2020-FGVC挑战赛官方排名

作为人工智能核心能力,计算机视觉对细粒度图像分类技术要求越来越高。只有让机器「看得」更细更准,机器的判断才能有所突破。细粒度图像分类针对的是更微观的物体类别,比如,不仅要识别出它是一只鸟,还要判断具体属于哪一类鸟,识别出车要判断它的款式等。

细粒度图像分类是计算机视觉领域极具挑战的方向。今年,围绕该方向Kaggle共发起六项任务,支付宝参加其中的患病植物图像分类。比赛考察AI视觉识别技术对苹果树叶子图片进行不同种类的疾病区分能力,在训练集1821张图像和测试集1821张图像中,完成高精确度的判别。

0002.png

模型不仅可以准确分类,还能通过热力图的方式较为准确地定位到患病区域

世界上有约37万种植物,不同植物的病因完全不同,但多数植物的病态外观和特征却非常相似。另一方面,采集拍摄中存在姿态、视角、光照、遮挡、背景干扰等影响因素,使分类更加具有难度。

支付宝天筭安全实验室使用的原创模型,是基于数据增强、知识蒸馏方法,实现在大量信息干扰下进行物体具像化特征识别,使细粒度识别精度大幅提升。支付宝是比赛中唯一使用知识蒸馏这种深度学习方法的团队,在最终测试中,支付宝分数达 0.98445,排名第一。

例如,生了病的两片树叶,同样出现了破损孔洞,在传统模型训练下,AI最多可以识别出它们都是苹果树的树叶,很难确定两个孔洞之间的区别,进而给出推断树叶究竟得的是哪两种疾病。而支付宝的AI模型通过明确识别关键是孔洞大小、数量、位置,以及周边是否有斑点,最终快速给出树叶由于化学药品滥用造成损伤的判断。

缺乏标准信息数据导致难以判别的核心痛点,在医疗、金融、客服等领域大量存在,意味着这项技术拥有广阔的应用空间。在支付宝交易纠纷、资金盗用、医疗保险报销等场景中,AI团队已经开始使用该技术方法,快速识别并进行更准确的风险预测,保障用户需求在安全环境中被满足。

人工智能是蚂蚁集团核心技术引擎之一,研究领域涵盖NLP、计算机视觉、智能风控、智能营销、智能资金管理等,并在大规模分布式机器学习、深度图学习、多方安全与隐私计算、博弈与对抗智能、多智能体、强化学习等方向取得突破。蚂蚁集团首席AI科学家 、达摩院金融智能负责人漆远带领的全球化团队,在深度赋能蚂蚁各条业务的同时,相继在国际人工智能顶级会议NeurIPS、ICML 、AAAI等,发表近60篇高质量论文成果,申报了超200个专利。

作为一家创新型科技公司,蚂蚁集团(支付宝母公司)科技战略进程不断加速。除AI之外,在区块链、数据库等领域近期也频现突破性进展。日前,蚂蚁集团将数据库业务OceanBase升格为独立公司,未来三年计划服务全球客户超万家;蚂蚁区块链的跨链技术在获得专利授权的同时,还被全球最大专业技术组织IEEE认定为国际标准。目前,蚂蚁集团员工中,技术人员占比已经超过63%。

相关文章
|
固态存储 内存技术 NoSQL
基础代码NVMe模块的实例helloworld代码
基础代码NVMe模块的实例helloworld代码
|
存储
【计算机组成原理】计算机硬件的基础组成、认识各个硬件部件
计算机组成原理(一) 计算机内部是通过电信号传递数据 电信号:分为高电平和低电平,分别代表1/0
1097 0
|
JSON 算法 API
1688商品详情API实战:Python调用全流程与数据解析技巧
本文介绍了1688电商平台的商品详情API接口,助力电商从业者高效获取商品信息。接口可返回商品基础属性、价格体系、库存状态、图片描述及商家详情等多维度数据,支持全球化语言设置。通过Python示例代码展示了如何调用该接口,帮助用户快速上手,适用于选品分析、市场研究等场景。
|
机器学习/深度学习 算法 数据库
基于深度学习的多人步态识别系统(目前数据集大小124人,准确率96.5%)
基于深度学习的多人步态识别系统(目前数据集大小124人,准确率96.5%)
2026 0
基于深度学习的多人步态识别系统(目前数据集大小124人,准确率96.5%)
|
计算机视觉 Windows Python
windows下使用python + opencv读取含有中文路径的图片 和 把图片数据保存到含有中文的路径下
在Windows系统中,直接使用`cv2.imread()`和`cv2.imwrite()`处理含中文路径的图像文件时会遇到问题。读取时会返回空数据,保存时则无法正确保存至目标目录。为解决这些问题,可以使用`cv2.imdecode()`结合`np.fromfile()`来读取图像,并使用`cv2.imencode()`结合`tofile()`方法来保存图像至含中文的路径。这种方法有效避免了路径编码问题,确保图像处理流程顺畅进行。
2530 1
|
异构计算
GPT4All的简单使用
本文介绍了GPT4All,一个能在个人电脑上运行的开源大模型系统,支持在CPU和GPU上本地运行,使用的语言模型包括GPT-J和LLaMA,旨在提供隐私友好的聊天体验。
910 2
GPT4All的简单使用
|
算法 物联网 开发者
In-Context LoRA实现高效多任务图像生成,开启视觉创作新篇章
这篇文章介绍了通义实验室提出的In-Context LoRA,这是一种基于现有文本到图像模型的任务无关性框架,用于实现高质量的多任务图像生成。
2648 11
In-Context LoRA实现高效多任务图像生成,开启视觉创作新篇章
|
机器学习/深度学习 数据采集 人工智能
TÜLU 3:Ai2推出的系列开源指令遵循模型
TÜLU 3是由艾伦人工智能研究所(Ai2)推出的开源指令遵循模型系列,包括8B和70B两个版本,未来计划推出405B版本。该模型在性能上超越了Llama 3.1 Instruct版本,提供了详细的后训练技术报告,公开数据、评估代码和训练算法。TÜLU 3基于强化学习、直接偏好优化等先进技术,显著提升模型在数学、编程和指令遵循等核心技能上的表现。
612 4
TÜLU 3:Ai2推出的系列开源指令遵循模型
|
Linux
Linux下显示cp/mv进度的两种方式
Linux下显示cp/mv进度的两种方式
12022 0
Linux下显示cp/mv进度的两种方式

热门文章

最新文章