AI角 | AI challenger零样本学习算法大赛报名开启,数据集开放

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

0cac51eefed6a3dfc6ba02818b8e758875c55492

大数据文摘作品

去年,AI Challenger(以下简称AIC)全球挑战赛吸引了来自65个国家近万团队参赛。

今年的AIC预热赛零样本学习(zero-shot learning)竞赛即日起开始。

零样本学习竞赛同样发布大规模图像属性数据集,包含78017张图片、230个类别、359种属性。

与目前主流的用于zero-shot learning的数据集相比,图片量更大、属性更丰富、类别与ImageNet重合度更低。

经典零样本学习方法介绍

创新工场AI工程院运营副总裁吴卓浩表示,因为在很多情况下人们难以获得足够的有标注的数据来训练识别或预测模型。

受人类学习能力的启发,零样本学习(zero-shot learning)希望借助辅助知识(如属性、词向量、文本描述等),在没有任何训练样本的情况下学会从未见过的新概念。

这具有重要的研究意义和广泛的应用场景,被认为是实现大规模物体识别的一个重要方式。

最经典的零样本学习方法是Lampert 提出的直接属性预测模型(DAP)。

如下图所示,模型中属性训练是在传统特征提取的基础上的进行的,首先使用颜色直方图、局部自相似直方图、SIFT和PHOG等6种方法来提取样本图像的底层特征,这几种特征包含了图像的颜色、形状和纹理等方面,所以通过这种特征提取方法得到的特征可以良好的表达图像中的信息。这几种图像特征不仅适用与线性分类器,而且在非线性分类器中也能达到良好的表现。

c6447566c2d75d01b4856cc05d49ff6cd74a9ac0

在DAP方法中,通过上述的特征提取方法得到样本的图像特征后,将特征用于属性分类器的训练,然后将训练得出的模型用于属性的预测,最后采用贝叶斯方法推算测试样本的类别。近年来深度特征的使用大幅提高了零样本识别的准确率。

最具挑战的AI识别方法

零样本学习是当前最具挑战的AI识别方法之一。简单来说就是识别从未见过的数据类别,即训练的分类器不仅仅能够识别出训练集中已有的数据类别,还可以对于来自未见过的类别的数据进行区分。

这是一个很有用的功能,使得计算机能够具有知识迁移的能力,并无需任何训练数据,很符合现实生活中海量类别的存在形式。

传统的“零样本学习”方法首先是让智能体(Agent)对类别进行语义理解。将类别标签利用辅助知识(如属性)嵌入到语义空间中,再利用训练集中的数据学习这种从图像到语义的映射关系。

此后,即使遇到新的类别,只要提供了该类别的语义知识,模型即可识别该类别,这就是零样本学习。

例如识别一张斑马的图片,但在训练时没有训练过斑马的图片。那么我们可以通过比较这张斑马图片中包含的属性和各个类别的属性定义,进而在属性空间中找到与该测试图片相近标签,即为该图片的标签。

而零样本学习的意义也显而易见:在传统图像识别任务中,训练阶段和测试阶段的类别是相同的,但每次为了识别新类别的样本需要在训练集中加入这种类别的数据。

一些类别的样本收集代价大,即使收集到足够的训练样本,也需要对整个模型进行重新训练。这都会加大识别系统的成本,零样本学习方法便能很好的解决这个问题。

将来未知语言也能翻译

早期的零样本学习研究可以追溯到2008 年,Larochelle 等人针对字符分类问题提出了零样本学习(zero shot learning)方法,并且识别准确率达到了60%。

2009年Lampert 等人提出了Animals with Attributes数据集和经典的基于属性学习的算法,才真正打开零样本学习的关注度。

北大硕士赵波表示,在一些场景下,如细粒度物体识别、任意语言之间的翻译等,难以获得足够的有标注的数据来训练识别或预测模型。

因此,零样本学习具有重要的研究意义和广泛的应用场景。受人类学习能力的启发,零样本学习希望借助辅助知识(如属性、词向量、文本描述等)学习从未见过的新概念。目前零样本学习被认为是实现大规模物体识别的一个重要方式。

应用场景

未知物体识别

例如,模型在“马”、“牛”等类别上训练过,因此模型能够准确地识别“马”、“牛”的图片。当模型遇到“象”这个新类别,由于从未见过,模型无法作出判断。

传统解决方案是收集大量“象”的图片,与原数据集一起重新训练。这种解决方案的代价高、速度慢。然而,人类能够从描述性知识中快速学习一个新概念。

例如,一个儿童即使没有见过“象”,当提供他文本描述“象是一种的大型食草类动物,有长鼻和长牙”。儿童能够根据描述快速学会“象”这一新类别,并能在第一次见到“象”时识别出来。

零样本学习与之类似,在没有任何训练样本的情况下,借助辅助知识(如属性、词向量、文本描述等)学习一些从未见过的新概念(类别)。

未知语言翻译

ccc8c411578b98c5cd3e47ac219f35341bba8b63

比如说要进行三种语言之间的翻译,按照传统的方法需要分别训练六个网络,在日语和韩语之间没有那么多样本的情况下,训练英语→特征空间→日语,韩语→特征空间→英语这两个网络,那么就可以自动学会韩语→特征空间→日语这个翻译过程。

未知类别图像合成

近年来,对抗网络GAN被用于图像合成,取得了以假乱真的效果。但传统图像合成仅能合成见过的类别的图像。零样本图像合成希望模型能够合成从未见过的类别的图像。目前已有一些算法通过条件GAN网络实现了零样本图像合成。

图像哈希

传统图像哈希算法利用一些训练样本来学习针对某些类别的哈希算法。但这些学习到的哈希算法无法用于新类别。零样本图像哈希,希望在已知类别上学到哈希算法能够运用到新的未知类别上。一些基于属性的零样本哈希算法已经被提出。

竞赛奖励

冠军:30,000人民币,颁发获奖证书

亚军:10,000人民币,颁发获奖证书

季军:3,000人民币,颁发获奖证书

双周冠军:3,000人民币

双周亚军:2,000人民币

双周季军:1,000人民币

以上提及金额为税前金额,详细规则请参考《竞赛选手报名协议》

注:数据集下载地址:https://challenger.ai/datasets

报名方式

(1) 报名时间:即日起至4月23日。竞赛报名以及组队队员变更截止时间为4月23日23:59:59。

(2) 参赛队伍可1-3人组队参赛,确保报名信息准确有效。每名选手在大赛平台只能拥有一个账号,否则会被取消参赛资格及激励。

(3) 实名认证:为保证大赛公平性,所有选手必须完成个人信息实名认证。认证过程在个人中心的实名认证区域完成。

(4) 报名方式:登入AI Challenger官网,完成个人信息注册,即可报名参赛。

(5) 参赛队员必须遵守并签署《竞赛选手报名协议》。


原文发布时间为:2018-03-23
本文作者:大数据文摘
本文来自云栖社区合作伙伴“ 大数据文摘”,了解相关信息可以关注“ 大数据文摘”微信公众号
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
27天前
|
传感器 人工智能 监控
智慧工地 AI 算法方案
智慧工地AI算法方案通过集成多种AI算法,实现对工地现场的全方位安全监控、精准质量检测和智能进度管理。该方案涵盖平台层、展现层与应用层、基础层,利用AI技术提升工地管理的效率和安全性,减少人工巡检成本,提高施工质量和进度管理的准确性。方案具备算法精准高效、系统集成度高、可扩展性强和成本效益显著等优势,适用于人员安全管理、施工质量监控和施工进度管理等多个场景。
|
1月前
|
传感器 人工智能 监控
智慧电厂AI算法方案
智慧电厂AI算法方案通过深度学习和机器学习技术,实现设备故障预测、发电运行优化、安全监控和环保管理。方案涵盖平台层、展现层、应用层和基础层,具备精准诊断、智能优化、全方位监控等优势,助力电厂提升效率、降低成本、保障安全和环保合规。
智慧电厂AI算法方案
|
24天前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
74 4
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
GLM-4V-Flash:智谱 AI 免费开放的图像理解大模型 API 接口
智谱AI推出的GLM-4V-Flash是一款专注于图像理解的免费开放大模型,提供API接口支持用户上传图片URL或Base64编码图片获取详细的图像描述。该模型通过深度学习和卷积神经网络技术,简化了图像分析流程,提高了开发效率,适用于内容审核、辅助视障人士、社交媒体、教育和电子商务等多个应用场景。
79 14
GLM-4V-Flash:智谱 AI 免费开放的图像理解大模型 API 接口
|
13天前
|
机器学习/深度学习 缓存 人工智能
【AI系统】QNNPack 算法
QNNPACK是Marat Dukhan开发的量化神经网络计算加速库,专为移动端优化,性能卓越。本文介绍QNNPACK的实现,包括间接卷积算法、内存重排和间接缓冲区等关键技术,有效解决了传统Im2Col+GEMM方法存在的空间消耗大、缓存效率低等问题,显著提升了量化神经网络的计算效率。
31 6
【AI系统】QNNPack 算法
|
13天前
|
存储 人工智能 缓存
【AI系统】Im2Col 算法
Caffe 作为早期的 AI 框架,采用 Im2Col 方法优化卷积计算。Im2Col 将卷积操作转换为矩阵乘法,通过将输入数据重排为连续内存中的矩阵,减少内存访问次数,提高计算效率。该方法首先将输入图像转换为矩阵,然后利用 GEMM 库加速计算,最后将结果转换回原格式。这种方式显著提升了卷积计算的速度,尤其适用于通道数较多的卷积层。
34 5
【AI系统】Im2Col 算法
|
13天前
|
存储 机器学习/深度学习 人工智能
【AI系统】Winograd 算法
本文详细介绍Winograd优化算法,该算法通过增加加法操作来减少乘法操作,从而加速卷积计算。文章首先回顾Im2Col技术和空间组合优化,然后深入讲解Winograd算法原理及其在一维和二维卷积中的应用,最后讨论算法的局限性和实现步骤。Winograd算法在特定卷积参数下表现优异,但其应用范围受限。
28 2
【AI系统】Winograd 算法
|
21小时前
|
人工智能 大数据 测试技术
自主和开放并举 探索下一代阿里云AI基础设施固件创新
12月13日,固件产业技术创新联盟产业峰会在杭州举行,阿里云主导的开源固件测试平台发布和PCIe Switch固件技术亮相,成为会议焦点。
|
1天前
|
人工智能 算法
AI+脱口秀,笑点能靠算法创造吗
脱口秀是一种通过幽默诙谐的语言、夸张的表情与动作引发观众笑声的表演艺术。每位演员独具风格,内容涵盖个人情感、家庭琐事及社会热点。尽管我尝试用AI生成脱口秀段子,但AI缺乏真实的情感共鸣和即兴创作能力,生成的内容显得不够自然生动,难以触及人心深处的笑点。例如,AI生成的段子虽然流畅,却少了那份不期而遇的惊喜和激情,无法真正打动观众。 简介:脱口秀是通过幽默语言和夸张表演引发笑声的艺术形式,AI生成的段子虽流畅但缺乏情感共鸣和即兴创作力,难以达到真人表演的效果。
|
28天前
|
机器学习/深度学习 传感器 人工智能
智慧无人机AI算法方案
智慧无人机AI算法方案通过集成先进的AI技术和多传感器融合,实现了无人机的自主飞行、智能避障、高效数据处理及多机协同作业,显著提升了无人机在复杂环境下的作业能力和安全性。该方案广泛应用于航拍测绘、巡检监测、应急救援和物流配送等领域,能够有效降低人工成本,提高任务执行效率和数据处理速度。
智慧无人机AI算法方案
下一篇
DataWorks