【Kaggle/天池/DF/biendata】比赛信息汇总(NLP、CV,ML)

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 【Kaggle/天池/DF/biendata】比赛信息汇总(NLP、CV,ML)

1万美元奖金,Kaggle 新赛瞄准室内定位


10.png


●赛题背景●


当前社会,智能手机随处可见,无论是开车去商店或购物,在手机设置允许情况下,APPs 会根据你所处位置提供相关信息。如通过 GPS 获得驾驶路线或者附近的促销活动。


而 GPS 需要在户外才会获取精准的定位,但很多时候,在大型建筑内,如购物中心或活动中心,也是非常需要实时定位的。这就是基于公共传感器和用户授权的精准室内定位,即使不在室外,也能获得良好的位置体验。


11.png


●赛题介绍●


本次竞赛中,参赛者需要根据实时传感器数据预测智能手机的室内位置,所使用的数据由室内定位技术公司XYZ10与微软研究部门合作提供。使用 "active"定位数据对设备进行定位,这些数据是在用户的配合下所提供的。

通过更精确的定位,会对包括制造业、零售业和自主机器人设备等行业的基于位置的应用带来改进。


●赛事时间●


  • 开始日期:2021 年 1 月 28 日
  • 截止日期:2021 年 5 月 10 日
  • 团队合并截止日期:2021 年 5 月 10 日
  • 最终提交截止日期:2021 年 5 月 17 日


●赛事奖金●


  • 总奖金 10,000美元
  • 第一名:5,000 美元
  • 第二名:3,000 美元
  • 第三名:2,000 美元


●赛题数据●


本次竞赛所使用数据由室内定位技术公司 XYZ10 与微软研究部门合作提供。包含 200 多栋建筑的近 3 万条轨迹。(已有参赛者惊喜地发现自己常逛地杭州商场在列)

比赛及数据下载地址:


https://www.kaggle.com/c/indoor-location-navigation/data


PAKDD2021 第二届阿里云智能运维算法大赛


12.png


比赛链接:https://tianchi.aliyun.com/competition/entrance/531874/introduction


赛程安排


  • 初赛(A/B榜)(2021年1月29日-2021年3月25日,UTC+8)
  • 复赛(2021年3月29日—2021年4月20日,UTC+8 暂定如下方案)
  • 决赛答辩(4月29日(暂定),UTC+8)
  • 线下论坛((暂定),UTC+8)


论文环节


  • PAKDD2021 WORKSHOP(5月11日-5月14日,UTC+8)
  • Call for papers(2021年2月03日—2021年4月30日,UTC+8)

    13.png


奖项设置


  • 决赛激励
    冠军:1支队伍,奖金USD 15,000
    亚军:1支队伍,奖金USD 8,000
    季军:1支队伍,奖金USD 5,000
    (上述奖项以决赛的最终得分排名决定)
    最佳论文奖:2支队伍,奖金USD 1,000
    (用于奖励优秀竞赛论文,具体论文评分规则后续给出)
  • 阿里云招聘绿色通道
    优秀参赛选手,阿里云招聘同等条件优先考虑。


问题描述


给定一段时间的内存系统日志,内存故障地址数据以及故障标签数据,参赛者应提出自己的解决方案,以预测每台服务器是否会发生DRAM故障。具体来说,参赛者需要从组委会提供的数据中挖掘出和DRAM故障相关的特征,并采用合适的机器学习算法予以训练,最终得到可以预测DRAM故障的最优模型。数据处理方法和算法不限,但选手应该综合考虑算法的效果和复杂度,以构建相对高效的解决方案。


数据描述


本比赛数据表格比较多,详细介绍可以看下官网的比赛介绍


训练集包含如下两张表信息, 具体信息如下:


1)表1: memory_sample_mce_log_*.csv为mcelog上报的DRAM故障日志(mcelog是Linux基于Intel的机器检查架构(MCA)记录DRAM故障的标准工具),共6列。每列的含义如下:

14.png


2)表2: memory_sample_address_log_*.csv为从mcelog上报的DRAM故障日志中,解析出的发生DRAM故障的详细物理位置。共9列。


15.png


3)表3: memory_sample_kernel_log_*.csv是从Linux内核日志中收集的与DRAM故障相关的信息,共28列。其中,24列是布尔值。每个布尔列代表一个故障文本模板,其中True表示该故障文本模板出现在内核日志中。请注意,这里提供的模板并不保证都和DRAM故障相关,参赛者应自行判断选用哪些模板信息。下表仅列出除模版外的四列信息,每列的含义如下:


16.png


4)表4: memory_sample_failure_tag_*.csv为故障标签表,共5列。每列含义如下:


17.png


评价指标(初赛)


18.png


全球人工智能技术创新大赛三赛道


19.png


赛道一: 医学影像报告异常检测


比赛链接:https://tianchi.aliyun.com/competition/entrance/531852/introduction


赛道一以“医学影像报告异常检测”为课题,要求参赛队伍根据医生对CT的影像描述文本数据,判断身体若干目标区域是否有异常以及异常的类型。初赛阶段仅需判断各区域是否有异常;复赛阶段除了判断有异常的区域外,还需判断异常的类型。


赛道二: PANDA大场景多对象检测跟踪


比赛链接:https://tianchi.aliyun.com/competition/entrance/531855/introduction


赛道一以“医学影像报告异常检测”为课题,要求参赛队伍根据医生对CT的影像描述文本数据,判断身体若干目标区域是否有异常以及异常的类型。初赛阶段仅需判断各区域是否有异常;复赛阶段除了判断有异常的区域外,还需判断异常的类型。


赛道三: 小布助手对话短文本语义匹配


比赛链接:https://tianchi.aliyun.com/competition/entrance/531851/introduction


赛道三以“小布助手对话短文本语义匹配”为课题。小布助手是OPPO公司为欧加集团三品牌手机和IoT设备自研的语音助手,为用户提供了有趣、贴心、便捷的对话式服务。意图识别是对话系统中的一个核心任务,而对话短文本语义匹配是意图识别的主流算法方案之一。本赛道要求参赛队伍根据脱敏后的短文本query-pair,预测它们是否属于同一语义。


2021海华AI挑战赛·中文阅读理解·技术组


20.png


比赛链接:https://www.biendata.xyz/competition/haihua_2021/


时间安排

初赛


2021 年 2 月 1 日:大赛网页上线。

2021 年 2 月 7 日:比赛开始,开放提交。

2021 年 4 月 30 日(UTC时间:23:59,北京时间:次日 07:59):报名截止,组队截止,初赛提交截止。


复赛


2021 年 5 月 1 日 至 5 月 10 日(UTC时间:23:59,北京时间:次日 07:59):复赛阶段。参赛队伍需要按照一定规格提交模型,在后台的测试集上运行后得到预测结果和对应的分数。


答辩


2021 年 5 月下旬(具体时间另行通知):现场答辩和颁奖。


比赛奖励


总奖金:21万元

第一名:¥90,000

第二名:¥60,000

第三名:¥50,000

特设古文正确率最高奖(一支队伍):¥10,000


数据说明


本次比赛技术组赛道共发布 8,000 篇阅读理解文章,数据格式为json。其中,Content为一个字符串,代表文章;Questions为问题列表,列表中都有一个或多个Q_id和Question,代表问题;一个Choices,代表问题的候选选项;Answer代表正确的选项,也是模型需要预测的对象;Type代表文本类别,具体包括 00 现代文 11文言文 22 古诗词 33现代诗词(在验证集中包含);Diff代表难度,具体包括 1 字词解释 2 标点符号作用 3 句子解释 4 填空 5选择正确读音 6 推理总结 7 态度情感 8 外部知识(在验证集中包含)。


一条样例数据如下:

{
    "ID": "0001",
    "Content": "春之怀古张晓风春天必然曾经是这样的:从绿意内敛的山头,一把雪再也撑不住了,噗嗤的一声,将冷面笑成花面,一首澌澌然的歌便从云端唱到山麓,从山麓唱到低低的荒村,唱入篱落,唱入一只小鸭的黄蹼,唱入软溶溶的春泥——软如一床新翻的棉被的春泥。  那样娇,那样敏感,却又那样浑沌无涯。一声雷,可以无端地惹哭满天的云,一阵杜鹃啼,可以斗急了一城杜鹃花。一阵风起,每一棵柳都会吟出一则白茫茫、虚飘飘说也说不清、听也听不清的飞絮,每一丝飞絮都是一株柳的分号。反正,春天就是这样不讲理,不逻辑,而仍可以好得让人心平气和的。 春天必然曾经是这样的:满塘叶黯花残的枯梗抵死苦守一截老根,北地里千宅万户的屋梁受尽风欺雪扰自温柔地抱着一团小小的空虚的燕巢。然后,忽然有一天,桃花把所有的山村水廓都攻陷了。柳树把皇室的御沟和民间的江头都控制住了——春天有如旌旗鲜明的王师,因为长期虔诚的企盼祝祷而美丽起来。 而关于春天的名字,必然曾经有这样的一段故事:在《诗经》之前,在《尚书》之前,在仓颉造字之前,一只小羊在啮草时猛然感到的多汁,一个孩子放风筝时猛然感觉到的飞腾,一双患风痛的腿在猛然间感到舒适,千千万万双素手在溪畔在江畔浣纱时所猛然感到的水的血脉……当他们惊讶地奔走互告的时候,他们决定将嘴噘成吹口哨的形状,用一种愉快的耳语的声音来为这季节命名——“春”。 鸟又可以开始丈量天空了。有的负责丈量天的蓝度,有的负责丈量天的透明度,有的负责用那双翼丈量天的高度和深度。而所有的鸟全不是好的数学家,他们吱吱喳喳地算了又算,核了又核,终于还是不敢宣布统计数字。 至于所有的花,已交给蝴蝶去数。所有的蕊,交给蜜蜂去编册。所有的树,交给风去纵宠。而风,交给檐前的老风铃去一一记忆,一一垂询。 春天必然曾经是这样,或者,在什么地方,它仍然是这样的吧?穿越烟囱与烟囱的黑森林,我想走访那踯躅在湮远年代中的春天。",
    "Questions": [
      {
        "Q_id": "000101",
        "Question": "鸟又可以开始丈量天空了。”这句话的意思是   (   )",
        "Choices": [
          "A.鸟又可以飞了。",
          "B. 鸟又要远飞了。",
          "C.鸟又可以筑巢了。"
        ],
        "Answer": "A"
      },
      {
        "Q_id": "000102",
        "Question": "本文写景非常含蓄,请读一读找一找哪些不在作者的笔下有所描述",
        "Choices": [
          "A.冰雪融化",
          "B. 蝴蝶在花间飞舞",
          "C.白云在空中飘",
          "D.小鸟在空中自由地飞"
        ],
        "Answer": "C"
      }


赛题背景


文字是人类用以记录和表达的最基本工具,也是信息传播的重要媒介。透过文字与符号,我们可以追寻人类文明的起源,可以传播知识与经验,读懂文字是认识与了解的第一步。对于人工智能而言,它的核心问题之一就是认知,而认知的核心则是语义理解。

机器阅读理解(Machine Reading Comprehension)是自然语言处理和人工智能领域的前沿课题,对于使机器拥有认知能力、提升机器智能水平具有重要价值,拥有广阔的应用前景。机器的阅读理解是让机器阅读文本,然后回答与阅读内容相关的问题,体现的是人工智能对文本信息获取、理解和挖掘的能力,在对话、搜索、问答、同声传译等领域,机器阅读理解可以产生的现实价值正在日益凸显,长远的目标则是能够为各行各业提供解决方案。


《2021海华AI挑战赛·中文阅读理解》大赛由中关村海华信息技术前沿研究院与清华大学交叉信息研究院联合主办,设置题库16,000条数据,总奖金池30万元。


本次比赛的数据来自小学/中高考语文阅读理解题库(其中,技术组的数据主要为中高考语文试题,中学组的数据主要来自小学语文试题)。相较于英文,中文阅读理解有着更多的歧义性和多义性,然而璀璨的中华文明得以绵延数千年,离不开每一个时代里努力钻研、坚守传承的人,这也正是本次大赛的魅力与挑战,让机器读懂文字,让机器学习文明。秉承着人才培养的初心,我们继续保留针对中学组以及技术组的两条平行赛道,科技创新,时代有我,期待你们的回响。


比赛任务


本次比赛技术组的数据来自中高考语文阅读理解题库。每条数据都包括一篇文章,至少一个问题和多个候选选项。参赛选手需要搭建模型,从候选选项中选出正确的一个。


评测方法


本次评测采用 Accuracy指标。即给定一个含有个问题的集合:,如果模型正确地回答了个问题,那么最终得分即为:


基于AI的信道信息反馈性能提升


21.png


赛题链接:https://www.datafountain.cn/competitions/494


赛题背景


对于当前通信系统来说,物理层是通信服务得到保障的基础;而对于物理层来说,MIMO则是基本的支撑技术;对于MIMO来说,准确地确定信道质量并做有效反馈及利用又是必不可少的关键问题。


在国际标准化组织3GPP的讨论内,目前这部分工作是通过CSI 参考信号设计及CSI反馈机制完成。在当前的CSI反馈设计中,主要是依赖矢量量化、码本设计的方式来实现信道特征的提取与反馈,例如基于TYPE1、TYPE2的CSI反馈设计等。在目前的实践来看,这类反馈方式是有效的,但是由于其核心思想是基于信息抽取、码本反馈的方式,其所反馈的目标信息实际上是有损信道信息。


基于AI的信号检测、信道估计、反馈机制的探索可以对于上述问题带来全新的思考维度,例如借助神经网络的非线性还原优势,最大程度地在基站侧还原UE实际信道特征,并有效利用上述全信道特征后,可期望在物理层新的突破。


赛题任务


本赛题考虑利用AI的信息压缩性能,将全信道信息作为待压缩信息进行处理,并在接收端做信息恢复,以供基站调整相应参数,做出最佳数据调度方案。

具体来说,本赛题的特点如下:

a. 通过基于AI的信息压缩与反馈,将UE侧获取的全信道信息反馈至网络侧,供网络侧根据信道情况做合理的数据调度是比较直观的信道信息反馈方案,这类方法的优点是全信道信息反馈的方式将旨在最大程度地保留信道完整信息,- 最大限度地趋近于无损传输

b. 本赛题基于无线通信的基本需求,考察选手模型对于信道信息反馈性能的增益表现

c. 本赛题基于无线通信的基本需求,考察选手模型对于信道信息反馈开销的压缩表现

d. 本赛题基于无线通信的基本需求,考察选手模型在复杂信道环境下的泛化能力


大赛赛程


  • 2020/12/24,发布大赛赛题,选手可登录大赛官网报名;
  • 2021/01/11(中午12:00:00),发布赛题数据,选手可登录大赛官网赛题详情页下载数据集,同步开启大赛线上评测。选手可在线提交结果文件至竞赛平台,每日每队最多可提交5次,测评系统将自动评测得分并同步更新至排行榜。排行榜上将记录选手的最高成绩,相关团队必须自行保存最高成绩作品的源代码以备审核;此阶段内可登录大赛官网报名或组队;
  • 2021/03/02(中午 12:00:00),截止报名及组队;
  • 2021/03/05(24:00:00),评测结束,榜单锁定;
  • 2021/03/06-03/14,对排行榜前十支队伍进行作品审核后,按照评测成绩由高至低依次获得一二三等奖及优胜奖,获奖团队必须参加线下分享会及颁奖典礼,如不参加,视作团队默认弃赛。(备注:在接到组委会通知后,如前十名团队未及时提交资料或弃赛,组委会将依据排行榜名次顺延通知其他团队提交审核资料。)
  • 2021/03/25-03/26,线下分享会,颁奖典礼。(暂定,如因不可抗力或其他因素影响而变更时间,组委会将在第一时间通知获奖团队。)
    以上赛程安排均为北京时间计算。


数据简介


本赛题提供在4发送天线4接收天线(4T4R)的MIMO信道环境下生成的信道信息数据集,期望选手们能够通过具体的模型设计与实验,获得较高的信道信息反馈增益、较低的信道信息反馈开销、较好的复杂信道下的模型泛化能力。


赛题数据来自多小区多用户的4T4R 的MIMO信道,数据通过H_4T4R.mat文件提供,数据样本数量为60万例样本,每例样本大小为768,按照24162的顺序排列,其中分别对应24条传输径,4*4的收发天线对,以及实部和虚部。 赛题选手可以充分利用上述各个维度信息之间的相关特性,以期获得更好的比赛成绩。


训练集为H_4T4R.mat,对外发布用于选手训练模型,线上测试集(共计8万例)不对外发布。


本次大赛不允许使用外部数据集,评测结束后,拟获奖团队在作品审核阶段需说明训练过程,必要情况下需复现训练过程。


评测标准


1. 对有效成绩的定义: 反馈比特数不大于给定阀值1000比特,且性能增益不低于给定阀值NMSE<=0.1(信道恢复程度大于等于90%),则此次提交的成绩有效,否则为无效成绩。


2. 对于有效成绩: 反馈比特数小的提交 优于 反馈比特数大的提交

例如:选手甲和选手乙均取得有效成绩,选手甲反馈比特数为100bit,选手乙反馈比特数为200bit,则甲成绩优于乙


3. 同等反馈比特数时,对于有效成绩: 反馈性能高的提交 优于 反馈性能低的提交

例如:选手丙和选手丁均取得有效成绩,选手丙反馈比特数为100bit,性能增益评估为98%信道恢复度,选手丁反馈比特数为100bit,性能增益评估为96%信道恢复度,则丙成绩优于丁

综合得分可表述为: (1000 -反馈比特数N)/1000 + (1/1000) * (1-NMSE)

相关文章
|
4月前
|
自然语言处理 监控 自动驾驶
大模型在自然语言处理(NLP)、计算机视觉(CV)和多模态模型等领域应用最广
【7月更文挑战第26天】大模型在自然语言处理(NLP)、计算机视觉(CV)和多模态模型等领域应用最广
185 11
|
6月前
|
自然语言处理 数据可视化
R语言自然语言处理NLP:情感分析上市公司文本信息知识发现可视化
R语言自然语言处理NLP:情感分析上市公司文本信息知识发现可视化
|
自然语言处理 算法 数据可视化
nlp入门之商品信息可视化与文本分析实战
本文主要演示了在爬取信息后如何将信息可视化及如何进行文本分析
|
人工智能 自然语言处理 PyTorch
NLP信息抽取全解析:从命名实体到事件抽取的PyTorch实战指南
NLP信息抽取全解析:从命名实体到事件抽取的PyTorch实战指南
798 0
|
机器学习/深度学习 自然语言处理 算法
文档关键信息提取形成知识图谱:基于NLP算法提取文本内容的关键信息生成信息图谱教程及码源(含pyltp安装使用教程)
文档关键信息提取形成知识图谱:基于NLP算法提取文本内容的关键信息生成信息图谱教程及码源(含pyltp安装使用教程)
文档关键信息提取形成知识图谱:基于NLP算法提取文本内容的关键信息生成信息图谱教程及码源(含pyltp安装使用教程)
|
自然语言处理 数据可视化 计算机视觉
全领域涨点 | Transformer携Evolving Attention在CV与NLP领域全面涨点(文末送书)(二)
全领域涨点 | Transformer携Evolving Attention在CV与NLP领域全面涨点(文末送书)(二)
115 0
|
机器学习/深度学习 自然语言处理 计算机视觉
全领域涨点 | Transformer携Evolving Attention在CV与NLP领域全面涨点(文末送书)(一)
全领域涨点 | Transformer携Evolving Attention在CV与NLP领域全面涨点(文末送书)(一)
200 1
|
机器学习/深度学习 自然语言处理 数据可视化
泛化神器 | 李沐老师新作进一步提升模型在多域多的泛化性,CV和NLP均有大幅度提升(文末获取论文)
泛化神器 | 李沐老师新作进一步提升模型在多域多的泛化性,CV和NLP均有大幅度提升(文末获取论文)
248 0
|
机器学习/深度学习 人工智能 自然语言处理
细数NLP与CV的融合创新:盘点多模态深度学习这几年
细数NLP与CV的融合创新:盘点多模态深度学习这几年
343 0
|
机器学习/深度学习 人工智能 自然语言处理
2021年ML和NLP学术统计:谷歌断层第一,强化学习大牛Sergey Levine位居榜首
2021年ML和NLP学术统计:谷歌断层第一,强化学习大牛Sergey Levine位居榜首
102 0

热门文章

最新文章