智能硬件语音控制的时频图分类挑战赛2.0(思路以及结果,目前top5)

简介: 智能硬件语音控制的时频图分类挑战赛2.0(思路以及结果,目前top5)

一、赛事背景


2014年11月,亚马逊推出了一款全新概念的智能音箱Echo,通过语音指令交互控制硬件设备。截止2016年4月,Echo的累计销量已经突破300万台。2017年12月累计数千万台。亚马逊Echo音箱的推出标志着以语音交互为实用化的落地方案。


以智能音箱为代表的声控智能硬件在我国已经得到了商业化的大规模推广。2020年我国占有全球智能音箱销售量的51%,位居全球第一,而同期美国的份额从44%下降到了24%。


二、赛事任务


赛题提供具有24句语音交互指令的语音时频谱数据集(spectrogram dataset),选手需要完成搭建网络模型,基于密集多层网络、卷积网络和循环网络等基本结构的组合,进行有效预测。


三、评审规则


1.数据说明


本次比赛为参赛选手提供了语音信号及其对应的语句标签。出于数据安全保证的考虑,所有数据均为脱敏处理后的数据。


2.评估指标


本模型依据提交的结果文件,采用Macro-F1进行评价。


3.评测及排行


1、初赛和复赛均提供下载数据,选手在本地进行算法调试,在比赛页面提交结果。

2、每支团队每天最多提交3次。

3、排行按照得分从高到低排序,排行榜将选择团队的历史最优成绩进行排名。


四、作品提交要求


1、文件格式:按照csv格式提交测试结果

2、文件大小:无要求

3、文件详细说明:

  1. 编码为UTF-8
  2. 提交格式见提交示例


五、赛程规则


本赛题实行一轮赛制


赛程周期 7月1日-8月1日


1、7月1日10:00发布相关数据集(即开启比赛榜单)

2、比赛作品提交截止日期为8月1日17:00


现场答辩


1、最终前三名团队将受邀参加科大讯飞全球1024开发者节并于现场进行答辩

2、答辩以(10mins陈述+5mins问答)的形式进行

3、根据作品成绩和答辩成绩综合评分(作品成绩占比70%,现场答辩份数占比30%)


六、奖项设置


入围决赛

科大讯飞1024开发者节全场通票

决赛入围证书

科大讯飞创孵基地绿色入驻通道

A.I.服务市场入驻特权

决赛胜出

决赛奖金,各赛道TOP3选手将阶梯获得赛道奖金,第一名5000元、第二名3000元、第三名2000元。

参与1024全球开发者节颁奖盛典,现场授予奖金、证书与定制奖杯

A.I.全链创业扶持

绿色就业通道&讯飞Offer


七、尝试Tricks和思路


尝试多用数据增强

尝试用现有的权重进行迁移学习


尝试利用LabelSmooth的损失


尝试用多模型集成,模型融合等方法


尝试改变图像的分辨率,原先是450x750


450x750其实是一个很奇妙的数据,在图片中,大概来说是500x800,450x750讲边缘数据给剔除之后,也就是边缘的噪声得到最后的结果,这样的方法是比较有可信度的


尝试增大batchsize进行运行得到结果,从5->8


尝试利用大模型进行训练


八、详细参数以及运行


数据增强处理

transform_train = A.Compose([
        A.RandomCrop(450, 750),
    ])

后续增加数据增强,我发现从结果上来看,由于我们的图片中亮度变化比较明显,如果对亮度进行变化的话,我们的数据增强几乎是没什么效果的,个人感觉对比度也是,所以增加的数据增强主要是对图像的平移,或者掩盖等等。如果结果不错的话,再考虑用亮度和对比度的增强进行测试


增加了A.CoarseDropout(p=0.5)以后,结果提高了1%左右


transform_train = A.Compose([
            A.RandomCrop(450, 750),
            A.CoarseDropout(p=0.5),
            # A.ShiftScaleRotate(shift_limit=0.0625, scale_limit=0.05, rotate_limit=0, p=0.5),
            # A.RandomBrightnessContrast(p=0.5),
        ])


ResNet18


首先借鉴baseline中的ResNet18进行训练,然后加上自己的框架和一点点修改进行训练,第一次训练达到了91.5%的评分

CUDA_VISIBLE_DEVICES=3 python train.py -f --cuda --net ResNet18 --epochs 50 -bs 5 -lr 0.001

训练方式

CUDA_VISIBLE_DEVICES=0 python train.py -f --cuda --net Model --epochs 50 -bs 5 -lr 0.001 -fe 5

结果会发现,我们用小模型的训练往往能得到不错的结果,特别是EfficientNetv2系列的模型,在验证集中能得到比较高的准确率


这之中都是利用预训练模型进程测试的,因为含有一定量知识的模型才能得到更好的结果,并且在下列模型中,都先冻结训练了5个迭代


除此之外,添加了早停策略,防止过拟合


这里展示的是模型的最优结果


image.png

实际上现有模型都是小模型进行训练,之后也可以尝试利用大模型查看能否得到比较好的结果


九、提交结果


2022.7.15,目前排名第7,得分0.93121


7cdc233e403d4cdf86b503a504a39bfa.png


2022.7.15,目前排名第5,得分0.94377,这一次只加了一个数据增强就得到了不错的结果


image.png

相关文章
|
3月前
|
机器学习/深度学习 数据采集 消息中间件
使用Python实现智能火山活动监测模型
使用Python实现智能火山活动监测模型
52 1
|
3月前
|
人工智能 安全
要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 4 章:控制温度和 Top-p 采样
要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 4 章:控制温度和 Top-p 采样
26 1
|
7月前
|
自然语言处理 安全 数据安全/隐私保护
不影响输出质量还能追踪溯源,大模型无偏水印入选ICLR 2024 Spotlight
【6月更文挑战第7天】研究人员提出了一种无偏水印技术,能在不降低大型语言模型(LLMs)输出质量的情况下实现追踪和归属。此方法被ICLR 2024选为Spotlight论文,保证水印不影响模型性能,保护知识产权,防止滥用。无偏水印的挑战包括设计无损模型质量的实现、有效检测及安全防范措施。[论文链接: https://openreview.net/pdf?id=uWVC5FVidc]
76 2
|
8月前
|
机器学习/深度学习 人工智能 机器人
[译][AI 机器人] Atlas的电动新时代,不再局限于人类运动范围的动作方式
波士顿动力宣布液压Atlas机器人退役,推出全新电动Atlas,旨在实现更广泛的实际应用。这款全电动机器人将拓展人类运动范围,解决复杂工业挑战。现代汽车公司将参与其商业化进程,作为测试应用场景。波士顿动力计划与创新客户合作,逐步迭代Atlas的应用,打造高效、实用的移动机器人解决方案。Atlas将结合强化学习和计算机视觉等先进技术,通过Orbit软件平台进行管理,未来将在真实世界中发挥超越人类能力的作用。
|
传感器 Web App开发 运维
5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度
5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度
179 1
|
机器学习/深度学习 传感器 人工智能
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(下)
基于图像的3D目标检测是自动驾驶领域的一个基本问题,也是一个具有挑战性的问题,近年来受到了业界和学术界越来越多的关注。得益于深度学习技术的快速发展,基于图像的3D检测取得了显著的进展。特别是,从2015年到2021年,已经有超过200篇研究这个问题的著作,涵盖了广泛的理论、算法和应用。然而,到目前为止,还没有一个调查来收集和组织这方面的知识。本文首次对这一新兴的不断发展的研究领域进行了全面综述,总结了基于图像的3D检测最常用的流程,并对其各个组成部分进行了深入分析。此外,作者还提出了两个新的分类法,将最先进的方法组织成不同的类别,以期提供更多的现有方法的系统综述,并促进与未来作品的公平比较。
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(下)
|
机器学习/深度学习 自然语言处理 算法
中科院自动化所联合北方电子设备研究所提出多输入文本人脸合成方法,数据代码已开源
中科院自动化所联合北方电子设备研究所提出多输入文本人脸合成方法,数据代码已开源
183 0
|
机器学习/深度学习 编解码 人工智能
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(上)
基于图像的3D目标检测是自动驾驶领域的一个基本问题,也是一个具有挑战性的问题,近年来受到了业界和学术界越来越多的关注。得益于深度学习技术的快速发展,基于图像的3D检测取得了显著的进展。特别是,从2015年到2021年,已经有超过200篇研究这个问题的著作,涵盖了广泛的理论、算法和应用。然而,到目前为止,还没有一个调查来收集和组织这方面的知识。本文首次对这一新兴的不断发展的研究领域进行了全面综述,总结了基于图像的3D检测最常用的流程,并对其各个组成部分进行了深入分析。此外,作者还提出了两个新的分类法,将最先进的方法组织成不同的类别,以期提供更多的现有方法的系统综述,并促进与未来作品的公平比较。在
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(上)
|
机器学习/深度学习 人工智能 算法
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(中)
基于图像的3D目标检测是自动驾驶领域的一个基本问题,也是一个具有挑战性的问题,近年来受到了业界和学术界越来越多的关注。得益于深度学习技术的快速发展,基于图像的3D检测取得了显著的进展。特别是,从2015年到2021年,已经有超过200篇研究这个问题的著作,涵盖了广泛的理论、算法和应用。然而,到目前为止,还没有一个调查来收集和组织这方面的知识。本文首次对这一新兴的不断发展的研究领域进行了全面综述,总结了基于图像的3D检测最常用的流程,并对其各个组成部分进行了深入分析。此外,作者还提出了两个新的分类法,将最先进的方法组织成不同的类别,以期提供更多的现有方法的系统综述,并促进与未来作品的公平比较。
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(中)
|
存储 JSON 数据处理
基于飞桨实现乒乓球时序动作定位大赛
基于飞桨实现乒乓球时序动作定位大赛
224 0
基于飞桨实现乒乓球时序动作定位大赛