天池数据集|精品数据集推荐(工业篇)

简介: 数据是人工智能时代重要的生产要素,高质量训练数据对深度学习模型的建立和优化有关键性的作用,建立大规模、高水准的标注数据集,是推动AI科研和技术前进的驱动力。

数据是人工智能时代重要的生产要素,高质量训练数据对深度学习模型的建立和优化有关键性的作用,建立大规模、高水准的标注数据集,是推动AI科研和技术前进的驱动力。

制造业是我国国民经济的主体,推动数字化转型,降本增质提速是当今制造业的发展方向。天池通过举办大数据竞赛,希望通过技术创新的方式来推动了产业的创新发展。AI模型的落地离不开高质量数据集的支撑,天池平台开放出一批高标准严要求下真实业务场景的数据,涵盖纺织、食品饮料、非金属制品等行业,小萌喵今天就带大家一起来看看天池上开放的工业数据集。

布匹瑕疵检测数据集

研究方向:工业质检/目标检测

2016年我国布匹产量超过700亿米且产量一直处于上升趋势。布料与人们日常生活接触密切,纺织行业在我国国民经济中所占的地位不言而喻。工厂生产时,对大量布匹的质检通常都是工人肉眼完成的,这种形式检测速度慢、劳动强度大,而且受到工人主观因素影响,将人工智能和计算机视觉技术应用于纺织行业,可以进一步助力纺织行业的自动化,降低对人工的依赖,提升布匹疵点检验的准确度,提升布样疵点质检的效果和效率。

天池开放布匹疵点数据集,包含瑕疵各异的布匹照片,每张照片含素色布的一个或多种瑕疵。

了解更多详情/下载使用数据集请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=79336

截屏2021-12-02 下午8.59.47.png

图1:瑕疵图示(黄色框为瑕疵部分)

瓶装白酒疵品检测数据集

研究方向:工业质检/目标检测

与布匹生产流程类似,在瓶装酒的生产过程中,受到原材料质量(酒瓶)以及加工工艺(灌装)等因素的影响,产品中可能存在各类瑕疵影响产品质量。但跟布匹不同的是,酒瓶上的瑕疵面积较小不容易被发现,并且瑕疵种类多,通常一条产线一般需要有三到五个质检环节分别检测不同类型的瑕疵。目前瓶装酒厂家只能选择投入大量人力用于产品质检。如果可以引进高效、可靠的自动化质检可以降低大量人工成本同时提高质检效,是非常有意义的工作。

天池提供白酒疵品数据集,数据集中白酒瓶身存在的各种瑕疵,包括:瓶盖瑕疵、标贴瑕疵、喷码瑕疵。

如需查看数据集更多详细内容请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=110147

截屏2021-12-02 下午8.59.54.png

图2:瓶盖变形、瓶盖坏边示意图

瓷砖表面暇疵检测数据集

研究方向:工业质检/目标检测

以抛釉砖为例的瓷砖生产环节一般经过原材料混合研磨、脱水、压胚、喷墨印花、淋釉、烧制、抛光,最后进行质量检测和包装。得益于产业自动化的发展,目前生产环节已基本实现无人化。而质量检测环节仍大量依赖人工完成。一般来说,一条产线需要配2~6名质检工,这样的质检方式效率低下、质检质量层次不齐、成本又居高不下。瓷砖的表面是用户衡量瓷砖质量的最直观标准,是瓷砖行业生产和质量管理的重要环节,也是困扰行业多年的技术瓶颈,同时长时间肉眼在强光下观察瓷砖表面寻找瑕疵也对工人的视力也会产生影响。如果能在技术上解决上述问题,无疑是有很大的经济价值和社会意义。

为了推动AI技术应用到传统的行业,天池推出瓷砖数据集,该数据集内含的数据覆盖到了瓷砖产线所有常见瑕疵,包括粉团、角裂、滴釉、断墨、滴墨、B孔、落脏、边裂、缺角、 砖渣、白边等。还有一些缺陷只能在特定视角才可以观察,包括低角度光照黑白图、高角度光照黑白图、彩色图,保证覆盖到生产环境中产生的所有瑕疵能被识别,是国内首个聚焦在瓷砖瑕疵质检的数据集。数据集下载请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=110088

截屏2021-12-02 下午9.00.04.png

图3:瓷砖瑕疵质检过程

以上所有数据都是在专业人员指导下,通过产线上架设专业拍摄设备、实地采集生产过程真实的数据,保证了数据来源的可靠性和科学性。

在数据标注过程中,达摩院的算法专家们对数据质量进行了全程把关,保证了天池数据集的质量。

关于天池数据集

天池数据集是阿里集团的科研数据集开放平台,数据集覆盖了新零售、文娱、医疗健康、交通、安全、能源、自然科学等十多个行业,涵盖了数据挖掘、机器学习、自然语言处理、计算机视觉、决策优化等前沿的技术领域。小伙伴们可以点击下方阅读原文进入官网https://tianchi.aliyun.com/dataset进行查看,还有更多宝藏数据等你发现。

截屏2021-12-02 下午9.00.13.png

相关文章
|
1月前
|
人工智能
港科大等发布多模态图推理问答数据集GITQA
【2月更文挑战第14天】港科大等发布多模态图推理问答数据集GITQA
41 7
港科大等发布多模态图推理问答数据集GITQA
|
传感器 机器学习/深度学习 自动驾驶
无人驾驶中常用的37个数据集以及每个数据集的亮点
我们在写论文的时候,经常会用到数据集.以下是我的一些整理.
|
机器学习/深度学习 算法 搜索推荐
阿里云机器学习平台PAI与香港大学合作论文入选INFOCOM 2022,有效减少大规模神经网络训练时间
近日,阿里云机器学习平台 PAI 与香港大学吴川教授团队合作的论文”Efficient Pipeline Planning for Expedited Distributed DNN Training”入选INFOCOM(IEEE International Conference on Computer Communications) 2022,论文提出了一个支持任意网络拓扑的同步流水线并行训练算法,有效减少大规模神经网络的训练时间。
阿里云机器学习平台PAI与香港大学合作论文入选INFOCOM 2022,有效减少大规模神经网络训练时间
|
6月前
|
人工智能 算法
阿里云人工智能平台 PAI 扩散模型加速采样算法论文入选 CIKM 2023
近日CIKM 2023上,阿里云人工智能平台PAI和华东师范大学陈岑副教授团队主导的扩散模型加速采样算法论文《Optimal Linear Subspace Search: Learning to Construct Fast and High-Quality Schedulers for Diffusion Models》入选。此次入选意味着阿里云人工智能平台 PAI自研的扩散模型算法和框架达到了全球业界先进水平,获得了国际学者的认可,展现了中国人工智能技术创新在国际上的竞争力。
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
KDD 2023 | GPT时代医学AI新赛道:16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布
KDD 2023 | GPT时代医学AI新赛道:16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布
168 0
|
算法 数据可视化
基于AIE平台的决策树算法的贵州省冬小麦的提取
基于AIE平台的决策树算法的贵州省冬小麦的提取
基于AIE平台的决策树算法的贵州省冬小麦的提取
|
11月前
|
数据采集 人工智能 算法
ECCV 2022 | 76小时动捕,最大规模数字人多模态数据集开源
ECCV 2022 | 76小时动捕,最大规模数字人多模态数据集开源
102 0
|
人工智能 自然语言处理 安全
天池数据集 | 精品数据集推荐 医疗行业(上)
随着医疗行业的飞速发展,科研数据在数字化时代中扮演重要的角色。阿里云天池本着合法、安全和隐私保护的原则,和知名机构合作开放了一批有临床科研价值的数据集,覆盖多个技术领域。今天小萌喵就带大家一起看看临床方向的数据集~
451 0
天池数据集 | 精品数据集推荐 医疗行业(上)