天池数据集|精品数据集推荐(工业篇)

简介: 数据是人工智能时代重要的生产要素,高质量训练数据对深度学习模型的建立和优化有关键性的作用,建立大规模、高水准的标注数据集,是推动AI科研和技术前进的驱动力。

数据是人工智能时代重要的生产要素,高质量训练数据对深度学习模型的建立和优化有关键性的作用,建立大规模、高水准的标注数据集,是推动AI科研和技术前进的驱动力。

制造业是我国国民经济的主体,推动数字化转型,降本增质提速是当今制造业的发展方向。天池通过举办大数据竞赛,希望通过技术创新的方式来推动了产业的创新发展。AI模型的落地离不开高质量数据集的支撑,天池平台开放出一批高标准严要求下真实业务场景的数据,涵盖纺织、食品饮料、非金属制品等行业,小萌喵今天就带大家一起来看看天池上开放的工业数据集。

布匹瑕疵检测数据集

研究方向:工业质检/目标检测

2016年我国布匹产量超过700亿米且产量一直处于上升趋势。布料与人们日常生活接触密切,纺织行业在我国国民经济中所占的地位不言而喻。工厂生产时,对大量布匹的质检通常都是工人肉眼完成的,这种形式检测速度慢、劳动强度大,而且受到工人主观因素影响,将人工智能和计算机视觉技术应用于纺织行业,可以进一步助力纺织行业的自动化,降低对人工的依赖,提升布匹疵点检验的准确度,提升布样疵点质检的效果和效率。

天池开放布匹疵点数据集,包含瑕疵各异的布匹照片,每张照片含素色布的一个或多种瑕疵。

了解更多详情/下载使用数据集请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=79336

截屏2021-12-02 下午8.59.47.png

图1:瑕疵图示(黄色框为瑕疵部分)

瓶装白酒疵品检测数据集

研究方向:工业质检/目标检测

与布匹生产流程类似,在瓶装酒的生产过程中,受到原材料质量(酒瓶)以及加工工艺(灌装)等因素的影响,产品中可能存在各类瑕疵影响产品质量。但跟布匹不同的是,酒瓶上的瑕疵面积较小不容易被发现,并且瑕疵种类多,通常一条产线一般需要有三到五个质检环节分别检测不同类型的瑕疵。目前瓶装酒厂家只能选择投入大量人力用于产品质检。如果可以引进高效、可靠的自动化质检可以降低大量人工成本同时提高质检效,是非常有意义的工作。

天池提供白酒疵品数据集,数据集中白酒瓶身存在的各种瑕疵,包括:瓶盖瑕疵、标贴瑕疵、喷码瑕疵。

如需查看数据集更多详细内容请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=110147

截屏2021-12-02 下午8.59.54.png

图2:瓶盖变形、瓶盖坏边示意图

瓷砖表面暇疵检测数据集

研究方向:工业质检/目标检测

以抛釉砖为例的瓷砖生产环节一般经过原材料混合研磨、脱水、压胚、喷墨印花、淋釉、烧制、抛光,最后进行质量检测和包装。得益于产业自动化的发展,目前生产环节已基本实现无人化。而质量检测环节仍大量依赖人工完成。一般来说,一条产线需要配2~6名质检工,这样的质检方式效率低下、质检质量层次不齐、成本又居高不下。瓷砖的表面是用户衡量瓷砖质量的最直观标准,是瓷砖行业生产和质量管理的重要环节,也是困扰行业多年的技术瓶颈,同时长时间肉眼在强光下观察瓷砖表面寻找瑕疵也对工人的视力也会产生影响。如果能在技术上解决上述问题,无疑是有很大的经济价值和社会意义。

为了推动AI技术应用到传统的行业,天池推出瓷砖数据集,该数据集内含的数据覆盖到了瓷砖产线所有常见瑕疵,包括粉团、角裂、滴釉、断墨、滴墨、B孔、落脏、边裂、缺角、 砖渣、白边等。还有一些缺陷只能在特定视角才可以观察,包括低角度光照黑白图、高角度光照黑白图、彩色图,保证覆盖到生产环境中产生的所有瑕疵能被识别,是国内首个聚焦在瓷砖瑕疵质检的数据集。数据集下载请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=110088

截屏2021-12-02 下午9.00.04.png

图3:瓷砖瑕疵质检过程

以上所有数据都是在专业人员指导下,通过产线上架设专业拍摄设备、实地采集生产过程真实的数据,保证了数据来源的可靠性和科学性。

在数据标注过程中,达摩院的算法专家们对数据质量进行了全程把关,保证了天池数据集的质量。

关于天池数据集

天池数据集是阿里集团的科研数据集开放平台,数据集覆盖了新零售、文娱、医疗健康、交通、安全、能源、自然科学等十多个行业,涵盖了数据挖掘、机器学习、自然语言处理、计算机视觉、决策优化等前沿的技术领域。小伙伴们可以点击下方阅读原文进入官网https://tianchi.aliyun.com/dataset进行查看,还有更多宝藏数据等你发现。

截屏2021-12-02 下午9.00.13.png

相关文章
|
传感器 机器学习/深度学习 自动驾驶
无人驾驶中常用的37个数据集以及每个数据集的亮点
我们在写论文的时候,经常会用到数据集.以下是我的一些整理.
|
1月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
143 60
|
3月前
|
机器学习/深度学习 运维
【阿里天池-医学影像报告异常检测】4 机器学习模型调参
本文提供了对医学影像报告异常检测任务中使用的机器学习模型(如XGBoost和LightGBM)进行参数调整的方法,并分享了特征提取和模型调优的最佳实践。
56 13
|
3月前
|
机器学习/深度学习 运维 算法
【阿里天池-医学影像报告异常检测】3 机器学习模型训练及集成学习Baseline开源
本文介绍了一个基于XGBoost、LightGBM和逻辑回归的集成学习模型,用于医学影像报告异常检测任务,并公开了达到0.83+准确率的基线代码。
63 9
|
3月前
|
机器学习/深度学习 数据采集 存储
【2021 年 MathorCup 高校数学建模挑战赛—赛道A二手车估价问题】2 问题一 数据预处理、特征工程及模型训练Baseline 和数据
参加2021年MathorCup高校数学建模挑战赛赛道A二手车估价问题时进行的特征工程步骤,包括缺失值处理、时间特征提取、特定匿名特征的处理、特征存储以及模型训练过程,并提供了相关代码的下载链接。
59 2
|
4月前
|
机器学习/深度学习 数据采集 人工智能
AI技术实践:利用机器学习算法预测房价
人工智能(Artificial Intelligence, AI)已经深刻地影响了我们的生活,从智能助手到自动驾驶,AI的应用无处不在。然而,AI不仅仅是一个理论概念,它的实际应用和技术实现同样重要。本文将通过详细的技术实践,带领读者从理论走向实践,详细介绍AI项目的实现过程,包括数据准备、模型选择、训练和优化等环节。
434 3
|
3月前
|
机器学习/深度学习 运维 算法
【阿里天池-医学影像报告异常检测】2 特征工程
本文详细介绍了在医学影像报告异常检测任务中进行特征工程的步骤和方法。
33 1
|
4月前
|
人工智能 算法
第四届 Data-Juicer数据挑战赛暨天池 Better Synth 多模态大模型数据合成挑战赛
阿里云、NVIDIA主办,阿里云天池平台、魔搭社区、阿里巴巴通义实验室共同组织的第四届 Data-Juicer 数据挑战赛,暨天池 Better Synth 多模态大模型数据合成挑战赛开赛啦~
|
机器学习/深度学习 数据采集 数据可视化
【DSW Gallery】数据分析经典案例:Kaggle竞赛之房价预测
Python是目前当之无愧的数据分析第一语言,大量的数据科学家使用Python来完成各种各样的数据科学任务。本文以Kaggle竞赛中的房价预测为例,结合JupyterLab Notebook,完成数据加载、数据探索、数据可视化、数据清洗、特征分析、特征处理、机器学习、回归预测等步骤,主要Python工具是Pandas和SKLearn。本文中仅仅使用了线性回归这一最基本的机器学习模型,读者可以自行尝试其他更加复杂模型,比如随机森林、支持向量机、XGBoost等。
【DSW Gallery】数据分析经典案例:Kaggle竞赛之房价预测
|
机器学习/深度学习 人工智能 自然语言处理
KDD 2023 | GPT时代医学AI新赛道:16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布
KDD 2023 | GPT时代医学AI新赛道:16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布
242 0