纠错数据标注,只需一行代码:开源项目Cleanlab发布了2.0版本

简介: 纠错数据标注,只需一行代码:开源项目Cleanlab发布了2.0版本
只需要几行代码,Cleanlab 就能帮你纠正数据集中的错误。


从事 AI 研究工作的人都知道,数据准备几乎占据了数据科学和机器学习研究工作的 80%。它被认为是最耗时和最不愉快的数据科学任务。

你以为的研究工作是「花时间从数据、训练模型、高级建模技术中探索出很棒的见解」,实际上经常是「把大量时间花在清理数据上」,因为现实世界的数据是杂乱无章的,而且充满错误……


数据错误(例如训练集中的错误标记示例)会降低模型性能,数据集级别的问题(如重叠类)也会降低模型性能。即使在 gold-standard 基准数据集中,测试集错误也很常见,这可能会误导数据科学家选择劣质模型进行部署。虽然探索复杂的建模技术听起来比手动检查和清理单个数据点更有吸引力,但往往是后者提供了更大的收益。

为了帮助数据集纠错效率的提升,来自 MIT、亚马逊的研究者创造了数据标注纠错工具 Cleanlab。Cleanlab 通过仅自动标记真正需要注意的一小部分数据来减少此过程中的痛苦。


这个工具在三人合著的 NeurIPS 2021 论文《Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks》(ImageNet 验证集 6% 的标签都是错的,MIT:十大常用数据集没那么靠谱)也有提到。


论文链接:https://arxiv.org/abs/2103.14749

在这篇文章中,三人对 10 个主流机器学习数据集的测试集展开了研究,发现它们的平均错误率竟高达 3.4%。其中,最有名的 ImageNet 数据集的验证集中至少存在 2916 个错误,错误率为 6%;QuickDraw 数据集中至少存在 500 万个错误,错误率为 10%。

既然数据标注错误如此普遍,但又十分重要,那 cleanlab 是怎么解决这个问题的呢?

实现 80% 的自动化

Cleanlab 通过提供一个框架来简化以数据为中心的 AI ,帮助数据科学家和 ML 工程师完成 80% 的工作。Cleanlab 通过查找和修复示例级、类级和数据集级问题,支持机器学习和分析工作流,处理混乱的现实世界数据;测量和跟踪整体数据集质量;并为机器学习管道提供清洁数据。

「Cleanlab 背后的算法理论受到了量子信息理论的启发,当时我们的 CEO 正在麻省理工学院进行博士研究。我们的一些用户认为 Cleanlab 是黑魔法,但它大部分是发表在顶级 ML/AI 会议和期刊上的数学和科学研究。」

2021 年底,Cleanlab 公司成立。在过去的一年里,数十家科技、医疗保健、金融和数据相关的公司(例如特斯拉、摩根大通、Chase、富国银行、微软等)已经开始使用 cleanlab。迄今,这个项目已经累积了 3k Star:


近日,Cleanlab 正式发布了 2.0 版本,以适用于所有数据科学家、ML 数据集和模型。


cleanlab 2.0

cleanlab 2.0 是一个开源框架,用于机器学习和分析杂乱的真实数据。基于 MIT 的研究,cleanlab 可以识别数据集中的错误,测量数据集质量,用噪声数据训练可靠模型,并帮助管理高质量的数据集,每一个都只需要几行代码。

项目地址:https://github.com/cleanlab/cleanlab


Cleanlab 2.0 版本中开源的新特性示例(大部分是一行代码)包括:

  • 在数据集中查找问题并按质量对数据点进行排名
  • 在有标签问题的任何数据集上训练任何分类器
  • 在数据集级别查找要合并和 / 或删除的重叠类
  • 衡量数据集的整体标签健康状况


基本只需要一行代码,即可找出数据集中的哪些示例存在问题:



from cleanlab.classification import CleanLearningissues = CleanLearning(yourFavoriteModel).find_label_issues(data, labels)


一行代码,就能衡量和跟踪数据集的整体健康状况:



from cleanlab.dataset import overall_label_health_scorehealth = overall_label_health_score(labels, pred_probs)


此外,cleanlab 的所有功能都适用于任何数据集和任何模型,包括 scikit-learn、PyTorch、Tensorflow、Keras、JAX、HuggingFace、MXNet、XGBoost 等。如果你使用与 sklearn 兼容的分类器,cleanlab 可以开箱即用。

更多细节可参考项目文档。

相关文章
|
PyTorch Go 算法框架/工具
YOLOv8代码上线,官方宣布将发布论文,附精度速度初探和对比总结
【YOLOv8 注意事项】 1. YOLOv8 的官方仓库和代码已上线,文档教程网址也刚刚更新。 2. YOLOv8 代码集成在 ultralytics 项目中,目前看不会再单独创建叫做 YOLOv8 的项目。 3. YOLOv8 即将有论文了!要知道 YOLOv5 自从 2020 年发布以来,一直是没有论文的。而 YOLOv8(YOLOv5团队)这次首次承认将先发布 arXiv 版本的论文(目前还在火速撰写中)。
1707 0
YOLOv8代码上线,官方宣布将发布论文,附精度速度初探和对比总结
可控细节的长文档摘要,探索开源LLM工具与实践
本文通过将文档分为几部分来解决这个问题,然后分段生成摘要。在对大语言模型进行多次查询后,可以重建完整的摘要。通过控制文本块的数量及其大小,我们最终可以控制输出中的细节级别。
|
3月前
|
人工智能 Oracle Java
蚂蚁 CodeFuse 代码大模型技术解析:基于全仓库上下文的代码补全
CodeFuse 代码补全插件是 CodeFuse 系列产品中用户数量最多、留存率最大,调用AI能力最多的产品~欢迎大家体验试用https://github.com/codefuse-ai/RepoFuse
605 7
蚂蚁 CodeFuse 代码大模型技术解析:基于全仓库上下文的代码补全
|
3月前
|
搜索推荐 API 数据库
LangChain 构建问题之处理长篇报告总结的问题如何解决
LangChain 构建问题之处理长篇报告总结的问题如何解决
37 1
|
3月前
|
人工智能 JSON 算法
不是吧?这么好用的开源标注工具,竟然还有人不知道…
LabelU是一款专为AI项目设计的强大多模态数据标注工具,支持图像、视频、音频等多样化数据类型。它提供灵活的标注工具与自定义配置选项,让用户根据需求定制高效标注流程。特色功能包括一键载入预标注结果以简化修正工作,以及支持JSON、COCO等多种格式的导出选项。LabelU既可本地部署确保数据安全,也提供在线版本方便快速上手。此外,OpenDataLab还开源了Label-LLM对话标注工具和MinerU文档处理工具,进一步丰富了数据准备的工作流。欢迎访问[LabelU](https://github.com/opendatalab/labelU)了解更多详情,并为这些优秀工具点赞支持!
109 0
不是吧?这么好用的开源标注工具,竟然还有人不知道…
|
5月前
|
机器学习/深度学习 存储 算法
真是太强大了!YOLO-World检测一切的任务框架使用指南,支持开放词汇检测任务
真是太强大了!YOLO-World检测一切的任务框架使用指南,支持开放词汇检测任务
|
机器学习/深度学习 自然语言处理 安全
【网安专题11.8】14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
【网安专题11.8】14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
259 0
|
6月前
|
机器学习/深度学习 JSON 自然语言处理
python自动化标注工具+自定义目标P图替换+深度学习大模型(代码+教程+告别手动标注)
python自动化标注工具+自定义目标P图替换+深度学习大模型(代码+教程+告别手动标注)
|
6月前
|
机器学习/深度学习 PyTorch TensorFlow
机器学习PAI的1.6.1开源包依旧不全怎么办
机器学习PAI的1.6.1开源包依旧不全怎么办
157 1