探索“数据菜谱”无限可能:首届Data-Juicer大模型数据竞赛

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 数据是LLaMA、Alpaca等大语言模型(LLM) 的“食物” ,你心中的大模型米其林菜单会是什么样呢?


课程学什么?

数据是LLaMA、Alpaca等大语言模型(LLM) 的“食物” ,你心中的大模型米其林菜单会是什么样呢?


尊敬的数智大厨们,进军LLM厨房的时刻到了!为了给LLM准备更高质量、更丰富和更易消化的“美味佳肴”,阿里云、魔搭(ModelScope)社区及天池平台推出了首届Data-Juicer大模型数据竞赛。我们希望以data-centric的比赛形式,推动社区对大模型数据质量的理解和优化,进一步改进大模型能力。


本次竞赛,FT-Data Ranker1B赛道7B赛道,是一次全新的“料理”展,您会在其中大展技艳,研发独家秘方,制作食物来改进大语言模型。您将使用主办方限定的原材料(候选数据集),直接对其进行清洗、过滤和增强处理。然后,使用经您精心加工的料理(新数据集),间接投喂给限定的基础模型(进行微调优化),最终在限定测试集上进行评测打分和排序。


本次比赛中,我们强调构建“数据菜谱”(Data Recipe),并使用一站式的数据处理工具Data-Juicer。Data-Juicer为参赛者提供了系统化、开箱即用、可复用的大量算子、工具和示例菜谱。参赛者可以利用其内置能力、或是自由研发新的算子工具,进行数据分析和加工处理。


此次比赛将在公平的环境下,让参赛者全情投入数据处理的研究,只有数据处理方式不同,其它因素如基础模型、测试集、训练数据量、训练脚本、模型架构等都将在各选手之间保持一致。


为了参赛者能更灵活地参赛,本次比赛按照模型大小及参与训练数据集的大小分为了1B/7B两个赛道。不仅如此,参赛者将有机会赢取高达五万元人民币的现金奖励,并获取精美的阿里云、魔搭社区周边奖品。


作为前瞻,此次比赛只是Data-Juicer LLM系列赛的第一场,后续拟举办更多诸如“Better Mixture"和"CC Miner"等数据比赛,大模型爱好者们将有机会挑战探索数据源的最优混合比例,以及如何从海量Web类数据(如CommonCrawl)中挖掘更多价值。


快拿起你的“烹饪”工具,一起研发新的LLM数据菜谱吧!我们诚挚地邀请所有的大模型爱好者、渴望挑战的你们参与这场竞赛,一同释放更多数据和大模型潜力!了解详细赛事信息,请前往赛事官网(点击「阅读原文」可直达):



1B赛道:https://tianchi.aliyun.com/competition/entrance/532157


7B赛道:https://tianchi.aliyun.com/competition/entrance/532158



相关文章
|
3月前
|
存储 算法 数据挖掘
【2023年中国高校大数据挑战赛 】赛题 B DNA 存储中的序列聚类与比对 Python实现
本文介绍了2023年中国高校大数据挑战赛赛题B的Python实现方法,该赛题涉及DNA存储技术中的序列聚类与比对问题,包括错误率分析、序列聚类、拷贝数分布图的绘制以及比对模型的开发。
80 1
【2023年中国高校大数据挑战赛 】赛题 B DNA 存储中的序列聚类与比对 Python实现
|
机器学习/深度学习 人工智能 数据挖掘
数据上新 | AI Earth上线长时序土地覆盖数据集(来自武汉大学黄昕教授团队)
数据上新 | AI Earth上线长时序土地覆盖数据集(来自武汉大学黄昕教授团队)
数据上新 | AI Earth上线长时序土地覆盖数据集(来自武汉大学黄昕教授团队)
|
3月前
|
传感器 机器学习/深度学习 数据采集
2022年第十一届认证杯数学中国数学建模国际赛小美赛:C 题 对人类活动进行分类 建模方案及代码实现
本文提供了2022年第十一届认证杯数学中国数学建模国际赛小美赛C题"对人类活动进行分类"的建模方案和Python代码实现,包括数据预处理、特征提取、LSTM网络模型构建和训练评估过程。
63 11
2022年第十一届认证杯数学中国数学建模国际赛小美赛:C 题 对人类活动进行分类 建模方案及代码实现
|
3月前
|
数据采集 算法 数据挖掘
【2023 年第二届钉钉杯大学生大数据挑战赛】 初赛 B:美国纽约公共自行车使用量预测分析 问题三时间序列预测Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛B题的Python代码分析,涉及美国纽约公共自行车使用量的时间序列预测、网络分析和聚类分析。
43 0
【2023 年第二届钉钉杯大学生大数据挑战赛】 初赛 B:美国纽约公共自行车使用量预测分析 问题三时间序列预测Python代码分析
|
3月前
|
机器学习/深度学习 算法 Python
【2023 华数杯全国大学生数学建模竞赛】 A题 隔热材料的结构优化控制研究 问题分析、模型建立及参考文献
本文提供了2023年华数杯全国大学生数学建模竞赛A题的详细分析、数学模型建立及参考文献,聚焦于隔热材料的结构优化控制研究,旨在解决单根隔热材料纤维的热导率测量难题,并探讨如何通过优化织物编织结构来提升隔热性能。
35 0
【2023 华数杯全国大学生数学建模竞赛】 A题 隔热材料的结构优化控制研究 问题分析、模型建立及参考文献
|
3月前
|
数据采集 机器学习/深度学习 人工智能
【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】1 初赛Rank12的总结与分析
关于2021年第五届“达观杯”基于大规模预训练模型的风险事件标签识别竞赛的初赛Rank12团队的总结与分析,详细介绍了赛题分析、传统深度学习方案、预训练方案、提分技巧、加速训练方法以及团队的总结和反思。
45 0
|
11月前
|
人工智能 自然语言处理 算法
|
机器学习/深度学习 数据采集 移动开发
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec(1)
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec
306 0
|
数据采集 机器学习/深度学习 搜索推荐
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec(2)
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec
196 0
|
机器学习/深度学习 人工智能 自然语言处理
零售业中的机器学习:要点和十个关键应用
零售业中的机器学习依赖于自我改进的计算机算法,这些算法用于处理数据,发现变量之间的重复模式和异常,并自主学习这种关系如何影响或决定行业的趋势、现象和业务场景。
265 0
零售业中的机器学习:要点和十个关键应用

热门文章

最新文章