开启“数据混合”新视界:第二届 Data-Juicer 大模型数据挑战赛

简介: 在数据的调味中探寻秘密,再次点燃 LLM 美食节的激情!欢迎踏入第二届 Data-Juicer 数智大赛:“BetterMixture - 大模型数据混合挑战赛”。

在数据的调味中探寻秘密,再次点燃 LLM 美食节的激情!欢迎踏入第二届 Data-Juicer 数智大赛:“BetterMixture - 大模型数据混合挑战赛”。


亲爱的数据大厨们,继上次 FT-Data Ranker 厨艺的精彩亮相后,是时候挑战更加精细的调味技巧了!如何从数不胜数的数据原材料中,巧妙选择、精心混合,才能创造出最适合大模型口味的美食?这就是本届比赛的核心挑战!


BetterMixture 赛事中,您将扮演一位数据调味大师,利用主办方提供的候选微调数据集,融合您的智慧与经验,设计最佳的数据配比智能采样方案。利用这份经过您巧手混合的调味料(微调数据集),对基础大语言模型进行高效率的微调,释放其隐藏的强大潜能。


为了支持您的创作,Data-Juicer 再次披挂上阵,为您提供一站式、系统化、可复用的数据加工工具和算子,以便您迅速上手、并焕发创意。我们细心准备的 Jupyter Notebook 将引导您快速了解比赛流程,让您一路畅通无阻。



在这场“料理”竞技场上,每位参赛者都将面对相同的挑战规则,包括模型、训练算法等,确保公平竞争。在这里,您不需要庞大的计算设备,单卡 16G 显存即可玩转大模型数据混合,让您轻松驾驭数据的海洋。无论是新锐数据工程师还是资深机器学习专家,都能在这个赛场上一展自己的才华。


参赛者不仅有机会赢得丰厚的现金奖励,更能与全国各地的同行们一较高下,激烈角逐。这不仅是一场比赛,更是一个深入探索数据混合策略和推动大语言模型发展的绝佳机会。


准备好您的“调味”技巧吧,第二届 Data-Juicer 大模型数据挑战赛已经拉开帷幕。加入我们,共同揭开数据与大模型协同演进的新篇章!更多信息请访问比赛官网,期待您的精彩加入!


比赛官网:

https://tianchi.aliyun.com/competition/entrance/532174


Data-Juicer 开源代码:

https://github.com/alibaba/data-juicer


点击直达报名:https://tianchi.aliyun.com/competition/entrance/532174


相关文章
|
13天前
|
数据采集 文字识别 测试技术
智源研究院发布千万级多模态指令数据集Infinity-MM:驱动开源模型迈向SOTA性能
近年来,视觉语言模型(VLM)取得了显著进展,然而,现有的开源数据和指令数据集在数量和质量上依然落后,基于开源数据训练的模型在效果上仍然远落后于 SOTA 闭源模型或使用专有数据训练的开源模型。为解决以上问题,进一步提升开源模型的性能,2024年10月25日,智源研究院发布并开源了千万级多模态指令数据集Infinity-MM。
|
4月前
|
机器学习/深度学习 人工智能 Shell
人工智能平台PAI操作报错合集之在分布式训练过程中遇到报错,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
9天前
|
存储 人工智能 关系型数据库
拥抱Data+AI|玩家去哪儿了?解码Data+AI如何助力游戏日志智能分析
本文为阿里云瑶池数据库「拥抱Data+AI」系列连载第2篇,基于真实客户案例和最佳实践,探讨如何利用阿里云Data+AI解决方案应对游戏行业挑战,通过AI为游戏行业注入新的活力。文章详细介绍了日志数据的实时接入、高效查询、开源开放及AI场景落地,展示了完整的Data+AI解决方案及其实际应用效果。
|
5月前
|
机器学习/深度学习 数据采集 存储
人工智能平台PAI产品使用合集之FeatureStore是否支持推荐场景下的session特征
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5月前
|
编解码 自然语言处理 vr&ar
浙大、蚂蚁集团推出MaPa:文本生成超真实3D模型
【6月更文挑战第19天】浙江大学与蚂蚁集团联手推出MaPa技术,革新3D模型生成。MaPa利用文本描述创建超真实3D模型,降低依赖标注数据,提升图像质量和编辑性,推动游戏、VR及影视行业的发展。虽在复杂场景和物理属性生成上仍有局限,但已展现巨大潜力。[论文链接](https://arxiv.org/abs/2404.17569)**
98 1
|
数据采集 数据挖掘 数据处理
探索“数据菜谱”无限可能:首届Data-Juicer大模型数据竞赛
数据是LLaMA、Alpaca等大语言模型(LLM) 的“食物” ,你心中的大模型米其林菜单会是什么样呢?
|
机器学习/深度学习 存储 传感器
Habitat Challenge 2022冠军方案:字节AI Lab提出融合传统和模仿学习的主动导航
Habitat Challenge 2022冠军方案:字节AI Lab提出融合传统和模仿学习的主动导航
256 0
|
机器学习/深度学习 人工智能 算法
固定参数的模型有多大潜力?港中文、上海AI Lab等提出高效视频理解框架EVL
固定参数的模型有多大潜力?港中文、上海AI Lab等提出高效视频理解框架EVL
144 0
|
存储 算法 UED
颠覆传统、大规模检索系统首次引入「热刷新」模型升级,腾讯ARC Lab论文入选ICLR 2022
颠覆传统、大规模检索系统首次引入「热刷新」模型升级,腾讯ARC Lab论文入选ICLR 2022
140 0
|
机器学习/深度学习 数据采集 人工智能
不用调参,不用改模型!CLUE社区发布国内首个Data-centric竞赛,白给数据分析服务
模型为中心的竞赛见得太多了,最近国内上新了一个中文NLP竞赛DataCLUE。与以往不同的是,它是以数据为中心的竞赛!不用调参,不用改模型,只需要修改输入数据即可,还有能白嫖的数据分析服务。
502 0
不用调参,不用改模型!CLUE社区发布国内首个Data-centric竞赛,白给数据分析服务