探索“数据菜谱”无限可能:首届Data-Juicer大模型数据竞赛

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 数据是LLaMA、Alpaca等大语言模型(LLM) 的“食物” ,你心中的大模型米其林菜单会是什么样呢?


课程学什么?

数据是LLaMA、Alpaca等大语言模型(LLM) 的“食物” ,你心中的大模型米其林菜单会是什么样呢?


尊敬的数智大厨们,进军LLM厨房的时刻到了!为了给LLM准备更高质量、更丰富和更易消化的“美味佳肴”,阿里云、魔搭(ModelScope)社区及天池平台推出了首届Data-Juicer大模型数据竞赛。我们希望以data-centric的比赛形式,推动社区对大模型数据质量的理解和优化,进一步改进大模型能力。


本次竞赛,FT-Data Ranker1B赛道7B赛道,是一次全新的“料理”展,您会在其中大展技艳,研发独家秘方,制作食物来改进大语言模型。您将使用主办方限定的原材料(候选数据集),直接对其进行清洗、过滤和增强处理。然后,使用经您精心加工的料理(新数据集),间接投喂给限定的基础模型(进行微调优化),最终在限定测试集上进行评测打分和排序。


本次比赛中,我们强调构建“数据菜谱”(Data Recipe),并使用一站式的数据处理工具Data-Juicer。Data-Juicer为参赛者提供了系统化、开箱即用、可复用的大量算子、工具和示例菜谱。参赛者可以利用其内置能力、或是自由研发新的算子工具,进行数据分析和加工处理。


此次比赛将在公平的环境下,让参赛者全情投入数据处理的研究,只有数据处理方式不同,其它因素如基础模型、测试集、训练数据量、训练脚本、模型架构等都将在各选手之间保持一致。


为了参赛者能更灵活地参赛,本次比赛按照模型大小及参与训练数据集的大小分为了1B/7B两个赛道。不仅如此,参赛者将有机会赢取高达五万元人民币的现金奖励,并获取精美的阿里云、魔搭社区周边奖品。


作为前瞻,此次比赛只是Data-Juicer LLM系列赛的第一场,后续拟举办更多诸如“Better Mixture"和"CC Miner"等数据比赛,大模型爱好者们将有机会挑战探索数据源的最优混合比例,以及如何从海量Web类数据(如CommonCrawl)中挖掘更多价值。


快拿起你的“烹饪”工具,一起研发新的LLM数据菜谱吧!我们诚挚地邀请所有的大模型爱好者、渴望挑战的你们参与这场竞赛,一同释放更多数据和大模型潜力!了解详细赛事信息,请前往赛事官网(点击「阅读原文」可直达):



1B赛道:https://tianchi.aliyun.com/competition/entrance/532157


7B赛道:https://tianchi.aliyun.com/competition/entrance/532158



相关文章
|
8月前
|
人工智能 自动驾驶 安全
破壁人AI百度:科技公司反内卷的典型样本
简介: 互联网整个行业都在陷入被动且尴尬的局面。去年开始流行的“内卷”一词,恰如其分的描述了互联网的现状,比如抖音开始做外卖,微信强推视频号,一直硝烟弥漫的电商市场,更是激战在社区团购上。内卷背后也有人感慨,互联网到了尽头。支撑这一论述的是,移动互联网的人口红利已经消失,几款国民型APP用户增长都固定在了10亿这个级别,只能依靠自然人口的增长和迁移。
破壁人AI百度:科技公司反内卷的典型样本
|
8月前
|
移动开发 运维 监控
掌握Linux运维利器:查看CPU和内存占用,轻松解决性能问题!
掌握Linux运维利器:查看CPU和内存占用,轻松解决性能问题!
296 0
|
关系型数据库 定位技术 数据库
空间数据中台是什么,怎么用?DataQ空间智能全面开放邀测
阿里云空间数据中台不等同于GIS,它是在DataQ数据资源平台中体系化的整合了空间数据的处理能力,用于空间数据治理和空间领域数字化转型需要。DataQ空间智能包括空间数据同步、空间数据查询和浏览、空间数据管理、空间数据服务和空间数据资产管理等能力。用户可以通过阿里云官网注册账号并开通DataQ的试用白名单来使用DataQ空间智能。在使用过程中,需要注意空间数据源的配置、zip压缩方式、计算集群的设置等问题。DataQ空间智能公共云的开通,将大幅度降低体验和试用的门槛和成本,为线下项目的选型做好准备;同时仍然需要一定的技术投入和耐心,但数字化转型是未来的大势所趋,空间数据中台是必然的选择。
空间数据中台是什么,怎么用?DataQ空间智能全面开放邀测
|
存储 数据采集 缓存
海量数据去重的Hash、bitmap、BloomFilter、分布式一致性hash
海量数据去重的Hash、bitmap、BloomFilter、分布式一致性hash
178 1
|
7月前
|
算法 数据挖掘 数据处理
第三届 Data-Juicer 数据挑战赛:ModelScope-Sora“数据导演”创意竞速
欢迎进入第三届 Data-Juicer 数据挑战赛:“ModelScope-Sora 文生视频大模型数据挑战赛”。
|
5月前
|
人工智能 分布式计算 数据处理
Big Data for AI实践:面向AI大模型开发和应用的大规模数据处理套件
文叙述的 Big Data for AI 最佳实践,基于阿里云人工智能平台PAI、MaxCompute自研分布式计算框架MaxFrame、Data-Juicer等产品和工具,实现了大模型数据采集、清洗、增强及合成大模型数据的全链路,解决企业级大模型开发应用场景的数据处理难题。
|
6月前
|
数据采集 人工智能 测试技术
VBench 视频生成新榜首!Data-Juicer 沙盒实验室助力多模态数据与模型协同开发
Data-Juicer 沙盒实验室的提出和其大规模的效果验证,是对多模态数据与模型协同开发这一方向高潜力的有力佐证。
|
8月前
|
机器学习/深度学习 算法
开启“数据混合”新视界:第二届 Data-Juicer 大模型数据挑战赛
在数据的调味中探寻秘密,再次点燃 LLM 美食节的激情!欢迎踏入第二届 Data-Juicer 数智大赛:“BetterMixture - 大模型数据混合挑战赛”。
|
6月前
|
人工智能 算法
第四届 Data-Juicer数据挑战赛暨天池 Better Synth 多模态大模型数据合成挑战赛
阿里云、NVIDIA主办,阿里云天池平台、魔搭社区、阿里巴巴通义实验室共同组织的第四届 Data-Juicer 数据挑战赛,暨天池 Better Synth 多模态大模型数据合成挑战赛开赛啦~
|
Linux 数据安全/隐私保护 Windows
更换(Pypi)pip源到国内镜像
pip国内的一些镜像 阿里云 http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.
241888 2

热门文章

最新文章