魔搭上新啦! 智源千万级指令微调数据集Infinity-Instruct,Llama3.1仅微调即可接近GPT-4

简介: 智源研究院在今年6月推出了千万级指令微调数据集Infinity Instruct。Infinity Instruct在 Huggingface等平台发布后,快速到达了Huggingface Dataset的Trending第一

指令微调是引导语言模型落地、构建高性能对话模型的关键一步。针对目前开源的指令数据集质量低、覆盖领域少、数据信息不透明等问题,智源研究院在今年6月推出了千万级指令微调数据集Infinity Instruct。Infinity Instruct在 Huggingface等平台发布后,快速到达了Huggingface Dataset的Trending第一,且吸引大量基于Infinity Instruct的开源微调工作。近日,Infinity Instruct完成了新一轮迭代,包括Infinity-Instruct-7M基础指令数据集和Infinity-Instruct-Gen对话指令数据集。Infinity Instruct也终于正式在魔搭与大家见面。

数据集链接:

https://modelscope.cn/datasets/BAAI/Infinity-Instruct

Infinity-Instruct-7M包含744万条数学、代码、常识问答等领域的基础指令数据,用于进一步全面提升预训练模型的基础能力。Opencompass测试结果显示,经过在Infinity-Instruct-7M数据集上的微调,Llama3.1-70B、Mistral-7B-v0.1综合能力评价可基本对齐官方自己发布的对话模型,且InfInstruct-7M-Mistral-7B的综合评分超过了GPT-3.5,InfInstruct-7M-Llama3.1-70B已十分接近GPT-4。

*官方汇报结果

Infinity-Instruct-Gen包含149万条合成的复杂指令,用于提升模型在各种真实对话场景中回复的鲁棒性。基于该数据,对经过Infinity-Instruct-7M增强的模型做进一步SFT,即可取得超过官方对话模型的效果。而大多数的官方对话模型除了做基本的SFT外,还会做DPO/RLHF等对齐训练以提升模型的对话能力,产生额外的训练成本。

智源在MTBench、AlpacaEval2、Arena-Hard三个主流榜单上评测了Infinity-Instruct 7M+Gen对模型对话能力的增益,其中,AlpacaEval2和Arena-Hard与真实人类评价榜单Chatbot Arena有很高的一致率,MTBench则评测模型的多轮对话能力。

如下图1所示,InfInstruct-7M-Gen-Mistral-7B,InfInstruct-7M-Gen-Llama3.1-8B,InfInstruct-7M-Gen-Llama3.1-70B等经过Infinity Instruct微调的模型已经超越了官方对话模型的性能。Arena-Hard上InfInstruct-7M-Gen-Llama3.1-70B(66)超过了Llama3.1-70B-Instruct(55.7)和Llama3.1-405B-Instruct(64.1)。此外,如下图2所示,AlpacaEval2.0榜单上,InfInstruct-7M-Gen-Llama3.1-70B(46.1)更是超过了GPT4-0314(35.3),非常接近GPT4-1106(50)的水准,真正实现了GPT-4级别的对话能力。

Infinity-Instruct给每一条指令数据标注了语种、能力类型、任务类型、数据来源等信息,便于使用者根据自身需要筛选数据子集。

技术路线

智源研究院搜集了7500万余条开源指令作为待选指令池,采用数据选择与指令合成两条途径快速迭代,构建高质量的基础、对话指令数据集,以填补开源对话模型与GPT-4之间的基础能力、对话能力差距。

基础指令数据筛选

对于基础指令数据集,筛选流程主要考虑训练数据集和目标数据集数据分布的对齐,基于DSIR的思路,在训练数据集上进行排序,选取训练集的子集,拟合目标数据集的分布。

对话数据集生成、进化、评价 对于对话指令数据集,Infinity-Instruct首先采样了部分高质量的开源指令集,并为每条指令分配一组标签,描述完成指令所需的能力和知识。

标签系统共有两个级别:

  • 第一级标签:宏观类别,如 "自然语言处理 "和 "数学推理"。共包括 26 个类别。
  • 第二集标签:刻画具体任务,包含超过1.5w个类别。

基于此系统,就能识别指令集的内容分布以及完成不同任务所需的能力,构建一个高质量的种子数据集。随后,Infinity-Instruct参考WizardLM的方法对种子指令在广度、深度方向上进行扩展,并用AI Agent从指令合规性的角度剔除未能进化的数据。最后,进化后的指令作为初始输入,使用AI Agent扮演不同角色,为每条指令生成 2 至 4 轮对话。

数据去污、去重

为避免构造的数据存在自身重复、或与评测榜单重复的样本,Infinity-Instruct对所有数据应用了MinHash进行去重。并基于BGE检索剔除了和AlpacaEval、MT-Bench等评测榜单重复的样本。

训练框架

考虑到微调成本,项目使用FlagScale去掉训练样本中不必要的pad,压缩样本量,同时应用模型切分、切分支持大模型在数百万量级指令数据集上的训练。初步测试可比传统微调框架,如FastChat+Accelerate快三倍以上。

未来规划

Infinity Instruct未来将开源基础、对话指令数据处理的全流程代码,以及模型训练代码。同时,智源将探索扩展Infinity Instruct数据策略到对齐、预训练阶段,支持语言模型构建全生命周期的高质量数据需求。

Infinity RLAIF:基于Infinity Instruct标签体系以及生成指令构建了50K 对齐数据的第一个版本,实验结果显示,Infinity-Gemma-2-9B-SimPO 在AlpacaEval上达到 73.4,在Arena Hard上达到 59.1。未来会进行更多对齐数据、算法的探索。

Infinity Math:基于多个开源数学数据集构建了可无限扩增的数学领域指令数据集,其中POT指令数据可提升在多个7B的基础语言模型和基础代码模型的zero-shot数学能力180%-510%,相关论文被CIKM 2024接收,欢迎引用。

@misc{zhang2024inifinitymath,    title={InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning},    author={Bo-Wen Zhang and Yan Yan and Lin Li and Guang Liu},    year={2024},    eprint={2408.07089},    archivePrefix={arXiv},    primaryClass={cs.LG},    url={https://arxiv.org/abs/2408.07089},  


点击链接👇,即可跳转数据集链接~

https://modelscope.cn/datasets/BAAI/Infinity-Instruct?from=alizishequ__text

相关文章
|
2月前
|
SQL 数据采集 自然语言处理
NL2SQL之DB-GPT-Hub<详解篇>:text2sql任务的微调框架和基准对比
NL2SQL之DB-GPT-Hub<详解篇>:text2sql任务的微调框架和基准对比
|
3月前
|
API 云栖大会
通义千问升级旗舰模型Qwen-Max,性能接近GPT-4o
通义旗舰模型Qwen-Max全方位升级,性能接近GPT-4o
1266 11
|
5月前
|
人工智能 自然语言处理 测试技术
RAG微调Llama 3竟超越GPT-4!英伟达GaTech华人学者提出RankRAG框架
【7月更文挑战第21天】英伟达与GaTech华人团队提出RankRAG框架,通过在Llama 3模型上微调,实现检索和生成的统一,超越GPT-4在知识密集型任务的表现。RankRAG利用指令微调让模型同时学习上下文排名和生成,减少了对独立检索模型的依赖。在多基准测试中胜过GPT-4,展示出提升LLMs性能的新潜力。尽管面临数据需求大和计算成本高的挑战,RankRAG为RAG任务优化提供了新途径。[[1](https://arxiv.org/abs/2407.02485)]
92 3
|
2月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
177 60
|
2月前
|
机器学习/深度学习 弹性计算 人工智能
大模型进阶微调篇(三):微调GPT2大模型实战
本文详细介绍了如何在普通个人电脑上微调GPT2大模型,包括环境配置、代码实现和技术要点。通过合理设置训练参数和优化代码,即使在无独显的设备上也能完成微调,耗时约14小时。文章还涵盖了GPT-2的简介、数据集处理、自定义进度条回调等内容,适合初学者参考。
392 6
|
3月前
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
3月前
|
数据采集 自然语言处理 监控
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
正是通过微调大模型使得GPT3成为了可以聊天发布指令的ChatGPT。聊天大模型在通用大模型的基础上加一层微调就实现人人能用的大模型,使得通用大模型的能力被更多人使用和了解。
61 4
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
|
2月前
|
开发工具 git
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
69 0
|
5月前
|
数据采集 自然语言处理 算法
AIGC使用问题之GPT-3的数据集是如何构建的
AIGC使用问题之GPT-3的数据集是如何构建的
|
5月前
|
自然语言处理
AIGC使用问题之GPT-1如何优化目标函数,如何做模型微调
AIGC使用问题之GPT-1如何优化目标函数,如何做模型微调

热门文章

最新文章