LLM数学性能暴涨168%，微软14人团队力作！合成数据2.0秘诀曝光，智能体生成教学-阿里云开发者社区

LLM数学性能暴涨168%，微软14人团队力作！合成数据2.0秘诀曝光，智能体生成教学

2024-09-14 78

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架"AgentInstruct"的论文，该框架旨在通过自动生成高质量合成数据，推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据，减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集，展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3，在多个基准测试中显著超越同类模型。尽管如此，AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见：https://arxiv.org/pdf/2407.03502

最近，微软研究团队的一篇新论文引起了广泛关注。这篇论文介绍了一种名为"AgentInstruct"的新型框架，旨在通过生成大量高质量的合成数据来加速语言模型的发展。

论文中提到，合成数据在语言模型的训练过程中变得越来越重要，尤其是对于大型语言模型和小型语言模型来说。然而，尽管合成数据在许多应用中取得了成功，但研究人员也提出了一些关于模型崩溃和模仿其他模型的缺点的担忧。这种差异可以归因于合成数据在质量和多样性方面的差异。

为了解决这些问题，微软研究团队提出了AgentInstruct框架。这个框架可以自动创建大量多样化和高质量的合成数据，而不需要大量的人工努力。AgentInstruct可以生成提示和响应，只需要原始数据源，如文本文档和代码文件作为种子。

为了展示AgentInstruct的实用性，研究团队创建了一个包含2500万个训练对的合成数据集，用于教授语言模型各种技能，如文本编辑、创意写作、工具使用、编码、阅读理解等。这个数据集可以用于任何基础模型的指令微调。

研究团队使用这个数据集对Mistral-7b模型进行了微调，并得到了一个名为Orca-3的新模型。与使用相同基础模型的Mistral-7b-Instruct相比，Orca-3在许多基准测试中表现出了显著的改进。例如，在AGIEval上提高了40%，在MMLU上提高了19%，在GSM8K上提高了54%，在BBH上提高了38%，在AlpacaEval上提高了45%。此外，Orca-3还一致地超过了其他模型，如LLAMA-8B-instruct和GPT-3.5-turbo。

然而，尽管AgentInstruct框架在生成高质量合成数据方面取得了显著进展，但仍然存在一些限制。首先，创建智能体流程以生成不同技能的数据需要大量的人工努力。其次，合成数据可能无法完全复制真实世界数据的复杂性和细微差别，这可能导致潜在的不准确性。此外，生成合成数据的过程可能需要大量的计算资源，并且如果原始种子数据包含偏差，这些偏差可能会在合成数据中得到反映甚至放大。

论文地址：https://arxiv.org/pdf/2407.03502

LLM数学性能暴涨168%，微软14人团队力作！合成数据2.0秘诀曝光，智能体生成教学

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

LLM数学性能暴涨168%，微软14人团队力作！合成数据2.0秘诀曝光，智能体生成教学

热门文章

最新文章

相关课程

相关电子书

相关实验场景