社区供稿 | 140B参数、可商用！OpenBuddy 发布首个开源千亿中文 MoE 模型的早期预览版-阿里云开发者社区

社区供稿 | 140B参数、可商用！OpenBuddy 发布首个开源千亿中文 MoE 模型的早期预览版

2024-04-17 55

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 我们很自豪地于今天发布OpenBuddy最新一代千亿MoE大模型的早期预览版本：OpenBuddy-Mixtral-22Bx8-preview0-65k。此次发布的早期预览版对应约50%的训练进度。

我们很自豪地于今天发布OpenBuddy最新一代千亿MoE大模型的早期预览版本：OpenBuddy-Mixtral-22Bx8-preview0-65k。此次发布的早期预览版对应约50%的训练进度。

这个模型为业界是首个规模高达22Bx8（约1400亿参数）、原生支持65K上下文的开源中文MoE跨语言模型，模型不仅具备卓越的中英理解能力，还支持日、韩、法、德等多种语言的跨语言任务。

Mixtral 8x22B: 开源MoE大模型的GPT-4时刻

近期，业界领先的知名AI初创公司Mistral AI发布了Mixtral 8x22B开源模型基座。

Mistral AI的开源模型历来以超出同尺寸模型的认知能力和知识储备而闻名。此次Mixtral 8x22B模型，一经发布即成为了开源MoE模型的最新标杆。

作为Mistral的投资方之一，Microsoft于近日发布了WizardLM-2-8x22B：一个基于Mixtral 8x22B基座进一步微调的英文对话模型。

在评估英文多轮对话能力的MT-Bench上，WizardLM-2-8x22B取得了和Claude 3 Sonnet接近的评测结果，代表开源MoE大模型正在接近其GPT-4时刻。

尽管离最新的GPT-4-Turbo、Claude 3 Opus等头部闭源模型仍存在差距，但WizardLM-2-8x22B的成绩已经优于早期的0314版GPT-4，随着开源社区模型训练、微调技术的不断精进，开源社区中有希望涌现出英文能力接近并超越GPT-4的模型。

跨语言认知能力：OpenBuddy的专注领域

Mixtral/WizardLM 8x22B对中、日、韩等东亚语言的支持能力仍然存在局限性。模型的词表中只包含极少数的汉字，且模型本身的中文知识储备也相当有限。

作为致力于提供跨语言、强认知模型的开源社区，OpenBuddy在模型的跨语言能力上具备丰富的经验。此次训练过程中，我们首先对模型词表进行了增强：增加了共计约17000个CJK字符、中文常用词组。

结合我们在多次训练7Bx8 MoE模型过程中积累的经验，模型在我们针对MoE定制的跨语言训练方案下，很快适应了新的词表，并习得了跨语言翻译等语言能力。

Q: 将下面文字分别翻译成英语，日语，韩语，俄语，阿拉伯语：猫喜欢吃鱼，所以它们会游泳A: 英语翻译：Cats like to eat fish, so they can swim.日语翻译：猫は魚を食べるのが好きですから、泳ぐことができます。韩语翻译：고양이는 물고기를 좋아해서 수영을 할 수 있습니다.俄语翻译：Кошки любят есть рыбу, поэтому они умеют плавать.阿拉伯语翻译：القطط تحب تأكل السمك، لذا فهي تستطيع السباحة.

在此基础之上，我们进行了旨在增强模型的认知、推理、语言理解能力的微调过程。在本次发布的模型预览版本中。当我们使用“弱智吧”等带有语言陷阱的题目测试时，模型能给出清晰而准确的理解，展现出接近GPT-4等级的认知能力。

Q: 分析这个观点：我发现了最准确的光速计算方法，1光年/1年就能准确计算出光速

A: 这个观点提出了一种计算光速的方法，即使用 1 光年 /1 年来表示光速。首先，我们需要了解几个基本概念：

1. 光年（light-year）：光年是衡量宇宙距离的单位，它表示光在真空中在一年内所行进的距离。由于光速是恒定的，所以光年也可以看作是光速的一种表达方式。

2. 光速（speed of light）：在真空中，光速是一个物理常数，通常用符号 c 表示，其值约为 299,792,458 米 / 秒（大约 3.00 x 10^8 m/s）。

现在，让我们分析这个观点：

- 如果我们说 1 光年 /1 年，实际上是在说光在一年内能够行进 1 光年。由于光年本身就是基于光速定义的，所以这个表达方式本质上是在重复定义光速。换句话说，它并没有提供一个新的计算方法，而是在用一个已经依赖于光速定义的单位来描述光速。

- 从逻辑上讲，这个观点没有提供任何新的信息或计算方法，因为它本质上是在用光速来定义光速。这就像是说“1 米 /1 秒”来描述光速，这并没有提供一个独立的测量或计算方法。

- 在实际应用中，科学家们使用的是光速的精确数值来进行计算，而不是使用光年这个单位。光年主要用于天文学中描述星系和星体之间的巨大距离，而不是用来计算光速。

综上所述，这个观点并没有提供一个新的或更准确的光速计算方法，它只是用一个基于光速定义的单位来描述光速本身。在科学研究和工程应用中，我们通常使用光速的精确数值来进行计算和测量。

Q: 兔子追乌龟，距离100米，假如在兔子跑了100米这段时间，乌龟爬了10米。兔子继续追这10米，乌龟又爬了1米。以此类推，无论兔子追了多少米，一段时间内，乌龟都会往前爬一段距离。这么说兔子是否永远无法追上乌龟？A: 这个问题是古希腊哲学家芝诺（Zeno）的悖论之一，被称为“阿基里斯与乌龟”悖论。在这个悖论中，阿基里斯（代表兔子）永远追不上乌龟，因为每次他到达乌龟之前的位置时，乌龟都会前进一段新的距离。然而，这个悖论忽略了时间的连续性和速度的概念。在现实世界中，如果兔子比乌龟快，那么它最终会追上乌龟。这是因为兔子和乌龟的相对速度是恒定的，而时间是连续的。随着时间的推移，兔子会逐渐缩小与乌龟之间的距离，直到最终追上乌龟。从数学的角度来看，这个过程可以用无穷级数来描述。兔子追上乌龟的过程可以看作是一个无限序列的和，其中每一项代表兔子在特定时间段内追上的距离。尽管这个序列无限，但它的和是有限的，因为每一项的值都在减少，并且趋向于零。因此，这个无穷级数是收敛的，意味着兔子最终会追上乌龟。所以，虽然这个悖论在逻辑上看似合理，但实际上它忽略了时间和速度的连续性，因此在现实世界中，兔子是可以追上乌龟的。

65K原生上下文：长文理解潜力巨大

在训练模型的早期过程中，我们针对性地提升了模型的长文理解能力。基座模型的原生上下文长度高达65K，远超过此前开源模型普遍存在的4K到32K不等的限制。得益于基座的长文能力，经过OpenBuddy的长文能力增强训练流程后，模型的无损长文理解能力得到了进一步的优化，在长文本概要总结、问答等场景下性能卓越。借助RoPE-Scaling模型上下文倍增、FP8 KV-Cache压缩等技术，模型具备挑战128K级别长文任务的潜力。

未来展望：正式版模型、3090 4卡量化部署

欢迎点击“阅读原文”访问ModelScope平台，体验模型的高速下载和快速部署。同时，我们在模型中提供了Evaluation.txt评测文件，包含了模型在通用问答、代码和长文理解等任务上原始输出结果。模型基于Apache 2.0协议发布，无需许可即可商用。

目前提供的早期预览版对应约50%的训练进度，尽管在早期预览版模型已经展现出了强认知潜力，但模型仍然在中文内容创作、文言文、传统文化、指令精确遵循等领域上存在“欠拟合”的问题，在此类场景中可能输出质量不及预期的结果。模型的完整权重所需显存高达280GB，建议在4卡A800环境下部署。

当前，我们仍在继续推进正式版模型的训练过程，并同时开展模型量化部署的早期探索。在4-Bit量化级别下，模型体积有望能压缩至80GB以下，使3090 4卡环境部署成为可能。

正式版和量化模型预计在5月上旬推出，敬请期待。同时也欢迎关注、下载我们提供的Mistral2-7B、Qwen1.5-32B等中小尺寸跨语言模型系列。

https://www.modelscope.cn/models/OpenBuddy/openbuddy-mixtral-22bx8-preview0-65k/summary

社区供稿 | 140B参数、可商用！OpenBuddy 发布首个开源千亿中文 MoE 模型的早期预览版

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景