社区供稿 | 140B参数、可商用!OpenBuddy 发布首个开源千亿中文 MoE 模型的早期预览版

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 我们很自豪地于今天发布OpenBuddy最新一代千亿MoE大模型的早期预览版本:OpenBuddy-Mixtral-22Bx8-preview0-65k。此次发布的早期预览版对应约50%的训练进度。

我们很自豪地于今天发布OpenBuddy最新一代千亿MoE大模型的早期预览版本:OpenBuddy-Mixtral-22Bx8-preview0-65k。此次发布的早期预览版对应约50%的训练进度。

这个模型为业界是首个规模高达22Bx8(约1400亿参数)、原生支持65K上下文的开源中文MoE跨语言模型,模型不仅具备卓越的中英理解能力,还支持日、韩、法、德等多种语言的跨语言任务。

image.png

Mixtral 8x22B: 开源MoE大模型的GPT-4时刻

近期,业界领先的知名AI初创公司Mistral AI发布了Mixtral 8x22B开源模型基座。

Mistral AI的开源模型历来以超出同尺寸模型的认知能力和知识储备而闻名。此次Mixtral 8x22B模型,一经发布即成为了开源MoE模型的最新标杆。

作为Mistral的投资方之一,Microsoft于近日发布了WizardLM-2-8x22B:一个基于Mixtral 8x22B基座进一步微调的英文对话模型。

在评估英文多轮对话能力的MT-Bench上,WizardLM-2-8x22B取得了和Claude 3 Sonnet接近的评测结果,代表开源MoE大模型正在接近其GPT-4时刻。

image.png

尽管离最新的GPT-4-Turbo、Claude 3 Opus等头部闭源模型仍存在差距,但WizardLM-2-8x22B的成绩已经优于早期的0314版GPT-4,随着开源社区模型训练、微调技术的不断精进,开源社区中有希望涌现出英文能力接近并超越GPT-4的模型。


跨语言认知能力:OpenBuddy的专注领域


Mixtral/WizardLM 8x22B对中、日、韩等东亚语言的支持能力仍然存在局限性。模型的词表中只包含极少数的汉字,且模型本身的中文知识储备也相当有限。

作为致力于提供跨语言、强认知模型的开源社区,OpenBuddy在模型的跨语言能力上具备丰富的经验。此次训练过程中,我们首先对模型词表进行了增强:增加了共计约17000个CJK字符、中文常用词组。

结合我们在多次训练7Bx8 MoE模型过程中积累的经验,模型在我们针对MoE定制的跨语言训练方案下,很快适应了新的词表,并习得了跨语言翻译等语言能力。

Q: 将下面文字分别翻译成英语,日语,韩语,俄语,阿拉伯语:猫喜欢吃鱼,所以它们会游泳A: 英语翻译:Cats like to eat fish, so they can swim.日语翻译:猫は魚を食べるのが好きですから、泳ぐことができます。韩语翻译:고양이는 물고기를 좋아해서 수영을 할 수 있습니다.俄语翻译:Кошки любят есть рыбу, поэтому они умеют плавать.阿拉伯语翻译:القطط تحب تأكل السمك، لذا فهي تستطيع السباحة.


在此基础之上,我们进行了旨在增强模型的认知、推理、语言理解能力的微调过程。在本次发布的模型预览版本中。当我们使用“弱智”等带有语言陷阱的题目测试时,模型能给出清晰而准确的理解,展现出接近GPT-4等级的认知能力。

Q: 分析这个观点:我发现了最准确的光速计算方法,1光年/1年 就能准确计算出光速

A: 这个观点提出了一种计算光速的方法,即使用 1 光年 /1 年来表示光速。首先,我们需要了解几个基本概念:

1. 光年(light-year):光年是衡量宇宙距离的单位,它表示光在真空中在一年内所行进的距离。由于光速是恒定的,所以光年也可以看作是光速的一种表达方式。

2. 光速(speed of light):在真空中,光速是一个物理常数,通常用符号 c 表示,其值约为 299,792,458 米 / 秒(大约 3.00 x 10^8 m/s)。

现在,让我们分析这个观点:

- 如果我们说 1 光年 /1 年,实际上是在说光在一年内能够行进 1 光年。由于光年本身就是基于光速定义的,所以这个表达方式本质上是在重复定义光速。换句话说,它并没有提供一个新的计算方法,而是在用一个已经依赖于光速定义的单位来描述光速。

- 从逻辑上讲,这个观点没有提供任何新的信息或计算方法,因为它本质上是在用光速来定义光速。这就像是说“1 米 /1 秒”来描述光速,这并没有提供一个独立的测量或计算方法。

- 在实际应用中,科学家们使用的是光速的精确数值来进行计算,而不是使用光年这个单位。光年主要用于天文学中描述星系和星体之间的巨大距离,而不是用来计算光速。

综上所述,这个观点并没有提供一个新的或更准确的光速计算方法,它只是用一个基于光速定义的单位来描述光速本身。在科学研究和工程应用中,我们通常使用光速的精确数值来进行计算和测量。



Q: 兔子追乌龟,距离100米,假如在兔子跑了100米这段时间,乌龟爬了10米。兔子继续追这10米,乌龟又爬了1米。以此类推,无论兔子追了多少米,一段时间内,乌龟都会往前爬一段距离。这么说兔子是否永远无法追上乌龟?A: 这个问题是古希腊哲学家芝诺(Zeno)的悖论之一,被称为“阿基里斯与乌龟”悖论。在这个悖论中,阿基里斯(代表兔子)永远追不上乌龟,因为每次他到达乌龟之前的位置时,乌龟都会前进一段新的距离。然而,这个悖论忽略了时间的连续性和速度的概念。在现实世界中,如果兔子比乌龟快,那么它最终会追上乌龟。这是因为兔子和乌龟的相对速度是恒定的,而时间是连续的。随着时间的推移,兔子会逐渐缩小与乌龟之间的距离,直到最终追上乌龟。从数学的角度来看,这个过程可以用无穷级数来描述。兔子追上乌龟的过程可以看作是一个无限序列的和,其中每一项代表兔子在特定时间段内追上的距离。尽管这个序列无限,但它的和是有限的,因为每一项的值都在减少,并且趋向于零。因此,这个无穷级数是收敛的,意味着兔子最终会追上乌龟。所以,虽然这个悖论在逻辑上看似合理,但实际上它忽略了时间和速度的连续性,因此在现实世界中,兔子是可以追上乌龟的。


65K原生上下文:长文理解潜力巨大

在训练模型的早期过程中,我们针对性地提升了模型的长文理解能力。基座模型的原生上下文长度高达65K,远超过此前开源模型普遍存在的4K到32K不等的限制。得益于基座的长文能力,经过OpenBuddy的长文能力增强训练流程后,模型的无损长文理解能力得到了进一步的优化,在长文本概要总结、问答等场景下性能卓越。借助RoPE-Scaling模型上下文倍增、FP8 KV-Cache压缩等技术,模型具备挑战128K级别长文任务的潜力。


未来展望:正式版模型、3090 4卡量化部署

欢迎点击“阅读原文”访问ModelScope平台,体验模型的高速下载和快速部署。同时,我们在模型中提供了Evaluation.txt评测文件,包含了模型在通用问答、代码和长文理解等任务上原始输出结果。模型基于Apache 2.0协议发布,无需许可即可商用。

目前提供的早期预览版对应约50%的训练进度,尽管在早期预览版模型已经展现出了强认知潜力,但模型仍然在中文内容创作、文言文、传统文化、指令精确遵循等领域上存在“欠拟合”的问题,在此类场景中可能输出质量不及预期的结果。模型的完整权重所需显存高达280GB,建议在4卡A800环境下部署。

当前,我们仍在继续推进正式版模型的训练过程,并同时开展模型量化部署的早期探索。在4-Bit量化级别下,模型体积有望能压缩至80GB以下,使3090 4卡环境部署成为可能。

正式版和量化模型预计在5月上旬推出,敬请期待。同时也欢迎关注、下载我们提供的Mistral2-7B、Qwen1.5-32B等中小尺寸跨语言模型系列。


https://www.modelscope.cn/models/OpenBuddy/openbuddy-mixtral-22bx8-preview0-65k/summary

相关文章
|
8天前
|
自然语言处理 开发者 异构计算
社区供稿 | Llama3-8B中文版!OpenBuddy发布新一代开源中文跨语言模型
此次发布的是在3天时间内,我们对Llama3-8B模型进行首次中文跨语言训练尝试的结果:OpenBuddy-Llama3-8B-v21.1-8k。
|
2月前
|
机器学习/深度学习 vr&ar 决策智能
创新性3D数据合成模型,微软推出EgoGen
【2月更文挑战第6天】创新性3D数据合成模型,微软推出EgoGen
21 2
创新性3D数据合成模型,微软推出EgoGen
|
3月前
|
数据采集 自然语言处理 前端开发
社区供稿 | 猎户星空百亿参数大模型 Orion-14B系列开源,一张3060就能跑(附魔搭社区推理微调最佳实践)
1月21日,傅盛在猎户星空大模型发布会上宣布,“为企业应用而生” 的开源百亿参数猎户星空大模型正式发布。猎户星空大模型(Orion-14B)是由猎户星空研发的预训练多语言大语言模型,以其140亿参数规模展现出了卓越的性能。
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
性能超越Llama2-13B,可免费商用,姚星创业公司开源百亿参数通用大模型
性能超越Llama2-13B,可免费商用,姚星创业公司开源百亿参数通用大模型
411 0
|
21天前
|
存储 自然语言处理 负载均衡
元象开源首个MoE大模型:4.2B激活参数,效果堪比13B模型!魔搭社区最佳实践来了!
近日,元象发布其首个Moe大模型 XVERSE-MoE-A4.2B, 采用混合专家模型架构 (Mixture of Experts),激活参数4.2B,效果即可媲美13B模型。该模型全开源,无条件免费商用,支持中小企业、研究者和开发者可在元象高性能“全家桶”中按需选用,推动低成本部署。
|
21天前
|
人工智能
首个开源世界模型!
【4月更文挑战第9天】加州大学伯克利分校的研究团队推出开源的LWM模型,首个能处理长视频和语言序列的模型,通过Blockwise RingAttention技术扩展处理长序列能力。该模型在理解和检索大量视频信息方面取得突破,解决了内存限制和计算复杂性问题,并创建了大型多元数据集。LWM还创新地处理视觉-语言训练挑战,但目前在理解复杂概念和依赖高质量视频数据上仍有局限。开源性质有望推动人工智能系统对多模态世界的理解。
15 1
首个开源世界模型!
|
1月前
|
数据采集 人工智能 自然语言处理
中科院国产多语言大模型-YAYI2开源!家族AI应用场景全覆盖!
中科院国产多语言大模型-YAYI2开源!家族AI应用场景全覆盖!
|
1月前
|
人工智能 安全 开发者
谷歌最新的开源大模型Gemma
【2月更文挑战第11天】谷歌最新的开源大模型Gemma
61 1
谷歌最新的开源大模型Gemma
|
7月前
|
人工智能 自然语言处理 Swift
元象开源70 亿参数通用大模型 XVERSE-7B,全开源、免费可商用,魔搭最佳实践来啦!
元象推出 70 亿参数通用大模型 XVERSE-7B 底座与对话版,保持高性能、全开源、免费可商用,让海量中小企业和 AI 开发者能以低成本用上高性能大模型,并在魔搭社区开源,共同推动中国大模型生态建设。
|
9月前
|
人工智能 达摩院 自然语言处理
达摩院联合高德发布业界首个多模态地理文本预训练模型MGeo,并在ModelScope社区开源!
达摩院联合高德发布业界首个多模态地理文本预训练模型MGeo,并在ModelScope社区开源!