社区供稿 | Llama3-8B中文版!OpenBuddy发布新一代开源中文跨语言模型

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 此次发布的是在3天时间内,我们对Llama3-8B模型进行首次中文跨语言训练尝试的结果:OpenBuddy-Llama3-8B-v21.1-8k。

此次发布的是在3天时间内,我们对Llama3-8B模型进行首次中文跨语言训练尝试的结果:OpenBuddy-Llama3-8B-v21.1-8k

658d681b-8d58-41ee-8852-3193b0541fbf[1].png

未来,我们计划基于Llama3-8B、70B基座发布更多版本,并针对性地提升模型的中文编码效率和长文能力。

Llama3-8B:刷新10B以下模型的多项纪录


当地时间4月19日,Meta发布了Llama-3 8B、70B两款模型。其中,尤为值得注意的是Llama3-8B模型,此模型在性能、语料规模、算力消耗等方面打破了此前10B小模型的纪录。

根据Scaling Law法则,业界普遍认为8B模型的最佳训练数据规模在0.2T(2000亿)Tokens左右。这种观点被各类开源、闭源模型厂商广泛接纳,并作为训练集规模决策的参考。

与此相反的是,在Llama3中,Meta没有在小模型上遵循现有的Scaling Law,而是投入了巨量的计算资源和数据,用于尽可能提升8B小模型的性能。

根据Meta的技术报告,以及来自NVIDIA的公开信息,Llama3训练过程在二万余张H100卡组成的计算集群上运行,并在8B模型上消耗了共计130万GPU小时数。数据集规模高达15T(15万亿)Tokens,是Scalilng Law所建议的规模的75倍。同时,为了进一步提升数据集的质量,Meta使用了上一代Llama2模型,对训练数据集进行分类和筛选。

技术报告中显示,使用如此巨量的高质量数据训练8B小模型时,模型的性能在后期仍以对数线性的模式不断进步。这意味大量增加数据集带来的收益虽然并非线性,但确实能提升8B小模型的性能。

ae4f8f3e-424d-48c0-a4c8-b985132e3d7b[1].png

基于Meta提供的测试结果,Llama3-8B预训练模型在多个指标上,尤其是在考察模型知识储备和理解能力的MMLU、AGIEval等基准上,均优于之前业界广受欢迎的Mistral-7B模型。

Llama3 License:7亿月活内可商用、更明确的跨语言许可


Llama3模型在商用许可方面和上一代模型相似:总月活用户数低于7亿的公司(含关联公司)可以免费商用。

此外,针对此前社区讨论的语言限制问题,本次Llama3发布时在Model Card中做出了明确的说明:

96e3c237-78f9-4274-a0d3-3b383777a61f[1].png

Llama3基座模型本身的预期内使用方式局限于英语。但是,开发者可以将Llama3模型进一步训练微调,使得模型在满足Meta对安全性、无害性的要求等条款规定的前提下,增加对其它语言的支持。

OpenBuddy Llama3-8B:跨语言能力、强中文认知能力


由于Llama3本身只为英文场景能力优化,且训练集中多数数据为英文数据。这在增强Llama3英文基准上的表现的同时,也使得模型在其它语言上的知识储备、语言理解能力较弱,尤其是中文方面。

在实际用中文问题提问原版Llama3模型时,原版模型往往给出全英文或者中英混合的内容,且表现出中文常识方面的欠缺。

OpenBuddy在模型的跨语言能力和认知、理解能力上具备丰富经验,本次训练过程中,我们在3天时间内,用部分数据集实现了旨在增强模型中文跨语言能力、认知能力的模型训练工作。

经过3天短时间的训练工作后,模型的中文语言能力和中文知识储备得到了显著提升,能基本正确地回答一些中文常识问题。

Q: 一个人不喜欢吃油炸,下列选项中哪里他最可能去?选项:华莱士、麦当劳、海底捞、肯德基

A: 一个人如果不喜欢吃油炸食物,最可能去的餐厅是海底捞。海底捞以其火锅而闻名,火锅是一种以汤底为基础,食材多样,包括肉类、蔬菜、豆制品等,可以根据个人口味和健康需求选择的餐饮方式。相比之下,华莱士、麦当劳和肯德基主要提供的是油炸食品,如炸鸡、炸薯条等,这些油炸食品可能不适合不喜欢油炸食物的人。

Q: 颐和园在哪里

A: 颐和园位于中国北京市西郊,距离北京市中心约 20 公里。它是中国著名的皇家园林之一,也是世界文化遗产之一。颐和园始建于清朝乾隆年间,最初名为清漪园,后在 1888 年(清光绪十四年)由慈禧太后命名为颐和园。园内景观以昆明湖、万寿山为基础,汇聚了中国园林艺术之大成,包括山水、建筑、植被等多种元素,展现了中国古典园林的精髓。

颐和园不仅是中国园林艺术的杰出代表,也是世界园林文化的宝贵财富。它以其宏大的规模、精湛的艺术和深厚的文化内涵吸引着来自世界各地的游客。园内的景点众多,如长廊、佛香阁、十七孔桥等,都是颐和园的标志性景观。

同时,超出我们预期的是:在部分测试题中,模型展现出了逻辑思维、推理方面的认知潜力,超过了此前的OpenBuddy-Mistral-7B系列模型。

Q: A大于B,B小于C,A和C谁大?think step by step

A: 要解决这个问题,我们可以通过逐步分析给定的条件来进行思考。

首先,我们有三个变量:A、B 和 C。根据题目,我们知道:

1. A 大于 B(A > B)

2. B 小于 C(B < C)

我们的目标是比较 A 和 C 的大小。

从给定的条件中,我们可以推断出以下几点:

- 由于 A 大于 B,这意味着 A 在数值上位于 B 的右侧。

- 同时,B 小于 C,这意味着 C 在数值上位于 B 的右侧。

因此,根据这些条件,我们可以得出结论:A 和 C 都位于 B 的右侧。然而,这个信息并没有直接告诉我们 A 和 C 之间的具体大小关系。

但是,我们可以进一步分析:

- 如果 A 和 C 都大于 B,那么它们之间的大小关系取决于它们各自的数值大小。

- 如果 A 和 C 中有一个等于 B 的值,那么另一个将是更大的。但根据题目条件,A 和 C 都不等于 B。

因此,最直接的推理是,A 和 C 的大小关系取决于它们各自的数值。没有足够的信息来确定 A 和 C 之间的确切大小关系,只能说 A 和 C 都大于 B,但无法确定它们之间谁更大。

总结来说,基于给定的条件,我们无法直接确定 A 和 C 之间谁更大,只能确定 A 和 C 都大于 B。

Q: 老鼠生病了吃老鼠药能治好吗?

A: 老鼠生病了吃老鼠药能治好吗?这个问题看似简单,但实际上涉及到生态学、毒理学和伦理学等多个领域。首先,我们需要明确老鼠药的作用机制和目的,然后再探讨其对生病老鼠的影响。

老鼠药主要是用来控制老鼠数量的,它们通常含有对老鼠有毒的化学物质,如抗凝血剂(如华法林)或神经毒素(如硫酸铅)。这些物质的作用机制是通过干扰老鼠的正常生理功能,导致老鼠死亡。因此,从这个角度来看,老鼠药并不是用来治疗老鼠疾病的,而是通过毒杀的方式来控制老鼠数量。

如果将老鼠药用于治疗生病的老鼠,可能会遇到以下几个问题:

1. **剂量问题**:老鼠药的剂量是基于控制老鼠数量的需要设计的,对于生病的老鼠来说,这种剂量可能过高,无法精确控制,从而导致治疗效果不佳甚至产生毒副作用。

2. **选择性问题**:老鼠药通常缺乏足够的选择性,可能会对老鼠体内的正常细胞和病变细胞都产生毒性作用,这意味着即使能够杀死病原体,也可能对老鼠的健康造成进一步的损害。

3. **伦理问题**:使用老鼠药治疗生病的老鼠涉及到伦理问题。这种做法违背了动物福利的原则,因为它牺牲了老鼠的生命来达到所谓的“治疗”目的,而没有考虑到老鼠的痛苦和生命价值。

综上所述,老鼠生病了吃老鼠药并不能治好病,反而可能加重病情或造成新的伤害。正确的做法应该是寻找适合老鼠的药物或治疗方法,或者在必要时采取人道的方式处理生病的老鼠。

未来展望:编码效率、长文优化、70B


欢迎点击“阅读原文”,在魔搭社区中体验模型的高速下载和一键部署。

我们在模型中提供了Evaluation.txt文件,可以直接观察到此版本模型在我们测试题集上的原始输出。

同时,在魔搭社区的支持下,社区中将会提供8B模型的在线体验。

需要注意的是:模型在商用上存在7亿月活等限制,请阅读Llama3 License和免责声明后再决定是否使用。此外,尽管我们并没有刻意清除日、韩、法、德等语言的认知,但我们要求此模型只在中文、英文及两者间跨语言场景下使用。

本次展示的模型是我们在3天短时间内的训练成果,尽管模型已经具备中文语言能力,但仍然在中文深度、长尾知识上表现较弱,存在幻觉倾向。

Llama3基座的原生上下文只支持到8K,且原始词表只包含数千个常用CJK字词、中文编码效率较低。这些因素综合起来,导致本次发布的模型在长文能力上,弱于我们此前发布的OpenBuddy-Mistral-7B等开源模型系列。

未来,我们将进一步增强模型的中文认知、理解能力和知识储备。并计划通过词表扩容、模型长文优化等工作,优化8B模型的长文能力。我们同样有计划进行70B模型的跨语言训练工作。

新的8B、70B模型预期将于5月陆续与大家见面。敬请期待!

点击 直达模型体验

模型详情页 · 魔搭社区 (modelscope.cn)

相关文章
|
1月前
|
人工智能
GenMAC:港大、清华联合微软推出文本到视频生成的多代理协作框架
GenMAC是由香港大学、清华大学和微软研究院联合推出的文本到视频生成的多代理协作框架。该框架通过任务分解、迭代循环和多代理协作,解决了复杂场景生成问题,显著提高了视频生成的准确性和文本对齐度。
38 5
GenMAC:港大、清华联合微软推出文本到视频生成的多代理协作框架
|
5月前
|
人工智能 Swift 决策智能
社区供稿 | 面向多样应用需求,书生·浦语2.5开源超轻量、高性能多种参数版本
在 2024 年 7 月 4 日的 WAIC 科学前沿主论坛上,上海人工智能实验室推出了书生·浦语系列模型的全新版本——InternLM2.5。
|
6月前
|
存储 自然语言处理 测试技术
Llama3.1-8B模型中文版!OpenBuddy发布新一代跨语言模型
7月23日,Meta发布了新一代开源模型系列:Llama3.1。其中405B参数的版本刷新了开源模型性能的上限,在多种指标上的测试成绩接近GPT-4等闭源模型的水平,甚至在部分基准测试中展现出来了超越头部闭源模型的潜力。
|
6月前
|
人工智能 自然语言处理 测试技术
Meet Llama3.1,405B赶超最强闭源模型!上魔搭社区一站体验、下载、推理、微调、部署
官方公布的Benchmark显示,Llama3.1 405B已在多项基准测试中超越GPT-4o和Claude 3.5 Sonnet,这是开源大模型首次赶超最强闭源模型!
|
机器学习/深度学习 API 开发工具
|
7月前
|
安全 数据管理 数据处理
智慧之选:开源与闭源大模型的未来探索
智慧之选:开源与闭源大模型的未来探索
117 2
|
6月前
|
数据可视化 物联网 Swift
谷歌开源Gemma2!魔搭社区推理、微调最佳实践教程
Google面向全球研究人员和开发者发布并开源 Gemma 2 大语言模型!本次Gemma 2 系列为轻量级开放模型,提供9B和27B参数两种尺寸,采用全新的架构设计,性能表现优异。
|
8月前
|
机器学习/深度学习 安全 算法框架/工具
开源vs闭源,大模型的未来在哪一边?
开源vs闭源,大模型的未来在哪一边?
开源vs闭源,大模型的未来在哪一边?
|
8月前
|
人工智能 Apache
社区供稿 | 140B参数、可商用!OpenBuddy 发布首个开源千亿中文 MoE 模型的早期预览版
我们很自豪地于今天发布OpenBuddy最新一代千亿MoE大模型的早期预览版本:OpenBuddy-Mixtral-22Bx8-preview0-65k。此次发布的早期预览版对应约50%的训练进度。
|
数据采集 人工智能 自然语言处理
社区供稿 | 猎户星空发布Yi系列微调34B-Chat模型,开源免费,中英兼备全面领先!
OrionStar-Yi-34B-Chat中英文大模型集高性能、完全开源、免费可商用等诸多优势于一身

热门文章

最新文章