社区供稿 | Llama3-8B中文版!OpenBuddy发布新一代开源中文跨语言模型

简介: 此次发布的是在3天时间内,我们对Llama3-8B模型进行首次中文跨语言训练尝试的结果:OpenBuddy-Llama3-8B-v21.1-8k。

此次发布的是在3天时间内,我们对Llama3-8B模型进行首次中文跨语言训练尝试的结果:OpenBuddy-Llama3-8B-v21.1-8k

658d681b-8d58-41ee-8852-3193b0541fbf[1].png

未来,我们计划基于Llama3-8B、70B基座发布更多版本,并针对性地提升模型的中文编码效率和长文能力。

Llama3-8B:刷新10B以下模型的多项纪录


当地时间4月19日,Meta发布了Llama-3 8B、70B两款模型。其中,尤为值得注意的是Llama3-8B模型,此模型在性能、语料规模、算力消耗等方面打破了此前10B小模型的纪录。

根据Scaling Law法则,业界普遍认为8B模型的最佳训练数据规模在0.2T(2000亿)Tokens左右。这种观点被各类开源、闭源模型厂商广泛接纳,并作为训练集规模决策的参考。

与此相反的是,在Llama3中,Meta没有在小模型上遵循现有的Scaling Law,而是投入了巨量的计算资源和数据,用于尽可能提升8B小模型的性能。

根据Meta的技术报告,以及来自NVIDIA的公开信息,Llama3训练过程在二万余张H100卡组成的计算集群上运行,并在8B模型上消耗了共计130万GPU小时数。数据集规模高达15T(15万亿)Tokens,是Scalilng Law所建议的规模的75倍。同时,为了进一步提升数据集的质量,Meta使用了上一代Llama2模型,对训练数据集进行分类和筛选。

技术报告中显示,使用如此巨量的高质量数据训练8B小模型时,模型的性能在后期仍以对数线性的模式不断进步。这意味大量增加数据集带来的收益虽然并非线性,但确实能提升8B小模型的性能。

ae4f8f3e-424d-48c0-a4c8-b985132e3d7b[1].png

基于Meta提供的测试结果,Llama3-8B预训练模型在多个指标上,尤其是在考察模型知识储备和理解能力的MMLU、AGIEval等基准上,均优于之前业界广受欢迎的Mistral-7B模型。

Llama3 License:7亿月活内可商用、更明确的跨语言许可


Llama3模型在商用许可方面和上一代模型相似:总月活用户数低于7亿的公司(含关联公司)可以免费商用。

此外,针对此前社区讨论的语言限制问题,本次Llama3发布时在Model Card中做出了明确的说明:

96e3c237-78f9-4274-a0d3-3b383777a61f[1].png

Llama3基座模型本身的预期内使用方式局限于英语。但是,开发者可以将Llama3模型进一步训练微调,使得模型在满足Meta对安全性、无害性的要求等条款规定的前提下,增加对其它语言的支持。

OpenBuddy Llama3-8B:跨语言能力、强中文认知能力


由于Llama3本身只为英文场景能力优化,且训练集中多数数据为英文数据。这在增强Llama3英文基准上的表现的同时,也使得模型在其它语言上的知识储备、语言理解能力较弱,尤其是中文方面。

在实际用中文问题提问原版Llama3模型时,原版模型往往给出全英文或者中英混合的内容,且表现出中文常识方面的欠缺。

OpenBuddy在模型的跨语言能力和认知、理解能力上具备丰富经验,本次训练过程中,我们在3天时间内,用部分数据集实现了旨在增强模型中文跨语言能力、认知能力的模型训练工作。

经过3天短时间的训练工作后,模型的中文语言能力和中文知识储备得到了显著提升,能基本正确地回答一些中文常识问题。

Q: 一个人不喜欢吃油炸,下列选项中哪里他最可能去?选项:华莱士、麦当劳、海底捞、肯德基

A: 一个人如果不喜欢吃油炸食物,最可能去的餐厅是海底捞。海底捞以其火锅而闻名,火锅是一种以汤底为基础,食材多样,包括肉类、蔬菜、豆制品等,可以根据个人口味和健康需求选择的餐饮方式。相比之下,华莱士、麦当劳和肯德基主要提供的是油炸食品,如炸鸡、炸薯条等,这些油炸食品可能不适合不喜欢油炸食物的人。

Q: 颐和园在哪里

A: 颐和园位于中国北京市西郊,距离北京市中心约 20 公里。它是中国著名的皇家园林之一,也是世界文化遗产之一。颐和园始建于清朝乾隆年间,最初名为清漪园,后在 1888 年(清光绪十四年)由慈禧太后命名为颐和园。园内景观以昆明湖、万寿山为基础,汇聚了中国园林艺术之大成,包括山水、建筑、植被等多种元素,展现了中国古典园林的精髓。

颐和园不仅是中国园林艺术的杰出代表,也是世界园林文化的宝贵财富。它以其宏大的规模、精湛的艺术和深厚的文化内涵吸引着来自世界各地的游客。园内的景点众多,如长廊、佛香阁、十七孔桥等,都是颐和园的标志性景观。

同时,超出我们预期的是:在部分测试题中,模型展现出了逻辑思维、推理方面的认知潜力,超过了此前的OpenBuddy-Mistral-7B系列模型。

Q: A大于B,B小于C,A和C谁大?think step by step

A: 要解决这个问题,我们可以通过逐步分析给定的条件来进行思考。

首先,我们有三个变量:A、B 和 C。根据题目,我们知道:

1. A 大于 B(A > B)

2. B 小于 C(B < C)

我们的目标是比较 A 和 C 的大小。

从给定的条件中,我们可以推断出以下几点:

- 由于 A 大于 B,这意味着 A 在数值上位于 B 的右侧。

- 同时,B 小于 C,这意味着 C 在数值上位于 B 的右侧。

因此,根据这些条件,我们可以得出结论:A 和 C 都位于 B 的右侧。然而,这个信息并没有直接告诉我们 A 和 C 之间的具体大小关系。

但是,我们可以进一步分析:

- 如果 A 和 C 都大于 B,那么它们之间的大小关系取决于它们各自的数值大小。

- 如果 A 和 C 中有一个等于 B 的值,那么另一个将是更大的。但根据题目条件,A 和 C 都不等于 B。

因此,最直接的推理是,A 和 C 的大小关系取决于它们各自的数值。没有足够的信息来确定 A 和 C 之间的确切大小关系,只能说 A 和 C 都大于 B,但无法确定它们之间谁更大。

总结来说,基于给定的条件,我们无法直接确定 A 和 C 之间谁更大,只能确定 A 和 C 都大于 B。

Q: 老鼠生病了吃老鼠药能治好吗?

A: 老鼠生病了吃老鼠药能治好吗?这个问题看似简单,但实际上涉及到生态学、毒理学和伦理学等多个领域。首先,我们需要明确老鼠药的作用机制和目的,然后再探讨其对生病老鼠的影响。

老鼠药主要是用来控制老鼠数量的,它们通常含有对老鼠有毒的化学物质,如抗凝血剂(如华法林)或神经毒素(如硫酸铅)。这些物质的作用机制是通过干扰老鼠的正常生理功能,导致老鼠死亡。因此,从这个角度来看,老鼠药并不是用来治疗老鼠疾病的,而是通过毒杀的方式来控制老鼠数量。

如果将老鼠药用于治疗生病的老鼠,可能会遇到以下几个问题:

1. **剂量问题**:老鼠药的剂量是基于控制老鼠数量的需要设计的,对于生病的老鼠来说,这种剂量可能过高,无法精确控制,从而导致治疗效果不佳甚至产生毒副作用。

2. **选择性问题**:老鼠药通常缺乏足够的选择性,可能会对老鼠体内的正常细胞和病变细胞都产生毒性作用,这意味着即使能够杀死病原体,也可能对老鼠的健康造成进一步的损害。

3. **伦理问题**:使用老鼠药治疗生病的老鼠涉及到伦理问题。这种做法违背了动物福利的原则,因为它牺牲了老鼠的生命来达到所谓的“治疗”目的,而没有考虑到老鼠的痛苦和生命价值。

综上所述,老鼠生病了吃老鼠药并不能治好病,反而可能加重病情或造成新的伤害。正确的做法应该是寻找适合老鼠的药物或治疗方法,或者在必要时采取人道的方式处理生病的老鼠。

未来展望:编码效率、长文优化、70B


欢迎点击“阅读原文”,在魔搭社区中体验模型的高速下载和一键部署。

我们在模型中提供了Evaluation.txt文件,可以直接观察到此版本模型在我们测试题集上的原始输出。

同时,在魔搭社区的支持下,社区中将会提供8B模型的在线体验。

需要注意的是:模型在商用上存在7亿月活等限制,请阅读Llama3 License和免责声明后再决定是否使用。此外,尽管我们并没有刻意清除日、韩、法、德等语言的认知,但我们要求此模型只在中文、英文及两者间跨语言场景下使用。

本次展示的模型是我们在3天短时间内的训练成果,尽管模型已经具备中文语言能力,但仍然在中文深度、长尾知识上表现较弱,存在幻觉倾向。

Llama3基座的原生上下文只支持到8K,且原始词表只包含数千个常用CJK字词、中文编码效率较低。这些因素综合起来,导致本次发布的模型在长文能力上,弱于我们此前发布的OpenBuddy-Mistral-7B等开源模型系列。

未来,我们将进一步增强模型的中文认知、理解能力和知识储备。并计划通过词表扩容、模型长文优化等工作,优化8B模型的长文能力。我们同样有计划进行70B模型的跨语言训练工作。

新的8B、70B模型预期将于5月陆续与大家见面。敬请期待!

点击 直达模型体验

模型详情页 · 魔搭社区 (modelscope.cn)

相关文章
|
自然语言处理
ChatGPT Prompt顶级思维框架:LangGPT
ChatGPT作为当前最先进的对话生成模型,能够满足各种文本生成需求。然而,要充分利用其强大的功能,合理而全面的指令设置(Prompt Engineering)是关键。 今天,我要与大家分享一种名为“LangGPT”的思维框架,它可以帮助你更有效地构建ChatGPT的提示词。
|
8月前
|
人工智能 自然语言处理 安全
如何让 AI 工具更懂你,更听话?
你是否也曾被AI“气到吐血”?明明说的是A,AI却给了B?别沮丧,2025年的AI也需要“正确沟通”。本文教你五大提示技巧:动态提示、多模态输入、Few-shot示例、任务分解与安全边界,让AI从“人工智障”变身“贴心助手”。学会“说AI的语言”,释放创造力,提升效率,开启智能生活新时代!
1816 0
|
存储 人工智能 大数据
The Past, Present and Future of Apache Flink
本文整理自阿里云开源大数据负责人王峰(莫问)在 Flink Forward Asia 2024 上海站主论坛开场的分享,今年正值 Flink 开源项目诞生的第 10 周年,借此时机,王峰回顾了 Flink 在过去 10 年的发展历程以及 Flink社区当前最新的技术成果,最后展望下一个十年 Flink 路向何方。
1034 33
The Past, Present and Future of Apache Flink
|
数据采集 运维 供应链
工业4.0时代:数字化工具的核心价值与应用
本文探讨了工业数字化的浪潮及其工具选择的重要性。随着制造业、能源和物流等领域的数字化转型,企业需通过数据采集与分析、自动化控制及协同办公等手段提升效率。文章介绍了智能制造、供应链管理和设备维护中的应用场景,并强调高效协作工具在任务可视化管理、跨部门协作优化等方面的关键作用。最后,从功能匹配度、易用性、扩展性和成本效益四个方面为企业选择合适的数字化工具提供了指导,助力企业在竞争中占据先机。
|
机器学习/深度学习 索引 Python
Numpy学习笔记(二):argmax参数中axis=0,axis=1,axis=-1详解附代码
本文解释了NumPy中`argmax`函数的`axis`参数在不同维度数组中的应用,并通过代码示例展示了如何使用`axis=0`、`axis=1`和`axis=-1`来找到数组中最大值的索引。
1989 0
Numpy学习笔记(二):argmax参数中axis=0,axis=1,axis=-1详解附代码
|
安全 数据建模 应用服务中间件
如何给IP地址添加SSL证书(https)
为IP地址配置SSL证书实现HTTPS访问,需拥有固定公网IP,选择支持IP证书的CA,完成账户注册、证书申请、所有权验证及证书安装。验证过程涉及在服务器上放置特定文件,确保可访问。安装后需测试连接,注意兼容性和安全性,定期维护证书。
|
Web App开发 Shell 开发者
使用 curl 发送请求
cURL 是一个通过 URL 传输数据的,功能强大的命令行工具。cURL 可以与 Chrome Devtool 工具配合使用,把浏览器发送的真实请求还原出来,附带认证信息,脱离浏览器执行,方便开发者重放请求、修改参数调试,编写脚本。也可以单独使用,根据自己的需求构造请求调整参数,构造多种接口测试场景。
|
API Windows
逆向学习COM篇:通过注册表管理COM组件
逆向学习COM篇:通过注册表管理COM组件
543 0
|
移动开发 缓存 JavaScript
前端javascript的DOM对象操作技巧,全场景解析(一)
前端javascript的DOM对象操作技巧,全场景解析(一)
367 0

热门文章

最新文章