社区供稿 |【中文Llama-3】Chinese-LLaMA-Alpaca-3开源大模型项目正式发布

2024-05-06 556

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型训练 PAI-DLC，100CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： Chinese-LLaMA-Alpaca-3开源大模型项目正式发布，开源Llama-3-Chinese-8B（基座模型）和Llama-3-Chinese-8B-Instruct（指令/chat模型）

Chinese-LLaMA-Alpaca-3开源大模型项目正式发布，开源Llama-3-Chinese-8B（基座模型）和Llama-3-Chinese-8B-Instruct（指令/chat模型）。这些模型在原版Llama-3-8B的基础上使用了大规模中文数据进行增量预训练，并且利用高质量指令数据进行精调，进一步提升了中文基础语义和指令理解能力，相比一代和二代相关模型获得了显著性能提升。

相关模型已在🤗Hugging Face、🤖ModelScope、机器之心SOTA!社区、Gitee等平台同步上线。同步提供了GGUF量化版本模型（2bit~8bit），供用户快速便捷地体验相关模型。

项目地址：https://github.com/ymcui/Chinese-LLaMA-Alpaca-3

Llama-3 简介

2024年4月19日，Meta发布了最新一代开源大模型Llama-3，其中包括两个模型大小：8B、70B，并在未来会进一步开放400B+模型。每个模型均包括基座模型Llama-3以及经过对齐的对话模型Llama-3-Instruct。这些模型相比Llama-2在多个评测集上获得了显著的性能提升。相比Llama-2的主要区别：

词表大小：从32K提升至128K，并且使用了BPE词表
训练数据量：由2T tokens大幅度提升至15T tokens
上下文长度：由4096提升至8192
全尺寸均使用了GQA（Grouped-Query Attention）技术以提升效率

中文Llama-3

本项目推出了基于Llama-3开发的中文开源大模型Llama-3-Chinese和Llama-3-Chinese-Instruct，本次开源了8B模型版本。

Llama-3-Chinese-8B：基座模型，在Llama-3-8B上使用约120GB语料进行增量中文训练，与一期Plus系列模型、二期模型一致；
Llama-3-Chinese-8B-Instruct：指令/chat模型，在Llama-3-Chinese-8B的基础上进一步通过500万高质量指令进行精调获得。

本期模型与中文羊驼一期和二期相关模型最大的区别在于使用了原版Llama-3词表，而未对词表进行扩充。其中主要理由有以下几点：

Llama-3原生词表已从二代的32K提升至128K；
通过在中文维基百科上的编码实验表明，Llama-3原生词表的中文编码效率相比其二代具有显著提升，其效率约为中文LLaMA-2词表（大小：55296）的95%，因此认为编码效率已不是主要瓶颈；
结合我们在中文Mixtral大模型上的相关经验和实验结论，中文词表扩充并非大模型语言迁移的必要条件（见往期推送）