社区供稿 |【中文Llama-3】Chinese-LLaMA-Alpaca-3开源大模型项目正式发布

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: Chinese-LLaMA-Alpaca-3开源大模型项目正式发布,开源Llama-3-Chinese-8B(基座模型)和Llama-3-Chinese-8B-Instruct(指令/chat模型)

image.png

Chinese-LLaMA-Alpaca-3开源大模型项目正式发布,开源Llama-3-Chinese-8B(基座模型)和Llama-3-Chinese-8B-Instruct(指令/chat模型)。这些模型在原版Llama-3-8B的基础上使用了大规模中文数据进行增量预训练,并且利用高质量指令数据进行精调,进一步提升了中文基础语义和指令理解能力,相比一代和二代相关模型获得了显著性能提升。

相关模型已在🤗Hugging Face、🤖ModelScope、机器之心SOTA!社区、Gitee等平台同步上线。同步提供了GGUF量化版本模型(2bit~8bit),供用户快速便捷地体验相关模型。

项目地址:https://github.com/ymcui/Chinese-LLaMA-Alpaca-3

Llama-3 简介

2024年4月19日,Meta发布了最新一代开源大模型Llama-3,其中包括两个模型大小:8B、70B,并在未来会进一步开放400B+模型。每个模型均包括基座模型Llama-3以及经过对齐的对话模型Llama-3-Instruct。这些模型相比Llama-2在多个评测集上获得了显著的性能提升。相比Llama-2的主要区别:

  • 词表大小:从32K提升至128K,并且使用了BPE词表
  • 训练数据量:由2T tokens大幅度提升至15T tokens
  • 上下文长度:由4096提升至8192
  • 全尺寸均使用了GQA(Grouped-Query Attention)技术以提升效率

image.png

中文Llama-3

本项目推出了基于Llama-3开发的中文开源大模型Llama-3-Chinese和Llama-3-Chinese-Instruct,本次开源了8B模型版本。

  • Llama-3-Chinese-8B:基座模型,在Llama-3-8B上使用约120GB语料进行增量中文训练,与一期Plus系列模型、二期模型一致;
  • Llama-3-Chinese-8B-Instruct:指令/chat模型,在Llama-3-Chinese-8B的基础上进一步通过500万高质量指令进行精调获得。

本期模型与中文羊驼一期和二期相关模型最大的区别在于使用了原版Llama-3词表,而未对词表进行扩充。其中主要理由有以下几点:

  • Llama-3原生词表已从二代的32K提升至128K;
  • 通过在中文维基百科上的编码实验表明,Llama-3原生词表的中文编码效率相比其二代具有显著提升,其效率约为中文LLaMA-2词表(大小:55296)的95%,因此认为编码效率已不是主要瓶颈
  • 结合我们在中文Mixtral大模型上的相关经验和实验结论,中文词表扩充并非大模型语言迁移的必要条件(见往期推送

模型下载指引

llama-3-chinese-8b

Llama-3-chinese-8b-instruct

Llama-3生态支持

本项目相关模型已提供常见大模型生态的适配教程。用户可以快速使用熟悉的工具体验和部署大模型,其中包括:

  • llama.cpp:丰富的GGUF量化和高效本地推理
  • 🤗transformers:原生transformers推理
  • text-generation-webui:前端WebUI界面部署方式
  • LM Studio:多平台大模型聊天软件(含界面)
  • Ollama:本地运行大模型推理
  • 仿OpenAI API:可通过类似OpenAI API的形式部署服务

以及其他兼容Llama-3的相关工具。

主观评价效果

为了更加直观地了解模型的生成效果,本项目仿照Fastchat Chatbot Arena推出了模型在线对战平台,可浏览和评测模型回复质量。对战平台提供了胜率、Elo评分等评测指标,并且可以查看两两模型的对战胜率等结果。题库来自中文羊驼大模型相关项目人工制作的360题,涵盖10个大模型能力评测维度。

📊 模型在线对战:http://llm-arena.ymcui.com

以下是部分输出样例:

image.png

image.png

image.png

image.png

客观评价效果

以下是部分客观评价结果。与中文Mixtral的实验观察一致,中文增量预训练并不会快速提升中文下游任务能力,而是在指令精调之后显现出相应的效果。在英文任务上,部分集合超过了原版模型的性能。详细结果请查阅项目主页。

image.png

开源指令数据

除了开源模型之外,本项目还开源了部分指令数据,感兴趣的读者可访问项目主页进行下载。

  • alpaca_zh_51k:使用gpt-3.5翻译的Alpaca指令数据,共计51K条
  • stem_zh_instruction:使用gpt-3.5爬取的STEM指令数据,包含物理、化学、医学、生物学、地球科学,共计256K条
  • ruozhiba_gpt4_turbo:使用gpt-4-turbo-2024-04-09获取的ruozhiba问答数据,共计2449条

中文羊驼大模型相关项目

中文羊驼大模型一期项目(Chinese-LLaMA-Alpaca)

中文羊驼大模型二期项目(Chinese-LLaMA-Alpaca-2)

中文Mixtral大模型项目(Chinese-Mixtral)

点击直达开源模型

llama-3-chinese-8b-instruct · 模型库 (modelscope.cn)

相关文章
|
7月前
|
自然语言处理 开发者 异构计算
社区供稿 | Llama3-8B中文版!OpenBuddy发布新一代开源中文跨语言模型
此次发布的是在3天时间内,我们对Llama3-8B模型进行首次中文跨语言训练尝试的结果:OpenBuddy-Llama3-8B-v21.1-8k。
|
26天前
|
人工智能 自然语言处理 数据可视化
全球最强开源代码模型Qwen2.5-Coder来了!
全球最强开源代码模型Qwen2.5-Coder来了!
68 5
|
7月前
|
数据可视化 API 异构计算
一分钟部署 Llama3 中文大模型,没别的,就是快
Meta开源了80亿和700亿参数的大模型,挑战百度创始人李彦宏的观点。这些模型在性能上逼近GPT-4和Claude3。此外,一个400B的超大模型即将发布。Huggingface上已有多个Llama3中文微调版本。无GPU用户可使用量化模型在CPU上运行,如8B模型用8bit量化,70B模型用4bit量化。最佳中文微调版是zhouzr/Llama3-8B-Chinese-Chat-GGUF,可在三分钟内通过Sealos公有云快速部署,搭配WebUI如Lobe Chat进行交互。
587 2
|
5月前
|
存储 自然语言处理 测试技术
Llama3.1-8B模型中文版!OpenBuddy发布新一代跨语言模型
7月23日,Meta发布了新一代开源模型系列:Llama3.1。其中405B参数的版本刷新了开源模型性能的上限,在多种指标上的测试成绩接近GPT-4等闭源模型的水平,甚至在部分基准测试中展现出来了超越头部闭源模型的潜力。
|
7月前
|
人工智能 安全 测试技术
微软开源4.2B参数多模态SLM模型Phi-3-vision,魔搭社区推理、微调实战教程来啦!
在 Microsoft Build 2024 上,微软持续开源了 Phi-3 系列的新模型们。包括 Phi-3-vision,这是一种将语言和视觉功能结合在一起的多模态模型。
|
7月前
|
人工智能 自然语言处理 测试技术
大佬出走后首个发布!Stability官宣代码模型Stable Code Instruct 3B
Stability AI发布Stable Code Instruct 3B,一款高效代码模型,参数量仅30亿却在多编程语言基准测试中表现媲美70亿至150亿参数模型。该模型专为代码补全、逻辑推理等任务设计,其指令优化版提供直观交互,提升开发效率。团队通过Hugging Face公开模型权重,支持复现与应用。在Multi-PL基准和MT-Bench测试中表现出色,即使面对更大数据训练的模型也能保持高效性能。量化版本确保兼容性和低延迟应用。
191 5
大佬出走后首个发布!Stability官宣代码模型Stable Code Instruct 3B
|
7月前
|
自然语言处理 前端开发 Swift
Llama3 中文通用Agent微调模型来啦!(附手把手微调实战教程)
Llama3模型在4月18日公布后,国内开发者对Llama3模型进行了很多训练和适配,除了中文纯文本模型外,多模态版本也陆续在发布中。
|
7月前
|
自然语言处理 前端开发 Swift
社区供稿 | 中文llama3模型哪家强?llama3汉化版微调模型大比拼
随着llama3的发布,业界越来越多的针对其中文能力的微调版本也不断涌现出来,我们在ModelScope魔搭社区上,搜集到几款比较受欢迎的llama3中文版本模型,来从多个维度评测一下,其对齐后的中文能力到底如何? 微调后是否产生了灾难性遗忘问题。
|
机器学习/深度学习 编解码 人工智能
多场景PAI-Diffusion中文模型家族大升级,12个模型、2个工具全部开源
在本文中,将详细介绍PAI-Diffusion中文模型家族及其工具Chinese Diffusion WebUI和Diffuser-API的使用。
|
人工智能 PyTorch API
【奶奶看了都会】Meta开源大模型LLama2部署使用教程,附模型对话效果
就在7月19日,MetaAI开源了LLama2大模型,Meta 首席科学家、图灵奖获得者 Yann LeCun在推特上表示Meta 此举可能将改变大模型行业的竞争格局。一夜之间,大模型格局再次发生巨变。
1718 3
【奶奶看了都会】Meta开源大模型LLama2部署使用教程,附模型对话效果

热门文章

最新文章