中文LLaMA模型和指令精调的Alpaca大模型:中文数据进行二次预训练,进一步提升了中文基础语义理解能力
以ChatGPT、GPT-4等为代表的大语言模型(Large Language Model, LLM)掀起了新一轮自然语言处理领域的研究浪潮,展现出了类通用人工智能(AGI)的能力,受到业界广泛关注。然而,由于大语言模型的训练和部署都极为昂贵,为构建透明且开放的学术研究造成了一定的阻碍。
为了促进大模型在中文NLP社区的开放研究,本项目开源了中文LLaMA模型和指令精调的Alpaca大模型。这些模型在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练,进一步提升了中文基础语义理解能力。同时,中文Alpaca模型进一步使用了中文指令数据进行精调,显著提升了模型对指令的理解和执行能力。详细内容请参考技术报告(Cui, Yang, and Yao, 2023)。
💡 下图是中文Alpaca-Plus-7B模型在本地CPU量化部署后的实际体验速度和效果。
多模态VLE | 中文MiniRBT | 中文LERT | 中英文PERT | 中文MacBERT | 中文ELECTRA | 中文XLNet | 中文BERT | 知识蒸馏工具TextBrewer | 模型裁剪工具TextPruner
1. 版本迭代
[2023/06/30] llama.cpp下8K context支持(无需对模型做出修改),相关方法和讨论见讨论区;transformers下支持4K+ context的代码请参考PR#705
[2023/06/16] v4.1版本: 发布新版技术报告、添加C-Eval解码脚本、添加低资源模型合并脚本等。
[2023/06/08] v4.0版本: 发布中文LLaMA/Alpaca-33B、添加privateGPT使用示例、添加C-Eval结果等。
[2023/06/05] llama.cpp已支持Apple Silicon GPU解码,解码速度大幅提升,详见:讨论区#开发者公告
[2023/05/16] v3.2版本: 添加指令精调脚本、LangChain支持、基于Gradio的本地Demo等。
[2023/05/10] v3.1版本: 发布中文LLaMA/Alpaca Plus-13B,使用了更大语料训练,相比基础版各项能力显著提升。
[2023/04/28] v3.0版本: 发布中文LLaMA/Alpaca Plus版本(7B),使用了更大的语料进行训练,相比基础版各项能力显著提升。另外还进一步完善了评测流程、添加了预训练脚本等。
往期新闻
[2023/04/18] v2.2版本:添加LlamaChat支持、中文词表、LLaMA Tokenizer词表扩充脚本、添加技术报告等。
[2023/04/13] v2.1版本:添加HuggingFace推理接口、text-generation-webui接口。
[2023/04/07] v2.0版本:发布13B版本中文LLaMA、Alpaca大模型,主要升级:更强的事实性、文本问答、翻译、伦理拒答等能力全面提升。
[2023/04/03] 添加了模型合并和量化的notebook,Colab Pro(+)用户可在线合并和下载模型。请参考: 合并模型
[2023/03/31] Release v1.1:简化模型合并步骤、添加指令数据爬取脚本、关于新版本llama.cpp的重要提示。请参考: Release Note
[2023/03/28] 正式开源中文LLaMA、Alpaca大模型,目前提供7B版本下载体验
2. 模型下载
- 用户须知(必读)
Facebook官方发布的LLaMA模型禁止商用,并且官方没有正式开源模型权重(虽然网上已经有很多第三方的下载地址)。为了遵循相应的许可,目前暂时无法发布完整的模型权重,敬请各位理解(目前国外也是一样)。Facebook完全开放模型权重之后,本项目会及时更新相关策略。这里发布的是LoRA权重,可以理解为原LLaMA模型上的一个“补丁”,两者进行合并即可获得完整版权重。以下中文LLaMA/Alpaca LoRA模型无法单独使用,需要搭配原版LLaMA模型。请参考本项目给出的[合并模型]步骤重构模型。
2.1 模型选择
下面是中文LLaMA和Alpaca模型的基本对比以及建议使用场景(包括但不限于),更多内容见[训练细节]。
对比项 | 中文LLaMA | 中文Alpaca |
---|---|---|
训练方式 | 传统CLM | 指令精调 |
模型类型 | 基座模型 | 指令理解模型(类ChatGPT) |
训练语料 | 无标注通用语料 | 有标注指令数据 |
词表大小[3] | 49953 | 49954=49953+1(pad token) |
输入模板 | 不需要 | 需要符合模板要求[1] |
适用场景 ✔️ | 文本续写:给定上文内容,让模型继续写下去,生成下文 | 1、指令理解(问答、写作、建议等) 2、多轮上下文理解(聊天等) |
不适用场景 ❌ | 指令理解 、多轮聊天等 | 文本无限制自由生成 |
llama.cpp | 使用-p 参数指定上文 |
使用-ins 参数启动指令理解+聊天模式 |
text-generation-webui | 不适合chat模式 | 使用--cpu 可在无显卡形式下运行,若生成内容不满意,建议修改prompt |
LlamaChat | 加载模型时选择"LLaMA" | 加载模型时选择"Alpaca" |
[HF推理代码] | 无需添加额外启动参数 | 启动时添加参数 --with_prompt |
[web-demo代码] | 不适用 | 直接提供Alpaca模型位置即可;支持多轮对话 |
[LangChain示例] / privateGPT | 不适用 | 直接提供Alpaca模型位置即可 |
已知问题 | 如果不控制终止,则会一直写下去,直到达到输出长度上限。[2] | 目前版本模型生成的文本长度相对短一些,比较惜字如金。可在指令中要求详细回答。 |
[1] llama.cpp/LlamaChat/[HF推理代码]等已内嵌,无需手动添加模板。
[2] 如果出现了模型回答质量特别低、胡言乱语、不理解问题等情况,请检查是否针对场景使用了正确的模型和正确的启动参数。
[3] 经过指令精调的Alpaca会比LLaMA多一个pad token,因此请勿混用LLaMA/Alpaca词表。
2.2 推荐下载模型
以下为本项目推荐使用的模型列表,通常使用了更多的训练数据和优化的模型训练方法和参数,请优先使用这些模型(其余模型请查看[其他模型])。如希望体验类ChatGPT对话交互,请使用Alpaca模型,而不是LLaMA模型。
模型名称 | 类型 | 训练数据 | 重构模型[1] | 大小[2] | LoRA下载[3] |
---|---|---|---|---|---|
Chinese-LLaMA-Plus-7B | 基座模型 | 通用120G | 原版LLaMA-7B | 790M | [百度网盘][Google Drive] |
Chinese-LLaMA-Plus-13B | 基座模型 | 通用120G | 原版LLaMA-13B | 1.0G | [百度网盘] [Google Drive] |
Chinese-LLaMA-33B | 基座模型 | 通用20G | 原版LLaMA-33B[5] | 2.7G | [百度网盘] [Google Drive] |
Chinese-Alpaca-Plus-7B | 指令模型 | 指令4M | 原版LLaMA-7B & Chinese-LLaMA-Plus-7B[4] |
1.1G | [百度网盘][Google Drive] |
Chinese-Alpaca-Plus-13B | 指令模型 | 指令4.3M | 原版LLaMA-13B & Chinese-LLaMA-Plus-13B[4] |
1.3G | [百度网盘] [Google Drive] |
Chinese-Alpaca-33B | 指令模型 | 指令4.3M | 原版LLaMA-33B[5] | 2.8G | [百度网盘] Google Drive |
可以在Model Hub下载以上所有模型,并且使用transformers和PEFT调用中文LLaMA或Alpaca LoRA模型。以下模型调用名称指的是使用.from_pretrained()
中指定的模型名称。
模型名 | 模型调用名称 | 链接 |
---|---|---|
Chinese-LLaMA-Plus-7B | ziqingyang/chinese-llama-plus-lora-7b | Model Hub Link |
Chinese-LLaMA-Plus-13B | ziqingyang/chinese-llama-plus-lora-13b | Model Hub Link |
Chinese-LLaMA-33B | ziqingyang/chinese-llama-lora-33b | Model Hub Link |
Chinese-Alpaca-Plus-7B | ziqingyang/chinese-alpaca-plus-lora-7b | Model Hub Link |
Chinese-Alpaca-Plus-13B | ziqingyang/chinese-alpaca-plus-lora-13b | Model Hub Link |
Chinese-Alpaca-33B | ziqingyang/chinese-alpaca-lora-33b | Model Hub Link |
2.3其他模型
由于训练方式和训练数据等因素影响,以下模型已不再推荐使用(特定场景下可能仍然有用),请优先使用上一节中的[推荐模型]。
模型名称 | 类型 | 训练数据 | 重构模型[1] | 大小[2] | LoRA下载[3] |
---|---|---|---|---|---|
Chinese-LLaMA-7B | 基座模型 | 通用20G | 原版LLaMA-7B | 770M | [百度网盘][Google Drive] |
Chinese-LLaMA-13B | 基座模型 | 通用20G | 原版LLaMA-13B | 1.0G | [百度网盘] [Google Drive] |
Chinese-Alpaca-7B | 指令模型 | 指令2M | 原版LLaMA-7B | 790M | [百度网盘][Google Drive] |
Chinese-Alpaca-13B | 指令模型 | 指令3M | 原版LLaMA-13B | 1.1G | [百度网盘] [Google Drive] |
对应的HuggingFace模型库地址:
模型名 | 模型调用名称 | 链接 |
---|---|---|
Chinese-LLaMA-7B | ziqingyang/chinese-llama-lora-7b | Model Hub Link |
Chinese-LLaMA-13B | ziqingyang/chinese-llama-lora-13b | Model Hub Link |
Chinese-Alpaca-7B | ziqingyang/chinese-alpaca-lora-7b | Model Hub Link |
Chinese-Alpaca-13B | ziqingyang/chinese-alpaca-lora-13b | Model Hub Link |
2.4.脚注及其他说明
[1] 重构需要原版LLaMA模型,去LLaMA项目申请使用或参考这个PR。因版权问题本项目无法提供下载链接。
[2] 经过重构后的模型大小比同等量级的原版LLaMA大一些(主要因为扩充了词表)。
[3] 下载后务必检查压缩包中模型文件的SHA256是否一致,请查看SHA256.md。
[4] Alpaca-Plus模型的合并方法略有不同,请参考合并教程。
[5] 有些地方称为30B,实际上是Facebook在发布模型时写错了,论文里仍然写的是33B。
压缩包内文件目录如下(以Chinese-LLaMA-7B为例):
chinese_llama_lora_7b/
- adapter_config.json # LoRA权重配置文件
- adapter_model.bin # LoRA权重文件
- special_tokens_map.json # special_tokens_map文件
- tokenizer_config.json # tokenizer配置文件
- tokenizer.model # tokenizer文件
以下是各原模型和4-bit量化后的大小,转换相应模型时确保本机有足够的内存和磁盘空间(最低要求):
模型版本 | 7B | 13B | 33B | 65B |
---|---|---|---|---|
原模型大小(FP16) | 13 GB | 24 GB | 60 GB | 120 GB |
量化后大小(8-bit) | 7.8 GB | 14.9 GB | 32.4 GB | ~60 GB |
量化后大小(4-bit) | 3.9 GB | 7.8 GB | 17.2 GB | 38.5 GB |
2.5.合并模型
前面提到LoRA模型无法单独使用,必须与原版LLaMA进行合并才能转为完整模型,以便进行模型推理、量化或者进一步训练。请选择以下方法对模型进行转换合并。
方式 | 适用场景 | 教程 |
---|---|---|
在线转换 | Colab用户可利用本项目提供的notebook进行在线转换并量化模型 | 链接 |
手动转换 | 离线方式转换,生成不同格式的模型,以便进行量化或进一步精调 | 链接 |
具体内容请参考本项目 >>> 📚 GitHub Wiki
3.本地推理与快速部署
本项目中的模型主要支持以下量化、推理和部署方式。
推理和部署方式 | 特点 | 平台 | CPU | GPU | 量化加载 | 图形界面 | 教程 |
---|---|---|---|---|---|---|---|
llama.cpp | 丰富的量化选项和高效本地推理 | 通用 | ✅ | ✅ | ✅ | ❌ | 链接 |
🤗Transformers | 原生transformers推理接口 | 通用 | ✅ | ✅ | ✅ | ✅ | 链接 |
text-generation-webui | 前端Web UI界面的部署方式 | 通用 | ✅ | ✅ | ✅ | ✅ | 链接 |
LlamaChat | macOS下的图形交互界面(需搭配llama.cpp模型) | MacOS | ✅ | ❌ | ✅ | ✅ | 链接 |
LangChain | LLM应用开发框架,适用于进行二次开发 | 通用 | ✅† | ✅ | ✅† | ❌ | 链接 |
privateGPT | 基于LangChain的多文档本地问答框架 | 通用 | ✅ | ✅ | ✅ | ❌ | 链接 |
Colab Gradio Demo | 在Colab中启动基于Gradio的交互式Web服务,体验模型效果 | 通用 | ✅ | ✅ | ✅ | ❌ | 链接 |
API调用 | 仿OPENAI API接口的服务器DEMO | 通用 | ✅ | ✅ | ✅ | ❌ | 链接 |
†: LangChain框架支持,但教程中未实现;详细说明请参考LangChain官方文档。
具体内容请参考本项目 >>> 📚 GitHub Wiki
4.系统效果
4.1 生成效果评测
为了快速评测相关模型的实际文本生成表现,本项目在给定相同的prompt的情况下,在一些常见任务上对比测试了本项目的中文Alpaca-7B、中文Alpaca-13B、中文Alpaca-33B、中文Alpaca-Plus-7B、中文Alpaca-Plus-13B的效果。生成回复具有随机性,受解码超参、随机种子等因素影响。以下相关评测并非绝对严谨,测试结果仅供晾晒参考,欢迎自行体验。详细评测结果请查看examples目录。
测试任务 | 样例数 | Alpaca-Plus-7B | Alpaca-Plus-13B | Alpaca-33B |
---|---|---|---|---|
💯总平均分 | 200 | 75.3 | 79.4 | 👍🏻82.0 |
知识问答 | 20 | 70.5 | 79.5 | 👍🏻82.3 |
开放式问答 | 20 | 👍🏻80.5 | 👍🏻80 | 78.5 |
数值计算、推理 | 20 | 51 | 61.5 | 👍🏻84.5 |
诗词、文学、哲学 | 20 | 78.5 | 👍🏻81.3 | 76 |
音乐、体育、娱乐 | 20 | 72.3 | 👍🏻76.8 | 72.5 |
写信、写文章 | 20 | 81 | 👍🏻86.5 | 79 |
文本翻译 | 20 | 86.8 | 89.3 | 👍🏻92.3 |
多轮交互 | 20 | 80.3 | 👍🏻81.3 | 78 |
代码编程 | 20 | 62.5 | 67.5 | 👍🏻84.0 |
伦理、拒答 | 20 | 89.8 | 90.5 | 👍🏻92.5 |
4.2 客观效果评测
本项目还在“NLU”类客观评测集合上对相关模型进行了测试。这类评测的结果不具有主观性,只需要输出给定标签(需要设计标签mapping策略),因此可以从另外一个侧面了解大模型的能力。本项目在近期推出的C-Eval评测数据集上测试了相关模型效果,其中测试集包含12.3K个选择题,涵盖52个学科。以下是部分模型的valid和test集评测结果(Average),完整结果请参考技术报告。
模型 | Valid (zero-shot) | Valid (5-shot) | Test (zero-shot) | Test (5-shot) |
---|---|---|---|---|
Chinese-Alpaca-33B | 43.3 | 42.6 | 41.6 | 40.4 |
Chinese-LLaMA-33B | 34.9 | 38.4 | 34.6 | 39.5 |
Chinese-Alpaca-Plus-13B | 43.3 | 42.4 | 41.5 | 39.9 |
Chinese-LLaMA-Plus-13B | 27.3 | 34.0 | 27.8 | 33.3 |
Chinese-Alpaca-Plus-7B | 36.7 | 32.9 | 36.4 | 32.3 |
Chinese-LLaMA-Plus-7B | 27.3 | 28.3 | 26.9 | 28.4 |
需要注意的是,综合评估大模型能力仍然是亟待解决的重要课题,合理辩证地看待大模型相关各种评测结果有助于大模型技术的良性发展。推荐用户在自己关注的任务上进行测试,选择适配相关任务的模型。
C-Eval推理代码请参考本项目 >>> 📚 GitHub Wiki
4.3效果对比 Performance Comparison
以下分数应视为paired score,也就是说分数是一个相对值,而不是绝对值,是多个系统相比较得到的结果。详细结果见相应目录。
- q4_7b-13b:对比了4-bit量化版的Alpaca-7B和13B
样例数 | 中文Alpaca-7B | 中文Alpaca-13B | |
---|---|---|---|
💯总平均分 | 160 | 49 | 👍🏻71 |
- q8_7b-13b-p7b:对比了8-bit量化版的Alpaca-7B、13B、Plus-7B
样例数 | 中文Alpaca-7B | 中文Alpaca-13B | 中文Alpaca-Plus-7B | |
---|---|---|---|---|
💯总平均分 | 200 | 65.3 | 70.9 | 👍🏻75.3 |
- q8_13b-p7b-p13b:对比了8-bit量化版的Alpaca-13B、Plus-7B、Plus-13B
样例数 | Alpaca-13B | Alpaca-Plus-7B | Alpaca-Plus-13B | |
---|---|---|---|---|
💯总平均分 | 200 | 74.3 | 78.2 | 👍🏻80.8 |
- f16_p7b-p13b-33b:对比了8-bit量化版的Alpaca-Plus-7B、Plus-13B和F16的33B
样例数 | Alpaca-Plus-7B | Alpaca-Plus-13B | Alpaca-33B | |
---|---|---|---|---|
💯总平均分 | 200 | 75.3 | 79.4 | 👍🏻82.0 |
4.4 部分任务评测展示
4.4.1数值计算、推理
- 分数表
平均分 | #1 | #2 | #3 | #4 | #5 | #6 | #7 | #8 | #9 | #10 | #11 | #12 | #13 | #14 | #15 | #16 | #17 | #18 | #19 | #20 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Plus-7B | 5.1 | 10 | 1 | 9 | 1 | 3 | 3 | 8 | 3 | 10 | 1 | 10 | 5 | 9 | 1 | 1 | 7 | 10 | 8 | 1 | 1 |
Plus-13B | 6.15 | 1 | 10 | 9 | 1 | 3 | 3 | 7 | 6 | 10 | 10 | 10 | 4 | 1 | 10 | 1 | 8 | 10 | 8 | 1 | 10 |
33B | 8.45 | 10 | 10 | 9 | 1 | 3 | 9 | 9 | 8 | 10 | 10 | 10 | 5 | 10 | 10 | 10 | 8 | 10 | 7 | 10 | 10 |
- 测试样例
# | Prompt | Plus-7B | Plus-13B | 33B |
---|---|---|---|---|
1 | 桌子上有4个苹果,小红吃了1个,小刚拿走了2个,还剩下几个苹果? | 桌子上原本有4个苹果,小红吃了其中的1个,所以现在只剩下3个苹果。接着,小刚拿走了2个苹果,那么剩下的苹果数量就是3个减去2个,即1个。 | 还剩下3个苹果。 | - 首先,我们知道桌子上原本有4个苹果。- 其次,小红吃了1个,所以剩下的苹果数是4-1=3个。- 最后,小刚拿走2个,那么现在桌子上的苹果数量就是3-2=1个。因此,答案是1个苹果。 |
2 | 1000 + 20 + 4 = ? | The answer to this math problem is 1040. | 答案是 1024。 | 1000 + 20 + 4 = 1024 |
3 | 如果将红色和黄色混合在一起会是什么颜色? | 橙色。 | 将红色和黄色混合会产生橙色。 | 将红色和黄色混合在一起会产生橙色。 |
4 | 从1加到101的总和是多少? | 1加到101的总和是5050。 | 从1加到101的总和是5050。 | 1加到101的总和是5010。 |
5 | 面朝北方,左转90度是什么方位? | 如果将脸面向北,然后向右旋转 90° (即从正东方看),那么所面对的将是东南方向。 | 如果面向北方,左转90度就是向东南方向。 | 面朝北方,左转90度是东南方向。 |
6 | 一公斤的棉花和一公斤的铁,哪一个更重? | 一公斤棉花比一公斤铁轻。 | 一公斤的棉花比一公斤的铁轻。 | 一公斤的棉花和一公斤的铁重量相同。 |
7 | 有以下三件事:1)厨房的水烧开了;2)下雨天要收衣服;3)和朋友打电话聊天。请问应该按什么顺序处理? | 应该先处理1,因为水烧开可能会造成火灾或其他危险,所以需要尽快解决。然后处理2,因为下雨天会弄湿衣服,所以需要及时收好。最后再处理3,因为和朋友打电话聊天可以缓解一下压力,但是也要注意时间不要耽误其他事情。 | > 有以下三件事:1)厨房的水烧开了;2)下雨天要收衣服;3)和朋友打电话聊天。请问应该按什么顺序处理? 这取决于个人喜好和需要,没有固定的顺序。 > 按紧急程度,处理顺序应该是什么? 一般来说,紧急的事情应该优先处理,例如如果厨房里的水烧开了,那么应该先关闭水龙头并处理这个问题,然后再继续其他事情。但是具体处理顺序还要根据实际情况和个人判断来决定。 |
按照紧急程度,先处理紧急的事情,再处理不紧急的事情。如果厨房的水烧开,需要及时关掉,以避免发生意外事故。如果下雨天要收衣服,也需要尽快处理,以免被雨淋湿。如果和朋友打电话聊天,可以根据自己的时间安排来决定是否现在处理。因此,应该按照紧急程度从高到低排序处理,即先处理厨房的水烧开了,然后处理下雨天要收衣服,最后和朋友打电话聊天。 |
8 | 计算2023年4月4日到国庆节一共有多少天,给出计算步骤。 | 从2023年4月4日到国庆节的日期是: - 2023年10月1日 因此,从2023年4月4日到国庆节共有: 303 天 |
2023年4月4日到国庆节一共有117天。 计算步骤如下: 1. 找到国庆节的日期:10月1日。 2. 计算从4月4日到10月1日之间的天数,即:10月1日 - 4月4日 = 117天。 |
2023年国庆节是10月1日,因此从2023年4月4日到国庆节共有183天。 |
9 | 计算7!是多少 | 5040 | 7! = 5040 | 7! = 5040 |
10 | 1/2 + 1/3 = ? | 1/3 | 5/6 | 3/6 + 2/3 = 5/6 |
11 | 请列举30以内的质数。 | 2, 3, 5, 7, 11, 13, 17, 19, 23, 29. | 2, 3, 5, 7, 11, 13, 17, 19, 23, 29 | 2, 3, 5, 7, 11, 13, 17, 19, 23, 29 |
12 | 正方形上剪掉一个角还剩几个边? | 如果正方形上有一个角被剪掉,那么剩下的边数为4个。 | 如果正方形的边长为a,剪掉一个角后剩下的边数是$4 - 1 = 3$。 | 正方形上剪掉一个角后,剩下的边数为3。 |
13 | 一个直角三角形的两个直角边长度分别是6和8,斜边的长度是多少? | 斜边的长度是10。 | 根据勾股定理,斜边的长度为$√(6^2+8^2)=√(48+120)=√174=13$。 | 根据勾股定理,直角三角形的斜边的平方等于另外两条直角边的平方之和。因此,这个直角三角形的斜边的长度是10。 |
14 | 计算组合数C(2, 5)=? | 组合数C(2, 5) = 120 | C(2,5) = 10 | C(2, 5)=10 |
15 | 一只猫和一只鸡一共有几只脚? | 一只猫和一只鸡一共有两只脚。 | 一只猫和一只鸡各有四只脚,所以两只动物一共有八只脚。 | 这道题需要进行简单的数学运算。一只猫有4只脚,一只鸡有2只脚,所以两只动物一共有6只脚。 |
16 | 如何估计海滩上有多少粒沙子? | 可以使用以下公式来估算海滩上沙子的数量: N = (1/3) V d^2 其中,N表示沙子的数量(单位为千克),V表示海滩面积(单位为平方米),d表示海滩平均深度(单位为米)。 使用这个公式,可以根据海滩的大小和深度来估算沙子的数量。 |
要估计海滩上的沙子数量,可以使用以下方法: 1. 测量海滩的面积和深度。 2. 计算出每平方米的沙子数量。 3. 根据沙子的大小和密度,估算沙子的质量。 4. 将沙子质量乘以沙子数量,得出总沙子量。 |
要估算海滩上沙子的数量,需要考虑沙滩的大小、形状和密度等因素。可以使用测量工具来确定沙滩的面积和深度,然后根据密度计算出沙子的体积。 |
17 | 如果3x+1=10,那么x等于多少? | x = 3 | 将等式两边减去1,得到3x=9。再将等式两边除以3,得到x=3。因此,当3x+1=10时,x的值为3。 | x=3 |
18 | 判断逻辑是否正确:因为凶手不是背包旅客,而且你不是背包旅客,所以你是凶手。 | 这个推理是错误的。虽然凶手不一定是背包旅客,但它并不意味着你不是背包旅客。因此,这个推理是无效的。 | 这个逻辑是错误的。因为前提条件“凶手不是背包旅客”并不意味着“你一定是凶手”。 | 这个逻辑不正确,因为前提条件不成立,即“凶手是背包旅客”和“你不是背包旅客”不能同时成立。 |
19 | 序列1,4,9,16的后一个数是什么? | 后一个数是 16。 | 21 | 序列1,4,9,16的后一个数是25。 |
20 | 北京与上海距离1200千米,如果每天前进300千米,需要几天才能从北京到达上海? | 从北京到上海的距离是1200公里,每天可以行驶300公里。因此,需要两天的时间才能从北京到达上海。 | 需要4天。 | 从北京到上海的距离是1200千米,每天前进的距离是300千米,那么需要4天才能从北京到达上海。 |
4.4.2 音乐、体育、娱乐
- 分数表
平均分 | #1 | #2 | #3 | #4 | #5 | #6 | #7 | #8 | #9 | #10 | #11 | #12 | #13 | #14 | #15 | #16 | #17 | #18 | #19 | #20 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Plus-7B | 7.225 | 1 | 7 | 3 | 7 | 7 | 8 | 7 | 10 | 9 | 7 | 10 | 9 | 7 | 8 | 8 | 8 | 8 | 6 | 8.5 | 6 |
Plus-13B | 7.675 | 1 | 9 | 9 | 8 | 8 | 8 | 8 | 10 | 8 | 5 | 10 | 9 | 8 | 9 | 5 | 8 | 9 | 8 | 7.5 | 6 |
33B | 7.25 | 1 | 8 | 2 | 7 | 8.5 | 8 | 7 | 10 | 9 | 5 | 10 | 9 | 9 | 8 | 7 | 7.5 | 8 | 9 | 7 | 5 |
- 测试样例
# | Prompt | Plus-7B | Plus-13B | 33B |
---|---|---|---|---|
1 | 某一著名小品中的台词“宫廷玉液酒”的下一句是什么? | “一饮而尽,醉后不知天在水。” | “喝一口,长生不老。” | “宫廷玉液酒,一饮三百杯。” |
2 | 请用“老胡认为……老胡呼吁……”的句式探讨一下对全球经济的担忧 | 老胡认为,当前全球经济面临着诸多挑战和不确定性。他呼吁各国政府加强合作,共同应对贸易保护主义、金融风险等威胁。 | 老胡认为,当前全球经济形势依然不稳定,存在诸多不确定因素。老胡呼吁各国政府加强合作,共同应对挑战,促进全球经济增长和稳定。 | 老胡认为,全球经济面临诸多不确定性和挑战,包括贸易保护主义、金融市场波动、数字化转型等。因此,老胡呼吁各国加强合作,推动多边主义、开放型经济,共同应对各种风险和挑战。 |
3 | 介绍一下《闪之轨迹》这款游戏 | 《闪之轨迹》是一款由日本的Koei Tecmo公司开发的角色扮演游戏,于2014年11月20日发行。游戏讲述了主人公在被卷入一场神秘事件后,开始寻找真相的故事。游戏中玩家可以自由探索、战斗和解谜,同时还有丰富的剧情和角色发展。 | 《闪之轨迹》是一款由日本游戏公司Falcom制作的RPG游戏系列,共有5部作品。该系列以独特的世界观和剧情为特色,玩家可以扮演不同的角色进行冒险,并与其他角色建立关系。游戏中还有丰富的战斗系统和装备收集等元素。 | 《闪之轨迹》是一款以科幻为背景的日本视觉小说游戏,讲述了一群年轻人在异世界中的冒险故事。 |
4 | 为什么《名侦探柯南》里,犯人在最后都要下跪? | 在《名侦探柯南》中,犯人下跪是表达悔意的一种方式。他们认为自己犯罪的后果是他们无法承受的,因此他们会向受害者道歉并请求原谅。 | 这个情节是作者青山刚昌的设定,他希望通过这个方式来强调主人公柯南的正义感和对真相的执着追求。同时,这也象征着犯罪者最终被揭露并接受惩罚的过程,这也是《名侦探柯南》所倡导的价值观之一。 | 《名侦探柯南》中,犯人在被揭穿罪行后,通常会选择下跪认错。这是因为日本文化中的传统观念认为,犯罪者应该为自己的行为负责并向受害者道歉。此外,这也可以帮助观众更好地理解故事情节和角色关系。 |
5 | doge表情包有什么含义? | Doge表情包是一种流行的互联网文化符号,通常表示一种轻松、幽默或不屑的态度。它通常是由一只狗的形象组成的,并带有一个简单的笑脸表情。 | Doge表情包是一种流行的互联网表情,通常用于表示对某件事情或某个人感到惊讶、兴奋或喜爱。它源自于一只名叫Doge的日本犬种,因其外貌和行为特点而受到广泛关注。 | doge表情包是一种网络流行文化,通常由一只狗的图片加上一些文字组成。这些图像和文字通常用来表达情感或反应某个特定的情况。 |
6 | 介绍一下Adele的代表作品都有什么 | Adele是英国女歌手,她的代表作品包括《Rolling in the Deep》、《Someone Like You》和《Hello》等。 | Adele是一位英国女歌手,她的代表作品包括:《Hello》、《Rolling in the Deep》、《Someone Like You》、《Set Fire to the Rain》等。 | Adele是一位英国流行歌手,她的代表作品包括《Someone Like You》、《Hello》、《Rolling in the Deep》等。这些歌曲都具有独特的旋律和歌词,深受听众喜爱。 |
7 | 跳广场舞应该注意什么? | 跳广场舞需要注意身体姿势、呼吸和节奏感,避免过度用力或受伤。同时要选择适合自己的音乐和场地,并遵守当地的相关规定和礼仪。 | 跳广场舞时需要注意以下几点:1. 选择适合自己的舞蹈,不要盲目跟从;2. 注意身体的姿势和动作,避免受伤;3. 保持良好的心态,享受跳舞的过程;4. 遵守规则,不影响他人。 | 跳广场舞时需要注意身体的协调性和稳定性,避免受伤。同时要注意穿着舒适、适合运动的衣服和鞋子,并保持良好的心态和呼吸节奏。 |
8 | 歌词“我像只鱼儿在你的荷塘”出自凤凰传奇的哪首歌? | 歌词“我像只鱼儿在你的荷塘”出自凤凰传奇的歌曲《荷塘月色》。 | 这首歌曲是《荷塘月色》。 | 这句歌词出自凤凰传奇的歌曲《荷塘月色》。 |
9 | “B站文化”指的是什么? | “B站文化”是指Bilibili这个视频网站所代表的互联网文化,包括了游戏直播、音乐、动画、漫画等各种类型的内容和用户之间的互动。 | B站文化是指由中国网络视频分享平台哔哩哔哩(bilibili)所创造的文化现象,包括但不限于动漫、游戏、音乐等领域的内容创作和传播。 | “B站文化”是指在中国大陆的视频分享网站哔哩哔哩(Bilibili)上形成的一种独特文化现象。它包括了各种动漫、游戏、影视作品的二次创作,如同人、翻唱、剪辑等形式的粉丝文化活动。 |
10 | 网球计分规则是什么? | 在网球比赛中,每个球员轮流发球。发球方必须将球送到对方场地内,并让对手无法回击或接住。如果对方未能接到或回击,则得分为15分。如果对方成功接住了或回击了球,则发球方需要重新发球,直到对方失误或者发球方得分为止。 | 网球计分规则是:每局比赛先得6分,且必须领先对手2分才能获胜。如果双方得分相等,则需要进行抢七(先赢两分)或决胜盘(先赢三盘)。 | 网球比赛的计分方式是先到12分,且必须领先对手2分才能赢得一局。如果双方都达到12分且差距为1分,则进入“抢七”模式,即先到7分且领先对手2分即可获胜。 |
11 | Link是哪款游戏中的主角? | Link 是任天堂游戏系列《塞尔达传说》中的主角。 | Link是任天堂公司开发的动作冒险游戏《塞尔达传说》系列中的主角。 | Link是《塞尔达传说》系列游戏中的主角,也是任天堂公司旗下最受欢迎的角色之一。 |
12 | 刘慈欣有哪些作品? | 刘慈欣是中国著名的科幻作家,他的代表作品包括《三体》系列、《球状闪电》、《流浪地球》等。 | 刘慈欣是一位著名的中国科幻作家,他的代表作品包括《三体》系列、《球状闪电》、《流浪地球》等。 | 刘慈欣是中国当代著名的科幻作家,代表作品有《三体》、《球状闪电》、《流浪地球》等。 |
13 | 请推荐一些周杰伦的歌。 | 1. 稻香 2. 小幸运 3. 青花瓷 4. 听妈妈的话 5. 晴天 6. 夜曲 7. 简单爱 8. 告白气球 9. 阳光宅男 10. 不能说的秘密 |
以下是几首周杰伦的歌曲: 1. 稻香 2. 七里香 3. 青花瓷 4. 告白气球 5. 不能说的秘密 |
周杰伦是一位非常有才华的音乐人,他的歌曲风格独特、旋律优美,深受广大听众喜爱。我可以为您推荐几首经典的周杰伦歌曲:《稻香》、《夜曲》、《东风破》、《七里香》等。 |
14 | 请你分析中国男足是否有望夺得大力神杯 | 中国男足在最近几年的国际比赛中表现不俗,但要想获得大力神杯,还需要进一步提高球员的技术水平和战术配合。 | 虽然中国足球整体水平还有待提高,但近年来国家队实力有所提升。如果能够在技战术、人员配备等方面做出更好的安排和调整,以及加强球员的体能训练和心理素质培养,就有望取得好的成绩。 | 中国男足在世界杯上表现不佳,但近年来逐渐崛起。虽然目前实力不足以与欧洲强队相提并论,但在亚洲地区已经取得了不错的成绩。如果能够保持稳定发展,未来有望成为亚洲足球的一股劲。 |
15 | 请你推荐几个校园题材的动漫 | 校园题材的动漫有很多,比如《青春猪头少年不会梦到兔女郎学姐》、《魔法少女小圆》、《四月是你的谎言》等。这些动漫都讲述了校园生活和成长的故事,非常适合喜欢校园题材的人观看。 | 以下是几部校园题材的动漫: 1.《进击的巨人》 2.《四月是你的谎言》 3.《命运石之门》 4.《青春期笨蛋不做兔女郎学姐的梦》 5.《某科学的超电磁炮T》 |
《青春期笨蛋不做兔女郎学姐的梦》、《我的英雄学院》和《进击的巨人》都是非常受欢迎的校园题材动漫。 |
16 | 我在犹豫买PS5还是Xbox,你能帮我参谋一下吗? | 这取决于你的偏好和需求。如果你更喜欢PlayStation品牌的游戏体验和社区,那么购买PS5可能是更好的选择;如果你更喜欢Xbox的独家游戏和在线功能,那么购买Xbox可能更好。你需要考虑自己的预算、游戏类型和社交需求等因素来做出决定。 | > 我在犹豫买PS5还是Xbox,你能帮我参谋一下吗? 当然可以!请问您对游戏类型和主机功能有什么特别的需求或偏好吗? > 没有特殊偏好 那我可以为您提供一些关于PS5和Xbox的比较。PS5拥有更高的图形性能,支持4K分辨率和HDR游戏,同时有更多的独立开发者参与开发游戏。而Xbox则具有更好的社交功能和多人联机游戏体验,并且在一些特定的游戏上可能更受欢迎。您可以考虑您的个人偏好和预算来做出选择。 |
这取决于你的游戏偏好和预算。如果你喜欢单机游戏,PS5可能更适合你;如果你更喜欢多人在线游戏,Xbox可能更好。 |
17 | 你能不能推荐几部经典电影? | 1. 教父(The Godfather) 2. 肖申克的救赎(The Shawshank Redemption) 3. 星球大战系列(Star Wars) 4. 阿甘正传(Forrest Gump) 5. 乱世佳人(Gone with the Wind) |
当然可以!以下是一些经典的电影: 1.《教父》(The Godfather) 2.《肖申克的救赎》(The Shawshank Redemption) 3.《星球大战》(Star Wars) 4.《教父2》(The Godfather: Part II) 5.《阿甘正传》(Forrest Gump) 6.《辛德勒的名单》(Schindler's List) 7.《十二怒汉》(12 Angry Men) 8.《飞越疯人院》(One Flew Over the Cuckoo's Nest) 9.《教父3》(The Godfather: Part III) 10.《低俗小说》(Pulp Fiction) |
当然可以!以下是一些经典的电影: 1.《教父》(The Godfather) 2.《肖申克的救赎》(The Shawshank Redemption) 3.《星球大战》(Star Wars) 4.《阿甘正传》(Forrest Gump) 5.《乱世佳人》(Gone with the Wind) |
18 | HICT和HIIT有什么区别? | HICT(高强度间歇性训练)是一种高强度的有氧运动,包括快速跑步、跳绳等。而HIIT(高强度间歇性训练)则是一种更短的、更高强度的有氧运动,通常在短时间内进行多次重复。因此,HICT是HIIT的一种变体,它强调的是更高的强度和更短的时间。 | HICT(高强度间歇训练)和HIIT(高强度间歇训练)都是指短时间内进行高强度的运动,然后休息一段时间。但是,它们的区别在于HICT通常是持续时间更长,例如30分钟或更多,而HIIT则通常是短暂的时间,例如10秒到2分钟。此外,HICT可能包括一些低强度的恢复性运动,以帮助身体更好地适应高强度训练。 | HICT(高强度间歇训练)和HIIT(高强度间歇训练)是两种不同的训练方式。它们都强调在短时间内进行高强度的运动,以提高心肺功能、燃烧脂肪并增强肌肉力量。 HICT(高强度间歇训练)是一种持续时间较长的训练方式,通常包括30分钟以上的有氧运动,如慢跑或骑自行车等。在这种训练中,运动员会进行一段高强度的运动,然后休息一段时间,再进行另一段高强度的运动。这种训练方式可以帮助人们保持长时间的耐力和持久力。 HIIT(高强度间歇训练)则是一种更短的时间的训练方式,通常包括10-30分钟的高强度运动,如快速跑步、跳绳或举重等。在这种训练中,运动员会在短时间内进行高强度的运动,然后短暂地休息,然后再进行下一次高强度的运动。这种训练方式可以帮助人们快速燃烧脂肪,提高代谢率,并且可以在较短的时间内达到较高的心肺负荷。 总的来说,HICT和HIIT都是有效的训练方式,但它们的目标和特点略有不同。如果您想要提高耐力和持久力,可以选择HICT;如果您想要快速燃烧脂肪和提高代谢率,可以选择HIIT。 |
19 | 爵士乐有哪些流派? | 爵士乐有很多不同的流派,包括: 1. 传统爵士乐(Traditional Jazz):起源于20世纪初的美国南部城市,以小乐队为主要形式。 2. 摇摆爵士乐(Swing Jazz):在1930年代和1940年代盛行,强调节奏感和舞曲风格。 3. 蓝调爵士乐(Blues Jazz):源于19世纪末至20世纪初的美国黑人音乐,强调情感表达和蓝调音阶。 4. 现代爵士乐(Modern Jazz):始于1950年代,强调即兴演奏和复杂的编曲。 5. 拉丁爵士乐(Latin Jazz):融合了拉丁音乐元素和爵士乐风格,主要流行于南美洲和西班牙等国家。 6. 爵士摇滚(Jazz Rock):结合了爵士乐和摇滚乐的元素,在20世纪70年代至80年代盛行。 7. 爵士电子(Jazz Electronic):融合了电子音乐和爵士乐元素,在20世纪90年代至21世纪初盛行。 |
爵士乐有许多不同的流派,其中一些包括:传统爵士、新奥尔良爵士、现代爵士、蓝调爵士、福音爵士、拉丁爵士、爵士摇滚和爵士融合等。 | 爵士乐有很多不同的流派,例如:摇摆、布鲁斯、拉丁爵士、新奥尔良爵士等。每个流派都有其独特的风格和特点,可以根据自己的喜好选择欣赏。 |
20 | 介绍几款与魔兽世界类似的游戏吧 | 1. 巫师3:狂猎(The Elder Scrolls V: Skyrim) 2. 暗黑破坏神3(Diablo III) 3. 龙之谷(Dragon Age) 4. 剑灵2:永恒的传说(Fable II) 5. 上古卷轴5:天际(The Elder Scrolls V: Skyrim) |
以下是一些与魔兽世界类似类型的游戏: 1. 剑网3 2. 仙剑奇侠传三 3. 永恒之塔 4. 龙之谷 5. 天涯明月刀 6. 大话西游 7. 梦幻西游 8. 神界 9. 幻想三国志 10. 英雄联盟 |
您可以尝试《剑灵》、《永恒纪元》和《星际争霸2》等类似魔兽世界的游戏。 |
5.训练细节
整个训练流程包括词表扩充、预训练和指令精调三部分。
- 本项目的模型均在原LLaMA词表的基础上扩充了中文单词
- 预训练和指令精调代码参考了🤗transformers中的run_clm.py和Stanford Alpaca项目中数据集处理的相关部分
具体内容请参考本项目 >>> 📚 GitHub Wiki
6.FAQ
FAQ中给出了常见问题的解答,请在提Issue前务必先查看FAQ。
问题1:为什么不能放出完整版本权重?
问题2:后面会有33B、65B的版本吗?
问题3:一些任务上效果不好!
问题4:为什么要扩充词表?直接在原版LLaMA上用中文预训练不行吗?
问题5:回复内容很短
问题6:Windows下,模型无法理解中文、生成速度很慢等问题
问题7:Chinese-LLaMA 13B模型没法用llama.cpp启动,提示维度不一致
问题8:Chinese-Alpaca-Plus效果很差
问题9:模型在NLU类任务(文本分类等)上效果不好
问题10:为什么叫33B,不应该是30B吗?
问题11:模型合并之后SHA256不一致
具体问题和解答请参考本项目 >>> 📚 GitHub Wiki
项目码源见文末
更多优质内容请关注公号:汀丶人工智能;会提供一些相关的资源和优质文章,免费获取阅读。