Llama3.1-8B模型中文版!OpenBuddy发布新一代跨语言模型

简介: 7月23日,Meta发布了新一代开源模型系列:Llama3.1。其中405B参数的版本刷新了开源模型性能的上限,在多种指标上的测试成绩接近GPT-4等闭源模型的水平,甚至在部分基准测试中展现出来了超越头部闭源模型的潜力。

本次发布我们在Llama3.1上首个工作:OpenBuddy-Llama3.1-8B-v22.1-131K。

Llama3.1:开源模型的新里程碑

7月23日,Meta发布了新一代开源模型系列:Llama3.1。其中405B参数的版本刷新了开源模型性能的上限,在多种指标上的测试成绩接近GPT-4等闭源模型的水平,甚至在部分基准测试中展现出来了超越头部闭源模型的潜力。

同时,Meta在本次发布时修改了许可协议中对数据蒸馏方面的限制,允许开发者使用Llama3.1-405B模型的输出训练其它模型。

Llama3.1-8B-Instruct:利用合成数据增强小模型

除了模型尺寸的提升之外,Meta还尝试了在数据集构成、训练方法、 位置编码缩放等方向上增强模型的综合能力,并于同日发布了8B、70B模型的3.1增强版本。

Llama3.1-8B-Instruct基于8种语言的语料、问答对进行训练,支持英语、德语、法语、意大利语、葡萄牙语、西班牙语、印地语和泰语。借助特有的长文扩容技术,其上下文长度高达131072 tokens。模型训练集中的知识截止日期更新到了2023年12月,和上个版本相比具备更新的知识储备。

除了语言、长文、时效性方面的提升外,Meta尝试了借助405B模型等大模型合成数据,并用合成数据提升小模型的能力的路线。在后期训练中,Meta使用了超过2500万条合成数据,使8B小模型的能力得到进一步提升。

在代码、数学等测试模型的认知、推理能力的基准中,Llama3.1-8B-Instruct取得了令人振奋的成绩,具备和GPT 3.5 Turbo相接近的综合能力水平:

OpenBuddy-Llama3.1-8B-v22.1:新一代开源跨语言模型

尽管Llama3.1仍然不具备中文能力,但模型已经在8种语言上得到了充分的训练,具备一定的跨语言潜力。本次时长约为半天的训练过程中,我们尝试使用了约10%的少量数据,在Llama3.1-8B-Instruct的基础上进行以增强中文语言能力为主要目标的训练过程。

经过少量数据训练后,模型具备了中文问答和跨语言翻译能力。和上一代8B模型相比,本次发布的模型在一些容易产生概念混淆的问题上,能够输出通常只有更大模型才能生成的答案,具备更强的认知潜力。

Q: 为什么手机只有100/100的电啊,根本就不够用,建议以后手机都有200/200的电

A: 手机电量显示为 100/100 的设计主要是为了向用户提供一个直观的电量剩余指示。这种设计简化了电量显示,使得用户可以快速了解当前的电量状况。然而,实际上,手机的电池容量并不是 100 单位,而是以毫瓦时(mAh)或瓦时(Wh)等单位来衡量,这意味着它们能够存储和释放电能的量。

手机电量显示为 100/100 的设计反映了电池容量的最大值,但这并不意味着电池在达到 100% 时就无法再充电。实际上,电池在充满电后仍然可以继续充电,只是电量显示不会再增加了。这种设计有助于保护电池,避免过度充电导致电池寿命缩短。

如果手机电量显示设计改为 200/200,虽然在直观上可能给用户带来更大的满意感,但实际上并不改变电池的存储能力。用户可能会误以为电池的容量翻倍了,而实际上只是显示方式的改变。这种设计可能会导致用户在电量显示接近 200% 时误以为电池已经充满电,从而忽视了电池的实际充电情况。

因此,虽然从用户体验角度考虑,提供一个更大的显示范围(如 200/200)可能会让用户感到更加满意,但从电池管理和用户教育的角度来看,保持电量显示为 100/100 的设计是更合理的选择。这样既可以避免误导用户,也有助于保护电池的健康。

欢迎访问我们在ModelScope中的项目页面,下载、体验我们的模型。

受训练数据集和训练时间的限制,本次发布的模型在中文知识,尤其是传统文化知识上仍存在幻觉。尽管本次训练过程中未使用长文数据,但得益于模型原本的长文能力,模型在长文理解等任务上具备相对稳定的表现。

未来,我们计划对8B和70B模型进行更大规模的训练,从而进一步增强模型的中文知识储备、长文能力和认知能力。同时,我们也正在探索微调405B模型的可能性,敬请期待。

相关文章
|
6月前
|
自然语言处理 开发者 异构计算
社区供稿 | Llama3-8B中文版!OpenBuddy发布新一代开源中文跨语言模型
此次发布的是在3天时间内,我们对Llama3-8B模型进行首次中文跨语言训练尝试的结果:OpenBuddy-Llama3-8B-v21.1-8k。
|
1月前
|
计算机视觉
Deepseek开源多模态LLM模型框架Janus,魔搭社区最佳实践
deepseek近期推出了简单、统一且灵活的多模态框架Janus,它能够统一处理多模态理解和生成任务。让我们一起来了解一下吧。
|
1月前
|
自然语言处理 语音技术 开发者
如何利用 OpenVINO™ 部署 Qwen2 多模态模型
本文将分享如何利用 OpenVINO™ 工具套件在轻薄本上部署 Qwen2-Audio 以及 Qwen2-VL 多模态模型。
|
2月前
|
测试技术 人机交互
没有等来OpenAI开源GPT-4o,等来了开源版VITA
【9月更文挑战第9天】近日,论文《Towards Open-Source Interactive Omni Multimodal LLM》介绍了VITA,一种基于Mixtral 8×7B的新型开源多模态大语言模型,能处理视频、图像、文本和音频等多模态数据,并提供先进的人机交互体验,填补了开源模型在多模态能力上的空白。经多任务学习及指令微调,VITA在多个基准测试中表现出色,但仍存在基础能力和嘈杂音频处理等方面的局限。更多详情见论文:https://arxiv.org/pdf/2408.05211
49 3
|
4月前
|
人工智能 JSON 自然语言处理
国内大模型LLM选择以及主流大模型快速使用教程[GLM4/Qwen/Baichuan/Coze/Kimi]
【7月更文挑战第7天】国内大模型LLM选择以及主流大模型快速使用教程[GLM4/Qwen/Baichuan/Coze/Kimi]
232 10
国内大模型LLM选择以及主流大模型快速使用教程[GLM4/Qwen/Baichuan/Coze/Kimi]
|
4月前
|
数据可视化 物联网 Swift
谷歌开源Gemma2!魔搭社区推理、微调最佳实践教程
Google面向全球研究人员和开发者发布并开源 Gemma 2 大语言模型!本次Gemma 2 系列为轻量级开放模型,提供9B和27B参数两种尺寸,采用全新的架构设计,性能表现优异。
|
6月前
|
人工智能 安全 测试技术
微软开源4.2B参数多模态SLM模型Phi-3-vision,魔搭社区推理、微调实战教程来啦!
在 Microsoft Build 2024 上,微软持续开源了 Phi-3 系列的新模型们。包括 Phi-3-vision,这是一种将语言和视觉功能结合在一起的多模态模型。
|
6月前
|
数据可视化 物联网 关系型数据库
幻方开源第二代MoE模型 DeepSeek-V2,魔搭社区推理、微调最佳实践教程
5月6日,幻方继1月份推出首个国产MoE模型,历时4个月,带来第二代MoE模型DeepSeek-V2,并开源了技术报告和模型权重,魔搭社区可下载体验。
社区供稿 | XTuner发布LLaVA-Llama-3-8B,支持单卡推理,评测和微调
日前,XTuner 团队基于 meta 最新发布的 Llama-3-8B-Instruct 模型训练并发布了最新版多模态大模型 LLaVA-Llama-3-8B, 在多个评测数据集上取得显著提升。
|
6月前
|
人工智能 知识图谱 Windows
Mistral 7B v0.2 基础模型开源,魔搭社区微调教程和评测来啦!
Mistral AI在3月24日突然发布并开源了 Mistral 7B v0.2模型,有如下几个特点
下一篇
无影云桌面