10人明星团队炼出首个微调Llama 3.1 405B!角色扮演一秒入戏,代码全开源

简介: 【9月更文挑战第13天】近日,由十位明星研究员组成的团队成功微调了Llama 3.1 405B 模型,推出名为Hermes 3的先进开源模型,在多个基准测试中表现卓越。Hermes 3采用“聊天”训练范式,具备强大的推理和创造能力,能更好地响应命令性陈述,使用户更容易与其互动并获得有用信息。此外,该模型支持系统提示和工具使用功能,使其在处理复杂任务时更加高效。尽管Hermes 3在多种合成推理任务和创造性应用中表现出色,但作为微调模型,其性能受限于基础模型,并且开源特性可能带来安全性和隐私性方面的挑战。论文详见[nousresearch.com]。

最近,一个由10位明星研究员组成的团队成功微调了Llama 3.1 405B模型,并发布了他们的研究成果。这个名为Hermes 3的模型在多个公共基准测试中取得了最先进的性能,成为开源模型中的佼佼者。

Hermes 3是一个中性对齐的通用指令和工具使用模型,具有强大的推理和创造能力。它由Nous Research的研究人员开发,旨在为用户提供更易于控制和交互的大型语言模型。

与传统的“基础”或“基石”模型不同,Hermes 3被优化为响应命令性陈述。这意味着用户可以更轻松地向模型提出请求或问题,并期望得到有用的回答。这种设计使得Hermes 3成为一种更适合日常使用的工具,而不仅仅是一个研究对象。

Hermes 3的研究人员使用了一种名为“聊天”的训练范式,这在ChatGPT及其后代模型中得到了普及。通过这种方式,他们能够将一个基础模型训练成一个有用的助手,能够根据用户的请求提供有用的信息。

为了进一步提高Hermes 3的可控性,研究人员还添加了其他功能,如系统提示和工具使用。系统提示是一种元命令,可以指导模型如何解释所有进一步的指令。工具使用则允许模型请求外部计算或数据检索,并将结果附加到请求中,以便进行自回归生成。

Hermes 3的研究人员还强调了他们的模型在推理和创造能力方面的优势。他们通过在各种合成推理任务和创造性应用(如角色扮演和创意写作)上进行训练,实现了这一目标。这使得Hermes 3能够处理各种复杂的任务,并生成高质量的输出。

然而,Hermes 3也存在一些潜在的缺点。首先,由于它是一个微调模型,它的性能可能受到基础模型的限制。其次,由于它是一个开源模型,它的安全性和隐私性可能不如商业模型。最后,由于它是一个大型语言模型,它的计算成本可能很高。

论文地址:https://nousresearch.com/wp-content/uploads/2024/08/Hermes-3-Technical-Report.pdf

目录
相关文章
|
7月前
|
人工智能 自然语言处理 机器人
Jina AI 发布中英和英德双语 8K 向量模型,魔搭社区开源最佳实践!
在 Jina Embeddings 英语向量模型突破百万下载后,今天,Jina AI正式开源了两款双语向量模型:中英双语(Chinese-English)和英德双语(English-German)向量模型,这也是全球首次推出支持 8K 双语文本的开源向量模型。
|
7月前
|
数据采集 自然语言处理 前端开发
社区供稿 | 猎户星空百亿参数大模型 Orion-14B系列开源,一张3060就能跑(附魔搭社区推理微调最佳实践)
1月21日,傅盛在猎户星空大模型发布会上宣布,“为企业应用而生” 的开源百亿参数猎户星空大模型正式发布。猎户星空大模型(Orion-14B)是由猎户星空研发的预训练多语言大语言模型,以其140亿参数规模展现出了卓越的性能。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
社区供稿 | 元象发布255B大规模MoE开源大模型,落地应用登顶港台榜
元象XVERSE发布 中国最大MoE开源模型:XVERSE-MoE-A36B,加速AI应用低成本部署,将国产开源提升至国际领先水平。
社区供稿 | 元象发布255B大规模MoE开源大模型,落地应用登顶港台榜
|
3月前
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
7月前
|
人工智能 自然语言处理 Linux
|
5月前
|
人工智能 自然语言处理 物联网
开源最新 Llama 3.1 系列大模型抢先体验
**Meta开源Llama 3.1系列模型,含4050亿参数“超大杯”版本。**阿里云百炼率先上架全系列,并为新老用户享30天100万tokens免费算力。模型广场现开放体验,欢迎试用与反馈。涵盖80亿、700亿、4050亿参数版本,上下文长度最大可达128K tokens,支持多语言。立即体验Llama 3.1的强大能力!
|
4月前
|
数据采集 SQL 人工智能
如何基于gpt模型抢先打造成功的产品
如何基于gpt模型抢先打造成功的产品
|
5月前
|
自然语言处理 API Android开发
阿里Qwen2-72B大模型已是开源榜的王者,为什么还要推出其他参数模型,被其他模型打榜?
阿里云的Qwen2-72B模型在Hugging Face上荣登开源模型榜首,展现卓越性能,超越其他包括Meta的Llama-3在内的竞争者。Qwen2有多个参数版本,其中72B版本在自然语言理解、知识、代码等任务上表现出色。较小参数版本如7B模型在某些方面略逊一筹。推出不同参数模型可能是为了降低成本、加速迭代、构建丰富的模型生态。通过提供不同规模的模型,阿里云旨在促进技术研究和全场景应用,类似于微软Windows XP和阿里云OS生态的构建策略。
363 1
|
5月前
|
人工智能 JSON 文字识别
开源VLM新标杆 InternVL 2.0 怎么用?部署、微调尽在魔搭社区!
7月4日下午,世界人工智能大会科学前沿论坛,上海人工智能实验室OpenGVLab发布了InternVL 2.0 版本,中文名书生·万象。