RWKV-7:极先进的大模型架构,长文本能力极强

简介: RWKV-7 是极先进的最新大模型架构,超越 attention / linear attention 范式,拥有强大的 in-context-learning(上下文学习)能力,可真正持续学习,在保持 100% RNN 的同时,拥有极强的长文本能力。

RWKV-7 是极先进的最新大模型架构,超越 attention / linear attention 范式,拥有强大的 in-context-learning(上下文学习)能力,可真正持续学习,在保持 100% RNN 的同时,拥有极强的长文本能力。

RWKV-7 架构性能表现

RWKV-7 的大海捞针测试

RWKV-7-World 0.1B(L12-D768)在 ctx 4k 预训练 1T tokens(world-v2.8),无需任何微调,即可完美通过 ctx 16k 的大海捞针。且 world 系列模型支持全球 100+ 种语言和代码。

添加图片注释,不超过 140 字(可选)

niah-of-rwkv-7-world-0.1b

RWKV-7-Pile 0.4B(L24-D1024)在 ctx 4k 预训练 0.3T tokens(pile),无需任何微调,即可完美通过 ctx 16k 的大海捞针。

添加图片注释,不超过 140 字(可选)

niah-of-rwkv-7-pile-0.4b

RWKV-7 的长文本外推测试

RWKV-7-Pile 系列模型,在 ctx 4k 预训练 0.3T tokens(pile),无需任何微调,即可自动外推到 ctx 32k+ 长度,且 ppl 随 ctx 增加持续稳步下降,说明还远未达到它的外推极限。

添加图片注释,不超过 140 字(可选)

RWKV-7 外推到 ctx 32k+

下面是 RWKV-7 与 Mamba 的对比,所有模型(除-slimpj)都是在 Pile 训练:

添加图片注释,不超过 140 字(可选)

RWKV-7 与 Mamba 对比,外推能力

Pile 模型横向评测

我们对多款 Pile 模型进行了综合测评。这里的所有模型,基于相同的数据集训练,并使用相同的分词器(tokenizer)进行推理,所以是真正公平公正的模型性能对比。

数据集:

https://www.modelscope.cn/datasets/AI-ModelScope/pile

我们对比了以下模型,涵盖 0.1B、0.4B、1.5B 三种参数:

  • RWKV-7 "Goose"(例如 L12-D768, lr 8e-4 to 3e-5 cosine decay, wd 0.1, bsz 8x30x4096,随机初始化。我们没有使用任何“技巧”提升性能,训练过程非常稳定,无任何毛刺,完全可复现,欢迎联系我们复现)
  • RWKV-4 "Dove"
  • Mamba(我们发现 Mamba 在实际训练中很不稳定,这里使用的是他们提供的模型,我们无法验证他们是否使用了“技巧”提升性能)
  • Pythia

从评测结果,可见 RWKV-7-Pile 在各项英文和多语言测试中,都拥有显著优势:

添加图片注释,不超过 140 字(可选)

pile-models-eval

注意 RWKV-7 拥有显著更强的 ReCoRD 评分,这是长文本材料问答任务,表明 RWKV-7 能够更好地理解和使用长文本的信息。

此外,我们训练了两个“深窄”(更多的层数和更小的维度)的 RWKV-7-Pile 0.1B 模型 ,分别是 L25-D576 和 L33-D512,它们的综合性能更强:

添加图片注释,不超过 140 字(可选)

pile-eval-with-l25-l33-rwkv

这表明 RWKV 架构可通过使用“深窄”尺寸,进一步提升性能。

0.1B 模型横向评测

RWKV-7-World-0.1B 是全球最强的 0.1B 多语言模型,在 world-2.8(1T tokens)数据训练后,拥有一流的英文能力,且多语言能力显著超越所有 0.1B 模型,支持全球 100+ 种语言和代码。

添加图片注释,不超过 140 字(可选)

100m-model-eval

注意 RWKV-7-World-0.1B 在模型设计上保持 L12-D768 尺寸,而非 SmolLM2 的 L30-D576 尺寸。更少的神经网络层数(L12)使得 RWKV-7 的速度更快,更适合边缘设备等资源受限的推理场景,而且微调训练所需的数据和计算资源也更低。

这里的所有 RWKV 模型均已开源发布:

rwkv-7-world:

https://modelscope.cn/models/Blink_DL/rwkv-7-world

更多RWKV模型:

https://www.modelscope.cn/organization/Blink_DL

RWKV-7-World-0.1B 生成案例

作为仅 0.1B 参数的 L12-D768 小模型,RWKV-7-World-0.1B 拥有超越其尺寸的综合能力。以下是 RWKV-7-World-0.1B 的生成案例(使用 RWKV-Runner 运行):

添加图片注释,不超过 140 字(可选)

multilang-case-english

添加图片注释,不超过 140 字(可选)

multilang-case-code

添加图片注释,不超过 140 字(可选)

multilang-case-jpn

添加图片注释,不超过 140 字(可选)

multilang-case-chn-novel

其中的部分生成内容不准确,但考虑到,这是一个 0.1B L12-D768 的基底模型,尚未做任何 post-training,其性能可谓令人惊讶。

体验 RWKV-7-World 0.1B

RWKV-Gradio-1:

https://modelscope.cn/studios/Blink_DL/RWKV-Gradio-1

  • 小程序:

我们正在训练更大参数的 RWKV-7 模型,具体的发布计划请见后文。

RWKV-7 架构介绍

RWKV-7 采用了动态状态演化(Dynamic State Evolution),超越了 attention / linear attention 范式 TC0 表达能力的根本限制。RWKV-7 拥有 NC1 的表达能力,使其可以解决许多 attention 无法解决的问题。

简单地说,传统注意力机制(如 Transformer 的 QKV-softmax-attention)会将多个 {}(key 和 value 的向量对)存储起来,通过 q(query,查询向量)去匹配 key,得到对应的 value 输出。

RWKV-7 不直接存储 {} 对,而是通过动态计算更新 state,从上下文动态学习 key 和 value 之间的关系,再使用更新后的 state 处理新的输入 (在 RWKV 中是 ) 并得到输出。

具体而言,RWKV-7 模型拥有一个内部模型 。它需要拟合一个简单的目标:对于给定的两个向量序列 {} 和 {},通过 (state)把 转化为 ,输出的 需要和目标的 尽量接近。

为实现这个目标,RWKV-7 在推理时,对于 L2 损失函数 自动模拟出动态的梯度下降,以此来持续训练内部模型 。

因此,RWKV-7 是一个真正的持续学习模型。

这种动态 State 演化机制,使得 RWKV-7 更擅长处理长上下文内容,拥有显著更强的长文本能力,且生成的内容更少出现自我重复,比各种 Transformer 和 RWKV-6 版本看上去更有连贯的思路。

RWKV-7 的架构图:

添加图片注释,不超过 140 字(可选)

rwkv-7-architecture

RWKV-7 的训练和推理

RWKV-7 架构的训练和推理代码均已定稿,架构论文正在由彭博和社区成员联合撰写,欢迎大家参与,可在 EleutherAI 的 Discord 搜索 RWKV-papers 频道。

RWKV-7 训练代码可在 RWKV-LM仓库中查看,RWKV-PEFT 项目已支持微调 RWKV-7 模型。

推理方面,RWKV pip 0.8.28 版本、web-rwkv、Ai00、RWKV Runner等 RWKV 推理工具均已支持 RWKV-7 模型。

  • RWKV-LM:

https://github.com/BlinkDL/RWKV-LM

  • RWKV-PEFT 项目:

https://github.com/JL-er/RWKV-PEFT

  • RWKV pip 0.8.28:

https://pypi.org/project/rwkv/0.8.28/

  • web-rwkv:

https://github.com/cryscan/web-rwkv

  • Ai00:

https://github.com/Ai00-X/ai00_server

  • RWKV Runner:

https://github.com/josStorer/RWKV-Runner

RWKV-7 模型发布计划

我们正在训练更大的 RWKV-7-World 模型,路线图如下:

我们正在训练更大的 RWKV-7-World 模型,路线图如下:

模型

数据集

计划发布日期

RWKV-7-0.4B

World-v2.9(2T)

2025年1月上旬

RWKV-7-1.5B

World-v3(3.1T)

2025年1月下旬

RWKV-7-2.9B

World-v3(3.1T)

2025年2月中旬

点击链接阅读原文:rwkv-7-world

相关文章
|
4天前
|
调度 云计算 芯片
云超算技术跃进,阿里云牵头制定我国首个云超算国家标准
近日,由阿里云联合中国电子技术标准化研究院主导制定的首个云超算国家标准已完成报批,不久后将正式批准发布。标准规定了云超算服务涉及的云计算基础资源、资源管理、运行和调度等方面的技术要求,为云超算服务产品的设计、实现、应用和选型提供指导,为云超算在HPC应用和用户的大范围采用奠定了基础。
179562 18
|
12天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
13天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
9161 23
|
17天前
|
Cloud Native Apache 流计算
资料合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
4847 12
资料合集|Flink Forward Asia 2024 上海站
|
17天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
25天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
13天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
|
13天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
993 67