ModernBERT:英伟达开源的新一代编码器模型,性能超越 SOTA,通过去除填充和序列打包减少计算浪费,提高训练和推理的效率

简介: ModernBERT 是由英伟达和 HuggingFace 等机构联合开源的新一代编码器模型,支持长上下文处理,性能超越 SOTA,适合多种自然语言处理任务。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/VgNrSY9YE2fbt3yOwkJB_g


🚀 快速阅读

  1. 功能:支持长上下文处理、信息检索、文本分类、实体识别和代码检索。
  2. 技术:基于现代化 Transformer 架构,优化参数和注意力机制,减少计算浪费。
  3. 应用:适用于语义搜索、内容推荐、自然语言理解和问答系统等场景。

正文(附运行示例)

ModernBERT 是什么

公众号: 蚝油菜花 - ModernBERT

ModernBERT 是由 Answer.AI、LightOn、约翰斯·霍普金斯大学、英伟达和 HuggingFace 联合推出的现代编码器-only Transformer 模型,是对经典 BERT 模型的一次重大升级。ModernBERT 在 2 万亿 token 的大规模数据上训练,支持长达 8192 token 的序列长度,显著提升处理长上下文的能力。

ModernBERT 在多种自然语言处理任务上性能赶超 SOTA,同时速度是 DeBERTa 的两倍,特别适合信息检索、文本分类和实体识别等应用。模型现已开源,供学术界和工业界研究和应用。

ModernBERT 的主要功能

  • 长上下文处理:支持长达 8192 token 的序列,相较于传统模型,大幅提升处理长文本的能力。
  • 信息检索:在语义搜索和文档检索任务中,ModernBERT 能更有效地表示文档和查询,提高检索准确性。
  • 文本分类:包括情感分析、内容审核等任务,能快速进行文本分类。
  • 实体识别:在自然实体识别(NER)任务中,识别文本中的特定实体。
  • 代码检索:在编程语言相关的任务中也表现出色,能处理和检索大量代码信息。
  • 效率提升:在保持高性能的同时,在速度和内存使用上进行优化,让模型更加高效。

ModernBERT 的技术原理

  • 现代化 Transformer 架构:基于 Transformer 架构改进,包括旋转位置嵌入(RoPE)和 GeGLU 激活函数,有助于模型更好地理解和处理长序列数据。
  • 参数优化:移除不必要的偏置项,更有效地利用参数预算,简化模型架构。
  • 注意力机制:引入交替的全局和局部注意力机制,提高模型处理长文本的效率。
  • Unpadding 和序列打包:去除填充(Unpadding)和序列打包(Sequence Packing),减少计算浪费,提高训练和推理的效率。
  • 硬件感知模型设计:在设计时考虑硬件的利用,基于优化模型结构最大化 GPU 的利用率。
  • 大规模训练数据:在 2 万亿 token 的大规模数据集上进行训练,包括网络文档、编程代码和科学文章,让模型具有更广泛的语言理解和应用能力。

如何运行 ModernBERT

ModernBERT 的训练和评估依赖于 composer 框架,所有训练都通过 YAML 文件进行配置。以下是一个简单的环境设置和训练示例:

conda env create -f environment.yaml
conda activate bert24
pip install "flash_attn==2.6.3" --no-build-isolation

训练 ModernBERT 模型时,可以使用 yamls 文件夹中的示例配置文件,例如 yamls/main/flex-bert-rope-base.yaml

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
7月前
|
存储 人工智能 自然语言处理
构建AI智能体:三十七、从非结构化文本到结构化知识:基于AI的医疗知识图谱构建与探索
知识图谱是一种用图结构表示实体及其关系的技术,通过三元组(主体-关系-客体)构建语义网络。文章以医疗领域为例,详细介绍了知识图谱的构建流程:数据预处理、实体识别、关系抽取、知识融合、存储与可视化等步骤。知识图谱可应用于智能问答、辅助诊断、药物研发等场景,其结构化特性可弥补大语言模型的不足,二者结合能提升AI系统的准确性和可解释性。文章还展示了基于大模型的医疗知识图谱构建代码示例,涵盖实体识别、关系抽取、图谱存储和智能问答等核心功能,体现了知识图谱在专业领域的实用价值。
1366 12
|
10月前
|
机器学习/深度学习 数据采集 人工智能
轻量级知识图谱框架LightRAG入门指南
LightRAG是一款创新的知识图谱增强检索框架,结合向量检索与知识图谱,提升检索准确性与可解释性。支持多模态数据,提供轻量高效、易集成、可解释的RAG解决方案。
|
人工智能 自然语言处理 Swift
ModernBERT-base:终于等到了 BERT 回归
BERT于 2018 年发布(史前人工智能!),但它至今仍被广泛使用,BERT的纯编码器架构使其成为每天出现的各种场景的理想选择,例如检索、分类和实体提取。
1709 3
|
自然语言处理 算法 OLAP
阿里云PAI大模型RAG对话系统最佳实践
本文为大模型RAG对话系统最佳实践,旨在指引AI开发人员如何有效地结合LLM大语言模型的推理能力和外部知识库检索增强技术,从而显著提升对话系统的性能,使其能更加灵活地返回用户查询的内容。适用于问答、摘要生成和其他依赖外部知识的自然语言处理任务。通过该实践,您可以掌握构建一个大模型RAG对话系统的完整开发链路。
|
消息中间件 Java Apache
手把手教你使用Idea调试RocketMQ源码
手把手教你使用Idea调试RocketMQ源码
960 0
手把手教你使用Idea调试RocketMQ源码
|
开发者 UED
flutter:dialog (十一)
本文介绍了 Flutter 中常用的弹窗组件和方法,包括 `AlertDialog`、`SimpleDialog`、`showModalBottomSheet` 和 `toast`。每个组件的使用方法和示例代码都进行了详细说明,帮助开发者快速理解和应用这些弹窗功能。例如,`AlertDialog` 用于显示带有标题、内容和按钮的对话框;`SimpleDialog` 用于显示多个选项供用户选择;`showModalBottomSheet` 用于从屏幕底部弹出模态对话框;而 `toast` 则用于显示短暂的消息提示。文中还提供了如何处理点击事件、取消弹窗等常见操作的代码示例。
451 1
|
消息中间件 架构师 Dubbo
免费下载!《Apache RocketMQ 源码解析》带你深入了解Apache RocketMQ
本书围绕Apache RocketMQ 源码进行多方面分析,包含RocketMQ ACL、RocketMQ 消息轨迹、RocketMQ 多副本之Leader 选主等,带你深入了解Apache RocketMQ。
26817 0
免费下载!《Apache RocketMQ 源码解析》带你深入了解Apache RocketMQ
|
网络协议 Go
[golang]gin框架接收websocket通信
[golang]gin框架接收websocket通信
537 0
|
弹性计算 固态存储 调度
阿里云199元服务器ECS u1实例2核4G5M带宽性能怎么样?
阿里云199元服务器ECS u1实例2核4G5M带宽性能怎么样?阿里云服务器ECS u1实例,2核4G,5M固定带宽,80G ESSD Entry盘优惠价格199元一年,性能很不错,CPU采用Intel Xeon Platinum可扩展处理器,购买限制条件为企业客户专享,实名认证信息是企业用户即可,新老用户均可购买,并且续费续费不涨价,企业客户新购续费皆¥199.00/1年,每年可下单1次。阿里云百科整理这台2核4G5M云服务器购买条件、详细配置、优惠价格和性能参数测评
|
机器学习/深度学习 自然语言处理 算法
【天幕系列 03】深度学习领域的最新前沿:2024年的关键突破与趋势
【天幕系列 03】深度学习领域的最新前沿:2024年的关键突破与趋势
2020 3

热门文章

最新文章