XGrammar:陈天奇团队推出的LLM结构化生成引擎

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: XGrammar是由陈天奇团队推出的开源软件库,专为大型语言模型(LLM)设计,提供高效、灵活且可移植的结构化数据生成能力。基于上下文无关语法(CFG),XGrammar支持递归组合以表示复杂结构,适用于生成JSON、SQL等格式数据,并通过字节级下推自动机优化解释CFG,实现百倍加速。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

主题:XGrammar是一个为LLM提供结构化生成能力的开源库。
功能:支持上下文无关语法,适用于生成JSON、SQL等格式数据。
优化:通过字节级下推自动机实现百倍加速,几乎无额外开销。

正文(附运行示例)

XGrammar 是什么

公众号: 蚝油菜花 - xgrammar

XGrammar是由陈天奇团队推出的开源软件库,专为大型语言模型(LLM)设计,提供高效、灵活且可移植的结构化数据生成能力。它基于上下文无关语法(CFG)定义结构,支持递归组合以表示复杂结构,适合生成JSON、SQL等格式数据。

XGrammar通过字节级下推自动机优化解释CFG,减少每token延迟,实现百倍加速,几乎无额外开销。此外,XGrammar集成多种系统优化,如自适应token掩码缓存、上下文扩展等,提高掩码生成速度并减少预处理时间。XGrammar的C++后端设计易于集成,并支持在LLM推理中实现零开销的结构化生成。

XGrammar 的主要功能

  • 高效结构化生成:支持上下文无关语法(CFG),支持定义和生成遵循特定格式(如JSON、SQL)的结构化数据。
  • 灵活性:基于CFG的递归规则,能灵活地表示复杂的结构,适应多样的结构化数据需求。
  • 零开销集成:XGrammar与LLM推理引擎共同设计,能在LLM推理中实现零开销的结构化生成。
  • 快速执行:基于系统优化,显著提高结构化生成的执行速度,相比于SOTA方法,每token延迟减少多达100倍。
  • 跨平台部署:具有最小且可移植的C++后端,能轻松集成到多个环境和框架中。
  • 自适应token掩码缓存:在预处理阶段生成,加快运行时的掩码生成。

XGrammar 的技术原理

  • 字节级下推自动机(PDA):用字节级PDA解释CFG,支持每个字符边缘包含一个或多个字节,处理不规则的token边界,支持包含sub-UTF8字符的token。
  • 预处理和运行时优化:在预处理阶段,生成自适应token掩码缓存,基于预先计算与上下文无关的token加快运行时的掩码生成。
  • 上下文无关与相关token的区分:区分上下文无关token和上下文相关token,预先计算PDA中每个位置的上下文无关token的有效性,并将它们存储在自适应token掩码缓存中。
  • 语法编译:基于语法编译过程,预先计算掩码中相当一部分token,加快掩码生成速度。
  • 算法和系统优化:包括上下文扩展、持续性执行堆栈、下推自动机结构优化等,进一步提高掩码生成速度并减少预处理时间。
  • 掩码生成与LLM推理重叠:将CPU上的掩码生成过程与GPU上的LLM推理过程并行化,消除约束解码的开销。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
7月前
|
物联网 机器人 Swift
|
7月前
|
数据采集 自然语言处理 前端开发
社区供稿 | 猎户星空百亿参数大模型 Orion-14B系列开源,一张3060就能跑(附魔搭社区推理微调最佳实践)
1月21日,傅盛在猎户星空大模型发布会上宣布,“为企业应用而生” 的开源百亿参数猎户星空大模型正式发布。猎户星空大模型(Orion-14B)是由猎户星空研发的预训练多语言大语言模型,以其140亿参数规模展现出了卓越的性能。
|
10天前
|
人工智能 API
OmniSearch:阿里巴巴通义推出的多模态检索增强生成框架
本文介绍了阿里巴巴通义实验室推出的多模态检索增强生成框架 OmniSearch,该框架具备自适应规划能力,能够动态拆解复杂问题,根据检索结果和问题情境调整检索策略,从而提升检索效率和准确性。
67 5
OmniSearch:阿里巴巴通义推出的多模态检索增强生成框架
|
3月前
|
编解码 人工智能 文字识别
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
GOT来促进OCR-2.0的到来。该模型具有580百万参数,是一个统一、优雅和端到端的模型,由高压缩编码器和长上下文解码器组成。
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
|
6月前
|
数据采集 机器学习/深度学习
谷歌创新框架:从非结构化数据,实现多模态学习
【6月更文挑战第13天】谷歌推出LANISTR框架,旨在多模态学习中整合非结构化数据,如语言、图像和结构化数据。通过掩码技术和多模态编码器,学习统一的多模态表示,擅长处理缺失模态数据,具备强泛化能力。然而,大规模预训练需大量资源,性能依赖数据质量,且解释性和可控性尚待改善。[论文链接](https://arxiv.org/pdf/2305.16556)
70 1
|
7月前
|
存储 人工智能 自然语言处理
【AI大模型应用开发】【RAG评估】2. 实战:LangChain x RAGAs x LangSmith联合评估RAG应用,兼看如何借助LangSmith有效学习LangChain
【AI大模型应用开发】【RAG评估】2. 实战:LangChain x RAGAs x LangSmith联合评估RAG应用,兼看如何借助LangSmith有效学习LangChain
993 0
|
7月前
|
存储 人工智能 JSON
【AI大模型应用开发】【RAG优化 / 前沿】0. 综述:盘点当前传统RAG流程中存在的问题及优化方法、研究前沿
【AI大模型应用开发】【RAG优化 / 前沿】0. 综述:盘点当前传统RAG流程中存在的问题及优化方法、研究前沿
464 0
|
7月前
|
人工智能 自然语言处理 NoSQL
悦数图数据库推出 AI 知识图谱构建器及图语言生成助手
随着人工智能应用在全球范围的普及和风靡,大语言模型技术(Large Language Model,简称 LLM)受到了广泛的关注和应用。而图数据库作为一种处理复杂数据结构的工具,能够为企业构建行业大语言模型提供强大的支持,包括丰富亿万级别的上下文信息,提升模型的应答精度,从而实现企业级的应用效果。同时,Graph+LLM 可以助力快速构建知识图谱,帮助企业更深入地理解和挖掘数据价值。
|
7月前
|
人工智能 自然语言处理 数据可视化
书生·浦语 2.0 开源!回归语言建模本质,综合性能领先开源社区,魔搭最佳实践来啦!
1月17日,上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书生·浦语2.0(InternLM2),模型开源可商用,魔搭社区作为首发平台,支持大家第一时间下载体验。
|
7月前
|
人工智能 并行计算 前端开发
极智AI | 谈谈推理引擎的推理组织流程
本文主要讨论一下推理引擎的推理组织流程,包括 英伟达 tensorrt、华为 CANN 以及 TVM。
222 0

热门文章

最新文章

下一篇
无影云桌面