XGrammar:陈天奇团队推出的LLM结构化生成引擎

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: XGrammar是由陈天奇团队推出的开源软件库,专为大型语言模型(LLM)设计,提供高效、灵活且可移植的结构化数据生成能力。基于上下文无关语法(CFG),XGrammar支持递归组合以表示复杂结构,适用于生成JSON、SQL等格式数据,并通过字节级下推自动机优化解释CFG,实现百倍加速。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

主题:XGrammar是一个为LLM提供结构化生成能力的开源库。
功能:支持上下文无关语法,适用于生成JSON、SQL等格式数据。
优化:通过字节级下推自动机实现百倍加速,几乎无额外开销。

正文(附运行示例)

XGrammar 是什么

公众号: 蚝油菜花 - xgrammar

XGrammar是由陈天奇团队推出的开源软件库,专为大型语言模型(LLM)设计,提供高效、灵活且可移植的结构化数据生成能力。它基于上下文无关语法(CFG)定义结构,支持递归组合以表示复杂结构,适合生成JSON、SQL等格式数据。

XGrammar通过字节级下推自动机优化解释CFG,减少每token延迟,实现百倍加速,几乎无额外开销。此外,XGrammar集成多种系统优化,如自适应token掩码缓存、上下文扩展等,提高掩码生成速度并减少预处理时间。XGrammar的C++后端设计易于集成,并支持在LLM推理中实现零开销的结构化生成。

XGrammar 的主要功能

  • 高效结构化生成:支持上下文无关语法(CFG),支持定义和生成遵循特定格式(如JSON、SQL)的结构化数据。
  • 灵活性:基于CFG的递归规则,能灵活地表示复杂的结构,适应多样的结构化数据需求。
  • 零开销集成:XGrammar与LLM推理引擎共同设计,能在LLM推理中实现零开销的结构化生成。
  • 快速执行:基于系统优化,显著提高结构化生成的执行速度,相比于SOTA方法,每token延迟减少多达100倍。
  • 跨平台部署:具有最小且可移植的C++后端,能轻松集成到多个环境和框架中。
  • 自适应token掩码缓存:在预处理阶段生成,加快运行时的掩码生成。

XGrammar 的技术原理

  • 字节级下推自动机(PDA):用字节级PDA解释CFG,支持每个字符边缘包含一个或多个字节,处理不规则的token边界,支持包含sub-UTF8字符的token。
  • 预处理和运行时优化:在预处理阶段,生成自适应token掩码缓存,基于预先计算与上下文无关的token加快运行时的掩码生成。
  • 上下文无关与相关token的区分:区分上下文无关token和上下文相关token,预先计算PDA中每个位置的上下文无关token的有效性,并将它们存储在自适应token掩码缓存中。
  • 语法编译:基于语法编译过程,预先计算掩码中相当一部分token,加快掩码生成速度。
  • 算法和系统优化:包括上下文扩展、持续性执行堆栈、下推自动机结构优化等,进一步提高掩码生成速度并减少预处理时间。
  • 掩码生成与LLM推理重叠:将CPU上的掩码生成过程与GPU上的LLM推理过程并行化,消除约束解码的开销。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
30天前
|
缓存 算法 关系型数据库
MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理
麻省理工学院韩松团队提出DuoAttention框架,旨在提高大型语言模型(LLM)处理长上下文的效率。该框架通过区分检索头和流式头,仅对检索头应用全键值缓存,减少内存消耗和计算时间,同时保持模型长上下文处理能力。实验结果显示,DuoAttention在多种模型架构上显著提升了推理效率,为LLM的实际应用提供了新可能。
56 14
|
3月前
|
自然语言处理
杨笛一团队最新百页论文:首次统计学上证明,LLM生成的idea新颖性优于人类
【10月更文挑战第12天】斯坦福大学杨笛一团队发布百页论文,首次通过统计学方法证明大型语言模型(LLMs)在生成研究想法的新颖性上优于人类专家。研究招募100多名NLP专家进行盲评,结果显示LLM在新颖性方面显著胜出,但在可行性上稍逊。研究揭示了LLM在科研创新中的潜力与局限。
62 2
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
企业内训|LLM大模型技术在金融领域的应用及实践-某商业银行分行IT团队
本企业培训是TsingtaoAI技术团队专们为某商业银行分行IT团队开发的LLM大模型技术课程。课程深入分析大模型在金融行业中的发展趋势、底层技术及应用场景,重点提升学员在大模型应用中的实际操作能力与业务场景适应力。通过对全球商用 LLM 产品及国内外技术生态的深度对比,学员将了解大模型在不同企业中的发展路径,掌握如 GPT 系列、Claude 系列、文心一言等大模型的前沿技术。针对金融行业的业务需求,学员将学会如何结合多模态技术改进用户体验、数据分析等服务流程,并掌握大模型训练与工具链的实操技术,尤其是模型的微调、迁移学习与压缩技术。
97 2
|
5月前
|
机器学习/深度学习 自然语言处理 算法
ICML 2024 Oral:DPO是否比PPO更适合LLM,清华吴翼团队最新揭秘
【8月更文挑战第13天】在自然语言处理领域,大型语言模型的对齐日益重要。直接偏好优化(DPO)作为无需奖励模型的新方法,虽在学术界受关注,但在实践中,如ChatGPT等应用仍青睐近端策略优化(PPO)。清华大学吴翼团队通过理论分析与实证研究发现DPO潜在局限性,并揭示PPO在LLM微调中取得优异性能的关键因素,如优势归一化、大批量大小及指数移动平均更新等。实验表明,PPO在多个任务中超越DPO,特别是在代码生成任务中取得领先成果。然而,这些发现需更多研究验证。论文详情见: https://arxiv.org/pdf/2404.10719
182 60
|
4月前
|
测试技术
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架"AgentInstruct"的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
89 2
|
6月前
|
并行计算 PyTorch 算法框架/工具
LLM推理引擎怎么选?TensorRT vs vLLM vs LMDeploy vs MLC-LLM
有很多个框架和包可以优化LLM推理和服务,所以在本文中我将整理一些常用的推理引擎并进行比较。
634 2
|
6月前
|
编解码 文字识别 计算机视觉
寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLM
【7月更文挑战第10天】【寒武纪1号】- 谢赛宁、Yann LeCun团队发布开源多模态LLM,含8B至34B规模模型,创新空间视觉聚合器(SVA)提升视觉-语言集成,建立新基准CV-Bench及大规模训练数据集Cambrian-7M。在多模态任务中表现出色,尤其在高分辨率图像处理上,但面临高分辨率信息处理和部分视觉任务评估的局限。[链接](https://arxiv.org/pdf/2406.16860)
138 1
|
8月前
|
机器学习/深度学习 人工智能 JSON
Prompt进阶系列1:LangGPT(从编程语言反思LLM的结构化可复用提示设计框架)
Prompt进阶系列1:LangGPT(从编程语言反思LLM的结构化可复用提示设计框架)
Prompt进阶系列1:LangGPT(从编程语言反思LLM的结构化可复用提示设计框架)
|
8月前
|
人工智能 弹性计算 并行计算
【Hello AI】推理引擎DeepGPU-LLM-提供免费的高性能、低延迟推理服务
DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)推理引擎,在处理大语言模型任务中,该推理引擎可以为您提供高性能的大模型推理服务。
|
机器学习/深度学习 缓存 自然语言处理
OpenPPL-LLM | OpenPPL之大语言模型推理引擎来啦
OpenPPL 一直致力于提供高性能多后端深度学习推理部署服务。面对推理部署大语言模型的新需求,我们结合原有 OpenPPL 在深度学习推理的技术和业务实践,正式推出一款专为大语言模型设计的自研高性能推理引擎 —— OpenPPL-LLM。
1139 0

热门文章

最新文章