LLM 如何处理词汇表之外的单词或标记?

简介: 【8月更文挑战第13天】

在大型语言模型(LLM)的自然语言处理(NLP)任务中,处理词汇表之外的单词或标记是一项重要而复杂的任务。尽管 LLM 在训练过程中使用了预定义的词汇表,但在实际应用中,它们往往需要应对未知或未见过的单词。本文将详细探讨 LLM 如何处理这些词汇表之外的单词或标记,包括其方法、技术和挑战。

一、词汇表及其重要性

在 LLM 中,词汇表(Vocabulary)是模型用于将文本数据转换为数值表示的核心组成部分。词汇表通常包括了训练数据中出现的所有单词或标记,并为每个单词或标记分配了一个唯一的索引。这些索引用于在模型中表示和处理文本。

词汇表的作用

  1. 数值表示:词汇表将离散的语言单位转换为模型可以处理的数值表示(通常是整数或向量)。
  2. 计算效率:词汇表的大小直接影响模型的计算效率和存储需求。一个较小的词汇表可以减少计算资源的消耗,但可能无法覆盖所有可能的单词或标记。

二、处理词汇表之外的单词或标记

尽管 LLM 的词汇表在训练时被精心设计和优化,但在实际使用中,模型往往会遇到词汇表之外的单词或标记。为了解决这一问题, LLM 采用了几种技术和方法:

  1. 子词分词(Subword Tokenization)

    • 概念:子词分词是一种将单词拆分为更小的单元(子词)的技术。它允许模型处理未见过的单词,通过组合已知的子词来表示新的单词。
    • 技术:常见的子词分词方法包括 Byte-Pair Encoding(BPE)、WordPiece 和 Unigram Language Model。这些方法将词汇表划分为常见的子词单位,从而能够处理词汇表之外的单词。
    • 示例:例如,“unhappiness” 可能被拆分为 “un” 和 “happiness” 两个子词,这样即使“unhappiness” 未在训练数据中出现,模型仍然可以通过其子词来处理。
  2. 字符级表示(Character-Level Representation)

    • 概念:字符级表示将文本数据拆分为字符,并使用字符级的模型处理这些字符序列。这种方法不依赖于预定义的词汇表,而是直接处理字符级别的信息。
    • 优点:字符级表示能够处理任何未知单词,因为它不依赖于固定的词汇表。它特别适用于处理拼写错误、创造性词汇和各种语言中的新词。
    • 挑战:尽管字符级表示具有很强的灵活性,但处理长文本时可能会遇到计算效率低下和上下文信息丢失的问题。
  3. 混合表示(Hybrid Representation)

    • 概念:混合表示结合了词汇级、子词级和字符级表示的优势。在这种方法中,模型可以使用词汇表、子词分词和字符级表示来处理输入文本。
    • 示例:BERT 和 GPT 系列模型使用了 WordPiece 和 Byte-Pair Encoding 技术,将词汇表与子词分词相结合。这使得模型能够处理常见单词和未见过的单词,同时减少了词汇表的大小。

三、处理词汇表之外单词的具体方法

  1. 回退机制(Fallback Mechanism)

    • 概念:当模型遇到词汇表之外的单词时,回退机制可以将这些单词拆分为子词或字符级表示,从而继续处理。
    • 示例:在使用 BPE 时,如果模型遇到未见过的单词,它会将其拆分为已知的子词。类似地,字符级模型可以直接处理未知单词的字符序列。
  2. 上下文扩展(Contextual Extension)

    • 概念:上下文扩展通过利用上下文信息来推断词汇表之外单词的含义。模型可以根据上下文中的其他已知单词来推测未知单词的含义。
    • 示例:在机器翻译任务中,模型可以根据上下文信息将“neurodegenerative” 翻译为“神经退行性”,尽管“neurodegenerative” 可能未出现在训练数据中。
  3. 生成模型(Generative Models)

    • 概念:生成模型通过生成与上下文一致的文本来处理词汇表之外的单词。模型可以根据已知的语言模式和语法规则生成合适的文本。
    • 示例:GPT-3 使用生成模型来处理词汇表之外的单词,通过生成与上下文一致的文本,模型能够处理各种未知或新颖的单词。

四、处理词汇表之外单词的挑战

  1. 上下文信息丢失

    • 问题:处理词汇表之外的单词时,可能会丢失上下文信息,影响模型的理解和生成能力。
    • 解决方案:通过使用更精细的分词技术和上下文扩展方法,模型可以更好地捕捉上下文信息。
  2. 计算资源消耗

    • 问题:处理词汇表之外的单词可能需要额外的计算资源,特别是在使用字符级表示时。
    • 解决方案:优化模型的计算效率和资源使用,例如使用更高效的子词分词方法和混合表示技术。
  3. 语言多样性

    • 问题:不同语言和领域中的词汇多样性可能导致模型难以处理所有未知单词。
    • 解决方案:使用跨语言和跨领域的预训练技术,增强模型对不同语言和领域中未知单词的处理能力。

五、结论

在 LLM 中处理词汇表之外的单词或标记是一个复杂且关键的任务。通过采用子词分词、字符级表示和混合表示等技术,模型能够有效地处理未见过的单词,保持高效的计算和准确的文本理解。尽管面临上下文信息丢失、计算资源消耗和语言多样性等挑战,但通过优化处理方法和技术,模型可以在实际应用中更好地应对各种未知单词,提高其性能和可靠性。了解和应用这些技术,对于推动 NLP 领域的发展和提高模型的实际应用效果具有重要意义。

目录
相关文章
|
8月前
|
机器学习/深度学习 搜索推荐 异构计算
LLM模型添加自定义Token代码示例:为Llama 3.2模型添加思考与回答标记
本文将介绍如何为大型语言模型(LLM)添加自定义token并进行训练,使模型能够有效地利用这些新增token。以Llama 3.2模型为基础,实现了类似DeepSeek R1中think和answer标记功能的扩展方法,通过监督微调使模型学习使用这些标记进行推理过程与答案输出的区分
452 0
LLM模型添加自定义Token代码示例:为Llama 3.2模型添加思考与回答标记
|
Serverless 测试技术
LongWriter: 基于LLM代理可以将输出窗口大小扩展到10,000+个单词
本文介绍了一种名为AgentWrite的方法,旨在克服大型语言模型(LLM)生成长文本时的局限。通过将任务分解为子任务,AgentWrite使LLM能生成超过20,000词的连贯文本。研究揭示了监督微调数据中的输出长度限制是导致LLM生成长度受限的主要原因。通过构建LongWriter-6k数据集并对模型进行再训练,成功扩展了输出长度至10,000词以上,且未牺牲输出质量。
236 4
LongWriter: 基于LLM代理可以将输出窗口大小扩展到10,000+个单词
|
6月前
|
机器学习/深度学习 存储 缓存
加速LLM大模型推理,KV缓存技术详解与PyTorch实现
大型语言模型(LLM)的推理效率是AI领域的重要挑战。本文聚焦KV缓存技术,通过存储复用注意力机制中的Key和Value张量,减少冗余计算,显著提升推理效率。文章从理论到实践,详细解析KV缓存原理、实现与性能优势,并提供PyTorch代码示例。实验表明,该技术在长序列生成中可将推理时间降低近60%,为大模型优化提供了有效方案。
971 15
加速LLM大模型推理,KV缓存技术详解与PyTorch实现
|
3月前
|
弹性计算 关系型数据库 API
自建Dify平台与PAI EAS LLM大模型
本文介绍了如何使用阿里云计算巢(ECS)一键部署Dify,并在PAI EAS上搭建LLM、Embedding及重排序模型,实现知识库支持的RAG应用。内容涵盖Dify初始化、PAI模型部署、API配置及RAG知识检索设置。
自建Dify平台与PAI EAS LLM大模型
|
26天前
|
存储 缓存 负载均衡
LLM推理成本直降60%:PD分离在大模型商业化中的关键价值
在LLM推理中,Prefill(计算密集)与Decode(访存密集)阶段特性不同,分离计算可提升资源利用率。本文详解vLLM框架中的PD分离实现及局限,并分析Dynamo、Mooncake、SGLang等主流方案,探讨KV缓存、传输机制与调度策略,助力LLM推理优化。建议点赞收藏,便于后续查阅。
455 1
|
3月前
|
机器学习/深度学习 人工智能 编解码
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
|
3月前
|
人工智能 自然语言处理 数据可视化
AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统
AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统
 AI-Compass LLM评估框架:CLiB中文大模型榜单、OpenCompass司南、RAGas、微软Presidio等构建多维度全覆盖评估生态系统
|
4月前
|
存储 分布式计算 API
基于PAI-FeatureStore的LLM embedding功能,结合通义千问大模型,可通过以下链路实现对物品标题、内容字段的离线和在线特征管理。
本文介绍了基于PAI-FeatureStore和通义千问大模型的LLM embedding功能,实现物品标题、内容字段的离线与在线特征管理。核心内容包括:1) 离线特征生产(MaxCompute批处理),通过API生成Embedding并存储;2) 在线特征同步,实时接入数据并更新Embedding至在线存储;3) Python SDK代码示例解析;4) 关键步骤说明,如客户端初始化、参数配置等;5) 最佳实践,涵盖性能优化、数据一致性及异常处理;6) 应用场景示例,如推荐系统和搜索排序。该方案支持端到端文本特征管理,满足多种语义理解需求。
132 1
|
8月前
|
机器学习/深度学习 存储 人工智能
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
5380 80
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
|
4月前
|
机器学习/深度学习 自然语言处理 算法
万字长文详解|DLRover LLM Agent:大模型驱动的高效集群资源调优
本文介绍了DLRover LLM Agent,展示了基于 LLM 上下文学习能力的优化算法设计理念以及在DLRover 资源调优上的应用方法和效果。

热门文章

最新文章