LLM 如何处理词汇表之外的单词或标记?

简介: 【8月更文挑战第13天】

在大型语言模型(LLM)的自然语言处理(NLP)任务中,处理词汇表之外的单词或标记是一项重要而复杂的任务。尽管 LLM 在训练过程中使用了预定义的词汇表,但在实际应用中,它们往往需要应对未知或未见过的单词。本文将详细探讨 LLM 如何处理这些词汇表之外的单词或标记,包括其方法、技术和挑战。

一、词汇表及其重要性

在 LLM 中,词汇表(Vocabulary)是模型用于将文本数据转换为数值表示的核心组成部分。词汇表通常包括了训练数据中出现的所有单词或标记,并为每个单词或标记分配了一个唯一的索引。这些索引用于在模型中表示和处理文本。

词汇表的作用

  1. 数值表示:词汇表将离散的语言单位转换为模型可以处理的数值表示(通常是整数或向量)。
  2. 计算效率:词汇表的大小直接影响模型的计算效率和存储需求。一个较小的词汇表可以减少计算资源的消耗,但可能无法覆盖所有可能的单词或标记。

二、处理词汇表之外的单词或标记

尽管 LLM 的词汇表在训练时被精心设计和优化,但在实际使用中,模型往往会遇到词汇表之外的单词或标记。为了解决这一问题, LLM 采用了几种技术和方法:

  1. 子词分词(Subword Tokenization)

    • 概念:子词分词是一种将单词拆分为更小的单元(子词)的技术。它允许模型处理未见过的单词,通过组合已知的子词来表示新的单词。
    • 技术:常见的子词分词方法包括 Byte-Pair Encoding(BPE)、WordPiece 和 Unigram Language Model。这些方法将词汇表划分为常见的子词单位,从而能够处理词汇表之外的单词。
    • 示例:例如,“unhappiness” 可能被拆分为 “un” 和 “happiness” 两个子词,这样即使“unhappiness” 未在训练数据中出现,模型仍然可以通过其子词来处理。
  2. 字符级表示(Character-Level Representation)

    • 概念:字符级表示将文本数据拆分为字符,并使用字符级的模型处理这些字符序列。这种方法不依赖于预定义的词汇表,而是直接处理字符级别的信息。
    • 优点:字符级表示能够处理任何未知单词,因为它不依赖于固定的词汇表。它特别适用于处理拼写错误、创造性词汇和各种语言中的新词。
    • 挑战:尽管字符级表示具有很强的灵活性,但处理长文本时可能会遇到计算效率低下和上下文信息丢失的问题。
  3. 混合表示(Hybrid Representation)

    • 概念:混合表示结合了词汇级、子词级和字符级表示的优势。在这种方法中,模型可以使用词汇表、子词分词和字符级表示来处理输入文本。
    • 示例:BERT 和 GPT 系列模型使用了 WordPiece 和 Byte-Pair Encoding 技术,将词汇表与子词分词相结合。这使得模型能够处理常见单词和未见过的单词,同时减少了词汇表的大小。

三、处理词汇表之外单词的具体方法

  1. 回退机制(Fallback Mechanism)

    • 概念:当模型遇到词汇表之外的单词时,回退机制可以将这些单词拆分为子词或字符级表示,从而继续处理。
    • 示例:在使用 BPE 时,如果模型遇到未见过的单词,它会将其拆分为已知的子词。类似地,字符级模型可以直接处理未知单词的字符序列。
  2. 上下文扩展(Contextual Extension)

    • 概念:上下文扩展通过利用上下文信息来推断词汇表之外单词的含义。模型可以根据上下文中的其他已知单词来推测未知单词的含义。
    • 示例:在机器翻译任务中,模型可以根据上下文信息将“neurodegenerative” 翻译为“神经退行性”,尽管“neurodegenerative” 可能未出现在训练数据中。
  3. 生成模型(Generative Models)

    • 概念:生成模型通过生成与上下文一致的文本来处理词汇表之外的单词。模型可以根据已知的语言模式和语法规则生成合适的文本。
    • 示例:GPT-3 使用生成模型来处理词汇表之外的单词,通过生成与上下文一致的文本,模型能够处理各种未知或新颖的单词。

四、处理词汇表之外单词的挑战

  1. 上下文信息丢失

    • 问题:处理词汇表之外的单词时,可能会丢失上下文信息,影响模型的理解和生成能力。
    • 解决方案:通过使用更精细的分词技术和上下文扩展方法,模型可以更好地捕捉上下文信息。
  2. 计算资源消耗

    • 问题:处理词汇表之外的单词可能需要额外的计算资源,特别是在使用字符级表示时。
    • 解决方案:优化模型的计算效率和资源使用,例如使用更高效的子词分词方法和混合表示技术。
  3. 语言多样性

    • 问题:不同语言和领域中的词汇多样性可能导致模型难以处理所有未知单词。
    • 解决方案:使用跨语言和跨领域的预训练技术,增强模型对不同语言和领域中未知单词的处理能力。

五、结论

在 LLM 中处理词汇表之外的单词或标记是一个复杂且关键的任务。通过采用子词分词、字符级表示和混合表示等技术,模型能够有效地处理未见过的单词,保持高效的计算和准确的文本理解。尽管面临上下文信息丢失、计算资源消耗和语言多样性等挑战,但通过优化处理方法和技术,模型可以在实际应用中更好地应对各种未知单词,提高其性能和可靠性。了解和应用这些技术,对于推动 NLP 领域的发展和提高模型的实际应用效果具有重要意义。

目录
相关文章
|
1月前
|
Serverless 测试技术
LongWriter: 基于LLM代理可以将输出窗口大小扩展到10,000+个单词
本文介绍了一种名为AgentWrite的方法,旨在克服大型语言模型(LLM)生成长文本时的局限。通过将任务分解为子任务,AgentWrite使LLM能生成超过20,000词的连贯文本。研究揭示了监督微调数据中的输出长度限制是导致LLM生成长度受限的主要原因。通过构建LongWriter-6k数据集并对模型进行再训练,成功扩展了输出长度至10,000词以上,且未牺牲输出质量。
44 4
LongWriter: 基于LLM代理可以将输出窗口大小扩展到10,000+个单词
|
1月前
|
人工智能 自然语言处理
公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4
【8月更文挑战第3天】新论文提出“公理训练”法,使仅有6700万参数的语言模型掌握因果推理,性能媲美万亿级GPT-4。研究通过大量合成数据示例教授模型因果公理,实现有效推理并泛化至复杂图结构。尽管面临合成数据需求大及复杂关系处理限制,此法仍为语言模型的因果理解开辟新途径。[链接: https://arxiv.org/pdf/2407.07612]
41 1
|
1天前
|
存储 机器学习/深度学习 物联网
CGE:基于Causal LLM的Code Embedding模型
CodeFuse-CGE 项目在外滩大会展出,吸引众多技术与产品从业者的关注。“文搜代码”功能备受好评,模型表现令人期待。CodeFuse-CGE 采用大语言模型,通过 LoRA 微调提取文本与代码嵌入,实现在多个 NL2Code 基准测试中超越现有 SOTA 模型。现已开源 CGE-Large 与 CGE-Small 两种模型,欢迎访问 GitHub 页并支持本项目。[项目地址](https://github.com/codefuse-ai/CodeFuse-CGE)
16 1
|
6天前
|
安全 测试技术
世界模型又近了?MIT惊人研究:LLM已模拟现实世界,绝非随机鹦鹉!
【9月更文挑战第14天】麻省理工学院最近的研究揭示了大型语言模型(LLM)展现出的新潜能,其不仅能模仿真实环境,更在一定程度上理解并模拟程序在特定环境下的运作。通过使用Transformer模型并结合特定探测分类器,研究团队发现模型能逐步掌握程序的形式语义。为了验证这一发现,团队创建了一个独特的干预基准测试,进一步证实了模型的仿真能力,为世界模型的发展提供了新方向。尽管存在模型可能仅习得统计规律而非真正理解语义的争议,这项研究依然为理解复杂系统提供了新工具与视角。论文详情见:https://arxiv.org/abs/2305.11169。
13 1
|
2月前
|
人工智能 JSON 自然语言处理
国内大模型LLM选择以及主流大模型快速使用教程[GLM4/Qwen/Baichuan/Coze/Kimi]
【7月更文挑战第7天】国内大模型LLM选择以及主流大模型快速使用教程[GLM4/Qwen/Baichuan/Coze/Kimi]
167 10
国内大模型LLM选择以及主流大模型快速使用教程[GLM4/Qwen/Baichuan/Coze/Kimi]
|
2月前
|
自然语言处理 API 开发工具
初识langchain:LLM大模型+Langchain实战[qwen2.1、GLM-4]+Prompt工程
【7月更文挑战第6天】初识langchain:LLM大模型+Langchain实战[qwen2.1、GLM-4]+Prompt工程
初识langchain:LLM大模型+Langchain实战[qwen2.1、GLM-4]+Prompt工程
|
2月前
|
搜索推荐 人工智能
人工智能LLM问题之大模型特殊能力如何解决
人工智能LLM问题之大模型特殊能力如何解决
|
2月前
|
存储 人工智能 前端开发
基于LLM大模型Agent的适用范围和困境
基于LLM大模型Agent的适用范围和困境
|
2月前
|
搜索推荐 人工智能
人工智能LLM问题之大模型的涌现能力如何解决
人工智能LLM问题之大模型的涌现能力如何解决
|
2月前
|
机器学习/深度学习 存储 人工智能
ACL 2024|D2LLM:将Causal LLM改造成向量搜索模型的黑科技
D2LLM:一种针对语义搜索任务的新颖方法,它结合了大语言模型(LLM)的准确性与双编码器的高效性。实验表明,D2LLM在多项任务上的性能超越了五个领先基准模型,尤其是在自然语言推理任务中,相对于最佳基准模型的提升达到了6.45%
70 1

热门文章

最新文章