前端大模型入门（四）：不同文本分割器对比和效果展示-教你如何根据场景选择合适的长文本分割方式-阿里云开发者社区

前端大模型入门（四）：不同文本分割器对比和效果展示-教你如何根据场景选择合适的长文本分割方式

2024-10-22 552 发布于广东

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

实时计算 Flink 版，5000CU*H 3个月

简介： 本文详细介绍了五种Langchain文本分割器：`CharacterTextSplitter`、`RecursiveCharacterTextSplitter`、`TokenTextSplitter`、`MarkdownTextSplitter` 和 `LatexTextSplitter`，从原理、优缺点及适用场景等方面进行了对比分析，旨在帮助开发者选择最适合当前需求的文本分割工具，提高大模型应用的处理效率和效果。

在前端开发大模型应用的时候，处理和分割文本是常见需求，毕竟现在的大模型输入输出都有限-嵌入等也是有token限制的，合理的文本分割能显著提高模型的表现。Langchain提供了多种文本分割方式，本文将对比五种文本分割器：CharacterTextSplitter、RecursiveCharacterTextSplitter、TokenTextSplitter、MarkdownTextSplitter和LatexTextSplitter，从原理、优缺点和适用场景等多个维度进行分析，帮助你选出最合适当前续期的文本分割器。

如果你没有阅读过之前的文章，推荐看看前端大模型入门：编码(Tokenizer)和嵌入(Embedding)解析 - llm的输入，以了解本文的作用和文本切割发生时机。

准备工作

准备好nodejs20+，yarn，安装依赖"@langchain/textsplitters" 或者 "langchain/text_splitter"; 具体的代码实现，可以参考本文绑定的资源，可以在nodejs或者web页面测试。

1. CharacterTextSplitter

原理

CharacterTextSplitter通过简单地按字符进行分割。用户可以指定分割的字符数，以便将文本切分为固定长度的片段。

分词示例

这个分割器按字符分割文本，每个chunk包含30个字符，相邻chunk之间有5个字符的重叠。中间可能被截断

CharacterTextSplitter 结果:
[
  Document {
    pageContent: '人工智能（AI）是计算机科学的一个分支，致力于创造智能机器。',  
  },
  Document {
    pageContent: '智能机器。它已经在多个领域取得了重大突破，如自然语言处理、计',
  },
  Document {
    pageContent: '言处理、计算机视觉和机器学习等。\n\n近年来，深度学习技术的发',
  }
]

        
          
        
        
        
          
          AI 代码解读

优缺点

优点：
- 实现简单，易于理解和使用。
- 适用于需要快速分割的简单文本场景。
缺点：
- 无法识别文本中的语义结构，可能导致信息碎片化。
- 对于长句子或段落，可能会导致上下文缺失。

适用场景

适用于对文本分割要求不高、上下文关系不强的情况，比如简单的日志文件处理或非结构化数据的初步处理。

2. RecursiveCharacterTextSplitter

原理

RecursiveCharacterTextSplitter在CharacterTextSplitter的基础上，使用递归算法来分割文本。首先按指定字符数分割，然后尝试合并相邻的片段，直到满足某些条件。

分词示例

这个分割器递归地分割文本，使用了多个分隔符（换行符、句号、逗号等），每个chunk最多50个字符，相邻chunk之间有10个字符的重叠。

RecursiveCharacterTextSplitter 结果:
[
  Document {
   
    pageContent: '人工智能（AI）是计算机科学的一个分支，致力于创造智能机器',
  },
  Document {
   
    pageContent: '。它已经在多个领域取得了重大突破，如自然语言处理、计算机视觉和机器学习等。',
  },
  Document {
   
    pageContent: '近年来，深度学习技术的发展使得AI的能力大幅提升',
  },
  ...
  ]

        
          
        
        
        
          
          AI 代码解读

优缺点

优点：
- 保留了更多的上下文信息，尤其在长段落中。
- 更加灵活，适合处理多样化的文本。
缺点：
- 实现复杂，可能导致性能开销增加。
- 需要调节更多参数以适应不同文本类型。

适用场景

适用于对上下文保留有较高要求的场景，例如长篇文章或报告的处理。

3. TokenTextSplitter

原理

TokenTextSplitter基于词元（Token）进行分割，通常与语言模型的输入结构相结合。用户可以指定每个片段的最大Token数。

分词示例

这个分割器使用适合中文的cl100k_base编码，每个chunk包含20个token，相邻chunk之间有5个token的重叠。

[
  Document {
   
    pageContent: '人工智能（AI）是计算机科学的一个分支，�',
  },
  Document {
   
    pageContent: '一个分支，致力于创造智能机器。它已',
  },
  Document {
   
    pageContent: '器。它已经在多个领域取得了重大突',
  },
  Document {
   
    pageContent: '了重大突破，如自然语言处理、计算机视',
  },
  ...
  ]

        
          
        
        
        
          
          AI 代码解读

优缺点

优点：
- 适合大多数自然语言处理任务，可以有效保留上下文信息。
- 分割后的片段大小更符合模型的输入要求。
缺点：
- 对于非英语文本或特定领域文本，Token化效果可能不佳。
- 需要根据模型的Token限制进行调整。

适用场景

适合与大语言模型配合使用的场景，特别是需要高保真度的语义解析时。

4. MarkdownTextSplitter

原理

MarkdownTextSplitter针对Markdown格式文本进行优化，按照Markdown语法规则分割文本，确保分割后的片段在结构上仍然保持有效性。

分词示例

这个分割器专门用于处理Markdown格式的文本，保留了Markdown的结构。

MarkdownTextSplitter 结果:
[
  Document {
   
    pageContent: '# 人工智能简介',
  },
  Document {
   
    pageContent: '## 发展现状\n\n人工智能技术已经在多个领域取得突破：',
  },
  Document {
   
    pageContent: '- 自然语言处理\n- 计算机视觉\n- 机器学习',
  },
  Document {
   
    pageContent: '## 未来挑战\n\n1. 隐私保护\n2. 算法偏见\n3. 就业影响',
  },
  Document {
   
    pageContent: '需要在技术创新和伦理考量之间取得平衡。',
  }
]

        
          
        
        
        
          
          AI 代码解读

优缺点

优点：
- 保留了Markdown的语法结构，适合处理文档和笔记。
- 使得分割后的片段可以直接用于渲染。
缺点：
- 只适用于Markdown格式的文本，通用性较差。
- 对于复杂的Markdown文档，可能需要更复杂的逻辑来处理。

适用场景

适合处理Markdown文档的场景，比如技术文档、博客文章等。

5. LatexTextSplitter

原理

LatexTextSplitter专为处理LaTeX文档设计，遵循LaTeX的语法规则，确保数学公式和其他特性不会在分割时被破坏。

分词示例

LatexTextSplitter 被配置为每个 chunk 最多包含 100 个字符，相邻 chunk 之间有 20 个字符的重叠。

LatexTextSplitter 结果:
[
  Document {
   
    pageContent: '\\documentclass{article}\n  \\usepackage{CJKutf8}\n  \\usepackage{amsmath}',
  },
  Document {
   
    pageContent: '\\begin{document}\n  \\begin{CJK*}{UTF8}{gbsn}\n\n  \\section{人工智能简介}',
  },
  Document {
   
    pageContent: '\\section{人工智能简介}\n' +
      '\n' +
      '  人工智能（AI）是计算机科学的一个分支，致力于创造智能机器。\n' +
      '\n' +
      '  \\subsection{发展现状}\n' +
      '\n' +
      '  近年来，AI在多个领域取得了重大突破：',
  },

        
          
        
        
        
          
          AI 代码解读

优缺点

优点：
- 专门针对LaTeX，适合处理学术论文和技术文档。
- 能够有效保留复杂公式和排版。
缺点：
- 仅限于LaTeX格式，不具备通用性。
- 学习曲线较陡，对于不熟悉LaTeX的用户可能不友好。

适用场景

适合处理学术论文、技术报告和需要精确排版的文档。

最佳实践推荐

在实际应用中，选择合适的文本分割器应根据具体需求进行。例如：

对于简单文本，可以选择CharacterTextSplitter。
处理长文本或需要上下文信息的场合，推荐使用RecursiveCharacterTextSplitter或TokenTextSplitter。
中文文章推荐用 RecursiveCharacterTextSplitter
处理Markdown文档时，MarkdownTextSplitter是最佳选择，而对于LaTeX文档，则应使用LatexTextSplitter。

综合考虑文本类型、上下文需求和输出质量，合理选用文本分割方式，将有助于提高模型的处理能力和效果。

前端大模型入门（四）：不同文本分割器对比和效果展示-教你如何根据场景选择合适的长文本分割方式

准备工作

1. CharacterTextSplitter

原理

分词示例

优缺点

适用场景

2. RecursiveCharacterTextSplitter

原理

分词示例

优缺点

适用场景

3. TokenTextSplitter

原理

分词示例

优缺点

适用场景

4. MarkdownTextSplitter

原理

分词示例

优缺点

适用场景

5. LatexTextSplitter

原理

分词示例

优缺点

适用场景

最佳实践推荐

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

前端大模型入门（四）：不同文本分割器对比和效果展示-教你如何根据场景选择合适的长文本分割方式

准备工作

1. CharacterTextSplitter

原理

分词示例

优缺点

适用场景

2. RecursiveCharacterTextSplitter

原理

分词示例

优缺点

适用场景

3. TokenTextSplitter

原理

分词示例

优缺点

适用场景

4. MarkdownTextSplitter

原理

分词示例

优缺点

适用场景

5. LatexTextSplitter

原理

分词示例

优缺点

适用场景

最佳实践推荐

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书

相关实验场景