主流分词算法

2025-12-12 14

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 分词器将文本转为模型可处理的数字序列，主流算法有BPE、WordPiece和SentencePiece。BPE高效但中文支持弱；WordPiece用于BERT，适合英文；SentencePiece语言无关，支持中文。实战中需根据语言选择算法，并合理设置词汇表大小与特殊标记，解决OOV等问题。

🎯 概述
分词器(Tokenizers)是将文本转换为模型可理解的数字序列的关键组件，直接影响模型的性能和效率。
🏗️ 主流分词算法
1️⃣ BPE (Byte Pair Encoding)
原理：通过合并高频字符对来构建词汇表
优点：
● 有效处理未登录词
● 词汇量可控
● 多语言支持好
缺点：
● 可能产生不完整的词
● 对中文支持有限
实现示例：
from tokenizers import Tokenizer
from tokenizers.models import BPE

tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
2️⃣ WordPiece
原理：基于最大似然估计逐步合并词片段
特点：
● Google开发，用于BERT
● 在词前添加##标记子词
● 更适合英文
示例：
"playing" -> ["play", "##ing"]
3️⃣ SentencePiece
原理：将文本视为Unicode序列，不依赖空格分词
优势：
● 语言无关性
● 支持中文、日文等无空格语言
● 可逆转换
配置示例：
import sentencepiece as spm

spm.SentencePieceTrainer.train(
input='input.txt',
model_prefix='tokenizer',
vocab_size=32000,
model_type='bpe'
)
📊 算法对比
特性 BPE WordPiece SentencePiece
分词粒度子词子词子词/字符
语言支持英文为主英文为主多语言
空格处理依赖空格依赖空格不依赖空格
训练速度快中等慢
模型大小小中等大
🎯 实战应用
中文分词最佳实践

使用SentencePiece处理中文

import sentencepiece as spm

训练中文分词器

spm.SentencePieceTrainer.train(
input='chinese_corpus.txt',
model_prefix='chinese_sp',
vocab_size=32000,
character_coverage=0.995, # 覆盖99.5%字符
model_type='bpe'
)

使用分词器

sp = spm.SentencePieceProcessor(model_file='chinese_sp.model')
tokens = sp.encode('大模型面试宝典', out_type=str)
print(tokens) # ['大', '模型', '面试', '宝典']
英文分词示例

使用Hugging Face Tokenizers

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
tokens = tokenizer.tokenize("transformer architecture")
print(tokens) # ['transform', '##er', 'arch', '##itecture']
🔍 技术细节
词汇表构建流程

预处理：清洗文本，标准化
训练：基于语料库学习分词规则
验证：检查分词质量
优化：调整超参数
特殊标记处理
● [PAD]：填充标记
● [UNK]：未知词标记
● [CLS]：分类标记
● [SEP]：分隔标记
● [MASK]：掩码标记（用于MLM）
📚 深入阅读
● 注意力机制详解
● 主流大模型结构
🎯 面试重点
BPE和WordPiece的区别？
如何处理中文分词？
词汇表大小如何选择？
OOV(未登录词)问题如何解决？

主流分词算法

使用SentencePiece处理中文

训练中文分词器

使用分词器

使用Hugging Face Tokenizers

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

主流分词算法

使用SentencePiece处理中文

训练中文分词器

使用分词器

使用Hugging Face Tokenizers

热门文章

最新文章

相关电子书