备案控制台

开发者社区人工智能文章正文

【HuggingFace】RoBERTa分词器RobertaTokenizer编码完整单词

2023-10-27 145

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在用RobertaTokenizer对单词进行分词的时候，发现单词acquire会被分词两个词根，但是RobertaForMaskedLM可以预测出来单词acquire。

问题描述

在用RobertaTokenizer对单词进行分词的时候，发现单词acquire会被分词两个词根，但是RobertaForMaskedLM可以预测出来单词acquire。

下面的代码可以看到把单词acquire分词成了'ac'和'quire'

from transformers import AutoTokenizer, RobertaForMaskedLM
import torch
tokenizer = AutoTokenizer.from_pretrained("./@_PLMs/roberta/roberta-base")
model = RobertaForMaskedLM.from_pretrained("./@_PLMs/roberta/roberta-base")
inputs = tokenizer("acquire", return_tensors="pt")
# {'input_ids': tensor([[    0,  1043, 17446,     2]]), 'attention_mask': tensor([[1, 1, 1, 1]])}
tokenizer.decode([1043])
# 'ac'
tokenizer.decode([17446])
# 'quire'

但是把它们放在一起解码的时候，就会合成一个单词：

tokenizer.decode([1043, 17446])
# 'acquire'

RobertaForMaskedLM在预测的时候也可以预测合成词：

观察上图，发现RobertaForMaskedLM给出的候选词前面全都有一个空格。所以如果我们想要编码一个完整的单词，需要在前面加个空格。

解决方案：在想要编码成完整的单词前面加个空格

在想要编码成完整的单词前面加个空格：

tokenizer(" acquire", return_tensors="pt")
# {'input_ids': tensor([[   0, 6860,    2]]), 'attention_mask': tensor([[1, 1, 1]])}

文章标签：

自然语言处理

征途黯然。

目录

相关文章

酷酷的群

|

机器学习/深度学习算法数据挖掘

CogLTX：应用BERT处理长文本

CogLTX：应用BERT处理长文本

酷酷的群

698 0 0

CogLTX：应用BERT处理长文本

北村南

|

自然语言处理 Python

【NLP Tool -- NLTK】NLTK进行英文情感分析、分词、分句、词性标注（附代码）

NLP自然语言处理之NLTK工具的使用，进行英文情感分析、分词、分句、词性标注（附代码）

北村南

681 0 0

LiBiGo

|

机器学习/深度学习自然语言处理数据可视化

【Pytorch神经网络实战案例】30 jieba库分词+训练中文词向量

在NLP中，一般都会将该任务中涉及的词训练成词向量，然后让每个词以词向量的形式型的输入，进行一些指定任务的训练。对于一个完整的训练任务，词向量的练大多发生在预训练环节。

LiBiGo

373 0 0

征途黯然。

|

机器学习/深度学习自然语言处理算法

【文本分类】基于改进TF-IDF特征的中文文本分类系统

【文本分类】基于改进TF-IDF特征的中文文本分类系统

征途黯然。

220 0 0

【文本分类】基于改进TF-IDF特征的中文文本分类系统

Deephub

|

机器学习/深度学习自然语言处理算法

GPT-3 vs Bert vs GloVe vs Word2vec 文本嵌入技术的性能对比测试

本文将GPT3与三种传统文本嵌入技术GloVe、Word2vec（Mikolov ，2013 年）和 BERT生成的嵌入进行性能的简单对比。

Deephub

606 0 0

GPT-3 vs Bert vs GloVe vs Word2vec 文本嵌入技术的性能对比测试

壹佰、

|

机器学习/深度学习自然语言处理 TensorFlow

【自然语言NLP】TensorFlow使用LSTM实现文本匹配任务

【自然语言NLP】TensorFlow使用LSTM实现文本匹配任务

壹佰、

335 0 0

【自然语言NLP】TensorFlow使用LSTM实现文本匹配任务

livingbody

|

自然语言处理 Python

基于ERNIE3.0的中文评论分类

基于ERNIE3.0的中文评论分类

livingbody

337 0 0

基于ERNIE3.0的中文评论分类

Deephub

|

机器学习/深度学习自然语言处理机器人

使用Pytorch和BERT进行多标签文本分类（上）

使用Pytorch和BERT进行多标签文本分类

Deephub

1101 0 0

使用Pytorch和BERT进行多标签文本分类（上）

Deephub

|

数据可视化 PyTorch 算法框架/工具

使用Pytorch和BERT进行多标签文本分类（下）

使用Pytorch和BERT进行多标签文本分类

Deephub

566 0 0

使用Pytorch和BERT进行多标签文本分类（下）

游客2rqjapjyzqs5e

|

机器学习/深度学习 JSON 达摩院

[使用ModelScope]只要5分钟，快速实现中文情感分类模型

本文介绍基于ModelScope，快速实现一个中文情感分类模型，只需不到5分钟，即可获得工业级优异表现的深度学习模型。

游客2rqjapjyzqs5e

45971 0 1

[使用ModelScope]只要5分钟，快速实现中文情感分类模型

热门文章

最新文章

阿里云容器服务Ingress设置原IP透传

SpringCloud Alibaba 2021版 nacos 配置中心教程

深度学习模型训练痛点及解决方法

阿里HotFix2.0升级详解——技术运营小二畅谈热修复领域那些事

在SQL Server中创建用户角色及授权(使用SQL语句)

SAE急速部署

雅虎将于3月30日关闭在线存储服务

[JavaScript]两个JavaScript在线调试器

正则表达式Regex

WM Define Strategy for Open Storage(十五.2)

Linux：当极客灵魂遇上网络热梗，一场跨界“笑”果非凡的盛宴！🎉

源社区的兴起：从“代码隐士”到Linux引领的“全球编程嘉年华”

人工智能（AI）和区块链（Blockchain）结合

Linux的诞生：Linus Torvalds的“惊天一敲”与Linux内核的“首秀”

Unix：Linux的“逗趣祖师爷”与它的不凡传承

Bagging应用场景

人工智能在医疗健康领域的革命性影响

网络防御的盾牌：揭秘网络安全漏洞与加密技术的博弈

深度学习在自然语言处理中的应用与挑战

Hive 插入大量数据

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

通义千问API入门教程