「AIGC」Python实现tokens算法

2024-07-08 27

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

简介： 使用Python的`transformers`库，通过`AutoTokenizer`初始化BERT tokenizer，对文本进行分词统计，减少API调用。示例展示从开始到结束的时间，包括文本转换为tokens的数量和过程耗时。

本文主要介绍通过python实现tokens统计，避免重复调用openai等官方api，开源节流。

一、设计思路

初始化tokenizer
使用tokenizer将文本转换为tokens
计算token的数量

二、业务场景

2.1 首次加载依赖

在这里插入图片描述

2.2 执行业务逻辑

在这里插入图片描述

三、核心代码

from transformers import AutoTokenizer
import time
from datetime import datetime

# 获取开始时间，并格式化为"年-月-日 时：分：秒"
start_time = time.time()
start_datetime = datetime.fromtimestamp(start_time).strftime('%Y-%m-%d %H:%M:%S')

# 初始化tokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')

# 示例文本
text = "ChatGPT is great!"

# 使用tokenizer将文本转换为tokens
tokens = tokenizer.tokenize(text)

# 计算token的数量
num_tokens = len(tokens)

# 获取结束时间，并格式化为"年-月-日 时：分：秒"
end_time = time.time()
end_datetime = datetime.fromtimestamp(end_time).strftime('%Y-%m-%d %H:%M:%S')

# 打印结果和格式化的时间戳
print(f"文本中的token数量为: {num_tokens}")
print(f"Token分解数组: {tokens}")
print(f"开始时间: {start_datetime}")
print(f"结束时间: {end_datetime}")
print(f"脚本运行时间: {end_time - start_time} 秒")