开发者社区> 问答> 正文

如何使用自己开发的 Tokenizer 与 transformers 库兼容?

如何使用自己开发的 Tokenizer 与 transformers 库兼容?

展开
收起
萝卜丝丸子 2024-06-03 20:58:43 61 0
1 条回答
写回答
取消 提交回答
  • 为了使用自己开发的 Tokenizer 与 transformers 库兼容,需要实现 transformers 库中 PreTrainedTokenizer 接口的相应方法。这包括定义类变量 vocab_files_names,以及重写如 _convert_token_to_id、_convert_id_to_token、convert_ids_to_tokens 等方法。此外,由于 Tokenizer 可能涉及 C++ 实现的底层逻辑,还需要解决 C++ 对象的 pickle 问题,可以通过实现 getstatesetstate 方法来完成。

    2024-06-03 22:28:03
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载