Rasa_NLU 源码分析

简介: 周末找了个 nlp 相关的工具,使用起来还不错,它就是 rasa_nlu, 具有实体识别,意图分类等功能,在加上一个简单的意图操作即可实现简单的 chatbot 功能,其类图如下所示:Rasa_NLU 类依赖图整体程序的入口是在 data_router.

周末找了个 nlp 相关的工具,使用起来还不错,它就是 rasa_nlu, 具有实体识别,意图分类等功能,在加上一个简单的意图操作即可实现简单的 chatbot 功能,其类图如下所示:

img_12156bcfb5bfbf1d0beba5684e414960.gif
Rasa_NLU 类依赖图

整体程序的入口是在 data_router.py 文件中的 DataRouter 类中,主要作用是将模型以 project 的方式进行管理,控制数据的流向问题

component_classes 中包含所有 Component 类

# Classes of all known components. If a new component should be added,
# its class name should be listed here.
component_classes = [
    SpacyNLP, MitieNLP,
    SpacyEntityExtractor, MitieEntityExtractor, DucklingExtractor,
    CRFEntityExtractor, DucklingHTTPExtractor,
    EntitySynonymMapper,
    SpacyFeaturizer, MitieFeaturizer, NGramFeaturizer, RegexFeaturizer,
    CountVectorsFeaturizer,
    MitieTokenizer, SpacyTokenizer, WhitespaceTokenizer, JiebaTokenizer,
    SklearnIntentClassifier, MitieIntentClassifier, KeywordIntentClassifier,
    EmbeddingIntentClassifier
]

# Mapping from a components name to its class to allow name based lookup.
registered_components = {c.name: c for c in component_classes}

registered_components 通过将 component_classes 中的类进行迭代并遍历出名称 Map

get_component_class 函数将 名称转为相应的 Component 类

主要架构相关的文件:

registry.py 文件 主要作用是将 pipeline 中的名称转为相应的 类,以及导入相应的模型文件
config.py 配置文件转换
model.py 文件 主要是模型相关内容
类名 说明
RasaNLUModelConfig 用来存放训练是使用的 pipeline 参数
Metadata 将 model 目录下 metadata.json 文件进行解析,并缓存
Trainer 训练所有相关的 Component 部分, 通过 train 函数进行训练, 通过 persist 函数进行持久化存储
Interpreter 通过训练好的 pipeline 模型解析文本字符串
Persistor 用于存储模型在云端 aws,gcs,azure等

在 persist 函数中,通过 self.pipeline 缓存内容,加上各种参数以及相应模型文件配置到 metadata.json 文件中

Interpreter 初始化流程

1. 加载 MetaData 数据内容
2. 根据 metadata.json 中 pipeline 构件Component 执行序列
3. 初始化 Interpreter 参数列表

Interpreter 解析文本过程

1. 将文本通过 Message 进行封装
2. 根据 Component 执行序列处理 Message 对象
3. 格式化输出 Message 对象内容

Message 中通过 Map 将所有计算结果存放在相应的地方最终格式化为输出结果

目录
相关文章
快递鸟/菜鸟电子面单接口的申请方法
电子面单是一种通过热敏纸打印输出纸质物流面单的物流服务。通过热感应显示文字,打印速度比传统针式打印速度提升4~6倍。电子面单以接口形式嵌入到自己的系统、网站上,可以在自己的平台操作打印电子面单。 一.电子面单接口类型及定义 快递电子面单接口:快递公司自己开发的电子面单服务, 商家使用必须快递公司上门做系统对接,使用一家快递则需要对接一次,比较麻烦,而且后期对接成本也较高。
|
前端开发 JavaScript 机器人
从零开始构建一个聊天机器人
【8月更文挑战第7天】构建聊天机器人是一个涉及多个步骤和技术的复杂过程。从前期准备到实际部署,每一步都需要仔细规划和执行。通过不断学习和实践,你可以逐步掌握构建聊天机器人的技巧和方法,为企业创造更大的价值。
|
监控 安全 Linux
在Linux中,如何进行网络资源的优先级管理?
在Linux中,如何进行网络资源的优先级管理?
|
存储 负载均衡 算法
使用LVS搭建集群实现负载均衡(一)
【8月更文挑战第8天】使用LVS搭建集群实现负载均衡
518 5
|
机器学习/深度学习 数据采集 人工智能
综述:使用语言模型进行可控的蛋白质设计(1)
综述:使用语言模型进行可控的蛋白质设计
677 0
|
SQL 运维 监控
面经:Druid实时数据分析系统设计与应用
【4月更文挑战第11天】本文探讨了Apache Druid在大数据实时分析中的关键作用,通过面试经验分享了Druid的系统架构、SQL查询、性能调优和与其他系统的对比。核心知识点包括Druid的分布式组件(Broker、Historical、MiddleManager、Coordinator)、数据处理流程、查询优化技术以及运维策略。理解这些概念和实践不仅能帮助求职者在面试中脱颖而出,也为实际工作中的高效数据处理打下坚实基础。
162 3
|
JavaScript 前端开发
vue 富文本编辑器 quill (含代码高亮、自定义字体、汉化、鼠标悬浮提示、组件封装等)
vue 富文本编辑器 quill (含代码高亮、自定义字体、汉化、鼠标悬浮提示、组件封装等)
1059 0
|
搜索推荐 C语言 C++
【排序算法】C语言实现归并排序,包括递归和迭代两个版本
【排序算法】C语言实现归并排序,包括递归和迭代两个版本
306 1
|
Java 程序员 Spring
SpringBoot 2.x整合Log4j2日志
SpringBoot 2.x整合Log4j2日志
2256 1
SpringBoot 2.x整合Log4j2日志
|
机器学习/深度学习 算法 数据挖掘
机器学习十大热门算法
机器学习是该行业的一个创新且重要的领域。我们为机器学习程序选择的算法类型,取决于我们想要实现的目标。