如何搭建一个智能对话机器人?

简介: 如何搭建一个智能对话机器人?

2345_image_file_copy_2.jpg
2345_image_file_copy_3.jpg

首先我们来看智能对话机器人体系结构的构成,从与机器交互的完整流程角度来给大家做一个系统性的概述。

当人通过声音信号把自己表达的内容以声音的方式来传递给机器的时候,机器人接收声音的过程涉及到了语音识别技术。

这个语音识别在这个里面其实是一个综合体,它既包括语音采集,也包括把声音信号转成文字信号。

其次,当我们把声音信号转换成文本信号后,要做的一件事情就是语义理解,因为你要让机器理解你,那么首先要让机器知道你说的是什么内容。机器在理解你说内容的过程中,依赖于中文分词、词性标注、实体意图识别、语义分析。那这部分内容就涉及到了语义理解技术。

在机器理解人所说的内容后,会把对应的内容交给对话管理平台来进行处理。那么对话管理平台涉及到的内容是什么呢?包括对话状态的跟踪同时也包括对话的策略模型。

对话状态跟踪负责两件事情,第一是负责对对话状态进行跟踪,第二是对“对话活动”进行决策。当完成了对话状态跟踪和对话活动的决策后,会生成对应的答案。那么这种答案往往很多时候有两种情况,一种情况是多答案的情况,另外一个是对多处理模式的选择。

当我在表达一句话的时候,如果机器在备选答案里面找到了多个回答,即出现了第一种情况,多答案情况。这个时候就会涉及到决策模型,这个决策模型就是智能对话的策略模块。这个时候策略模块包括通用决策模型和领域决策模型。

通用决策模型可以理解为适合所有领域的决策分析模块,领域模型对应特定领域,比如教育、医疗,房产。这一部分是对话管理的组件。

以上是可以在备选答案里面找到答案的情况,那么当机器人在备选答案里找不到答案时,会如何处理呢?

这里涉及到两个问题,第一个是优先级,第二个是补位。

优先级指的是当机器对用户话术进行语义理解之后,如果找到答案的过程存在多种方案,应考虑优先选取的策略是什么。另外一个是当在预置的语料库中找不到答案时,可选的补位的方式是什么。在这里,通常意义上来讲会选择知识图谱,搜索引擎和百科类问答等平台作为补位的一种方式。

在对话管理的过程中,寻找到了对应的内容,接下来要涉及到话术合成问题,这个时候对应的是语音合成,指的是我们需要把对应的内容重新合成为声音信号,反馈给最初发出指令的人。

所以系统性的来讲,整个智能对话机器人的体系结构包括智能语音部分、语义理解、对话管理和辅助语料库这四大部分内容。

智能语音部分
针对智能语音部分,主要包括两部分内容,语音识别以及语音合成。

在这里,语音识别负责的一个职责就是把声音信号翻译成文字。“把声音信号翻译成文字”既是语音识别的定义,同时也是语音识别的职能。语音识别往往会涉及到孤立词识别、连续词语识别、大词表连续语音识别。语音合成往往会涉及到的内容包括语言处理、声学处理、韵律处理以及情感处理。

在语音合成中,我们目前遇到的比较明显的问题是语音合成很难达到真正拟人化的一个水平,机器发出的声音比较机械化,让人听起来很奇怪。机器发出声音较为机械化,主要问题在于对情感、语速、韵律的控制较难。

自然语言处理部分
自然语言处理部分, 涵盖两大块内容,一部分是语义理解,另一部分是语言生成。

语义理解涉及到的内容包括中文分词、序列标注、实体识别、意图识别等内容。正是基于以上内容,我们才可以把人的一句话翻译成机器可以理解的一部分内容。

针对语言生成,这部分面临的主要问题是预定义的模板的建设,包括提前准备好的问答语料库、知识图谱。拿知识图谱来说,它的构建需要非常强大的资本和人力的支撑,才能够构建起一个完整的知识图谱体系。到现在为止还没有一套这样的知识图谱体系。再有是针对问答语料库,也需要很大的人力资源才能做成。

通常意义上,大家都在讲的深度学习,包括seq2seq这种生成模式的模型,它产生的效果其实一直都不怎么理想,所以在解决语言生成方面遇到的问题时,预定义的一对一模板是第一选择,提前构建好语料库是第二选择,基于知识图谱的问答体系是第三选择,基于深度学习的生成模式,是最后一种选择。

以上是智能对话机器人中与自然语言处理相关的组件问题。

对话管理
对话管理包括两部分内容,一是对话状态模型构建过程,另一个是对话策略模型构建过程。

对话状态模型可分为三类:

第一类是对话表示模型,是指上一句话和下一句话之间,以及连续的多句话之间如何通过数学模型进行表达出来;

第二类是对话推理模型,是指基于对话的输入,如何最终生成对话输出的模型;

第三类是对话学习模型,重点在于如何提升对话的能力和水平。

关于对话的策略模型,它涉及到通用对话策略以及特定领域的对话策略,包含以下两部分内容,第一部分内容是用户输入话术及语料库选择的策略;第二部分是当对话产生多个答案时,选择优选答案的策略。这是对话的策略模型。

语料库资源
通常意义上讲,当我们讲智能对话机器人的时候,它所涉及到的语料库资源包括预制模板,针对一个完整的问句,会有完整的与之呼应的答案,这个称为预制模板,这部分应用到客服系统中,比如说查询电话号码。

另外一个就是问答语料,就是聊天式机器人AIML会有预制问题和对应答案。这是问答语料库。

再有一部分是涉及到知识图谱,这个里面涉及到的内容包括用户输入一句话,通过解析里面的实体与实体对象,然后通过推理的模式在知识图谱里面去寻找与之匹配符的内容。

然后第四个语料库资源就在于生成模型,通常意义上来讲seq2seq这种生成方式,当然这个方式依赖于大量的语料库,而语料资源的匮乏会导致训练模型本身存在很大质量问题,效果很差。

在以上四种情况下,如果能够产生问题答案,就会让机器来回答问题。但是,当我们没有办法基于以上四种场景找到具体答案时,我们可以选择使用百科问答以及搜索引擎,这个对应的就是一个补位策略。

以上是智能对话机器人的一个简要体系结构介绍。

既然大模型现在这么火热,各行各业都在开发搭建属于自己企业的私有化大模型,那么势必会需要大量大模型人才,同时也会带来大批量的岗位?“俗话说站在风口,猪都能飞起来”可以说大模型这对于我们来说就是一个机会,一个可以改变自身的机会,就看我们能不能抓住了。

那么,我们该如何学习大模型?
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一、大模型全套的学习路线
学习大型人工智能模型,如GPT-3、BERT或任何其他先进的神经网络模型,需要系统的方法和持续的努力。既然要系统的学习大模型,那么学习路线是必不可少的,下面的这份路线能帮助你快速梳理知识,形成自己的体系。

L1级别:AI大模型时代的华丽登场

L2级别:AI大模型API应用开发工程

L3级别:大模型应用架构进阶实践

L4级别:大模型微调与私有化部署

一般掌握到第四个级别,市场上大多数岗位都是可以胜任,但要还不是天花板,天花板级别要求更加严格,对于算法和实战是非常苛刻的。建议普通人掌握到L4级别即可

目录
相关文章
|
11天前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
15天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
6天前
|
并行计算 前端开发 物联网
全网首发!真·从0到1!万字长文带你入门Qwen2.5-Coder——介绍、体验、本地部署及简单微调
2024年11月12日,阿里云通义大模型团队正式开源通义千问代码模型全系列,包括6款Qwen2.5-Coder模型,每个规模包含Base和Instruct两个版本。其中32B尺寸的旗舰代码模型在多项基准评测中取得开源最佳成绩,成为全球最强开源代码模型,多项关键能力超越GPT-4o。Qwen2.5-Coder具备强大、多样和实用等优点,通过持续训练,结合源代码、文本代码混合数据及合成数据,显著提升了代码生成、推理和修复等核心任务的性能。此外,该模型还支持多种编程语言,并在人类偏好对齐方面表现出色。本文为周周的奇妙编程原创,阿里云社区首发,未经同意不得转载。
|
11天前
|
人工智能 运维 双11
2024阿里云双十一云资源购买指南(纯客观,无广)
2024年双十一,阿里云推出多项重磅优惠,特别针对新迁入云的企业和初创公司提供丰厚补贴。其中,36元一年的轻量应用服务器、1.95元/小时的16核60GB A10卡以及1元购域名等产品尤为值得关注。这些产品不仅价格亲民,还提供了丰富的功能和服务,非常适合个人开发者、学生及中小企业快速上手和部署应用。
|
7天前
|
人工智能 自然语言处理 前端开发
用通义灵码,从 0 开始打造一个完整APP,无需编程经验就可以完成
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。本教程完全免费,而且为大家准备了 100 个降噪蓝牙耳机,送给前 100 个完成的粉丝。获奖的方式非常简单,只要你跟着教程完成第一课的内容就能获得。
|
1天前
|
云安全 存储 弹性计算
|
22天前
|
自然语言处理 数据可视化 前端开发
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
合合信息的智能文档处理“百宝箱”涵盖文档解析、向量化模型、测评工具等,解决了复杂文档解析、大模型问答幻觉、文档解析效果评估、知识库搭建、多语言文档翻译等问题。通过可视化解析工具 TextIn ParseX、向量化模型 acge-embedding 和文档解析测评工具 markdown_tester,百宝箱提升了文档处理的效率和精确度,适用于多种文档格式和语言环境,助力企业实现高效的信息管理和业务支持。
3966 5
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
|
11天前
|
算法 安全 网络安全
阿里云SSL证书双11精选,WoSign SSL国产证书优惠
2024阿里云11.11金秋云创季活动火热进行中,活动月期间(2024年11月01日至11月30日)通过折扣、叠加优惠券等多种方式,阿里云WoSign SSL证书实现优惠价格新低,DV SSL证书220元/年起,助力中小企业轻松实现HTTPS加密,保障数据传输安全。
534 3
阿里云SSL证书双11精选,WoSign SSL国产证书优惠
|
10天前
|
数据采集 人工智能 API
Qwen2.5-Coder深夜开源炸场,Prompt编程的时代来了!
通义千问团队开源「强大」、「多样」、「实用」的 Qwen2.5-Coder 全系列,致力于持续推动 Open Code LLMs 的发展。
|
18天前
|
安全 数据建模 网络安全
2024阿里云双11,WoSign SSL证书优惠券使用攻略
2024阿里云“11.11金秋云创季”活动主会场,阿里云用户通过完成个人或企业实名认证,可以领取不同额度的满减优惠券,叠加折扣优惠。用户购买WoSign SSL证书,如何叠加才能更加优惠呢?
999 3