百炼融合 AnalyticDB , 10 分钟创建网站 AI 助手
摘要:本次分享的主题是百炼融合 AnalyticDB , 10 分钟创建网站 AI 助手,由阿里云产品经理陈茏久分享。主要分为五个部分:
1. 大模型带来的行业变革
2. 向量数据库驱动 RAG 服务化探索
3. 方案及优势、典型场景应用案例
4. 方案涉及产品的选型配置介绍
5. 最新发布
很高兴今天能有这个机会,陪同大家一起深入了解阿里云的百炼融合 NATDB 这款产品。接下来将探讨如何利用这款产品,在十分钟内帮助大家创建一个属于自己的网站 AI 助手。在本次课程开始之前还将简要介绍整个方案中涉及的技术背景以及行业现状,以便大家更好地理解和把握这款解决方案的相关背景。
今天的主题共包含五个章节。第一部分将带领大家一同探讨当前大模型所带来的行业变革,以及在数据与大模型结合的新情境下,对数据提出的新要求。第二部分将介绍阿里云NATDB在向量数据库驱动下的RAG服务化方面的相关探索与技术实践。第三部分将阐述 AnalyticDB 与阿里云百炼两款产品结合后,相较于整个行业所展现出的优势,并介绍当前行业内其他玩家的典型应用场景与案例。第四部分将详细说明本次陪跑班所涉及的相关产品选型,以及这些产品的能力特点。第五部分将为各位预告接下来在这个领域即将发布的内容,以及可能在哪些方面为大家带来全新的体验升级。
01. 大模型带来的行业变革
首先一起来看一下大模型为行业带来的变革。自前年 ChatGPT 发布以来,整个行业实际上一直在经历快速的迭代与升级。从早期关注的模型,比如 Meta 的模型,再到 GPT 4.0 ,以及多模态模型 V Journey 等,这些模型的演进方向一开始更多是期望通过单链路的模型来解决用户所有的相关问题。
自 2023 年 3 月 ChatGPT 发布 Rachel Plugin 之后,行业开始探索将企业自身知识与大模型结合,并提供了 RAG 这一解决方案框架。此时,企业更加关注如何快速地将自身能力与大模型进行整体协作。随着模型的演进, RAG 框架也在持续配合升级,包括 RAM Index、Streamlit 等工具的引入,这些都更好地帮助企业顺应大模型的演进趋势,不断将更多业务场景和使用需求与大模型结合起来。同时,国家在 2023 年底发布了一系列大模型的测评标准,为一些模型正式提供了可商业化的支持。在今年也见证了多模态场景的持续升级。包括阿里云在 5 月 19 日发布的通义千问最新大模型,其表现已经正式超越了 GPT-4 。
随着模型的发展趋势,各行各业正在以不同的速度拥抱大模型。各位可以审视一下自身的企业和场景,看看目前正处于这一趋势中的哪个位置。其中,拥抱大模型最快的依然是电商、游戏和广告等领域的互联网公司。这些互联网公司依托丰富的场景和人力资源,可以通过大模型实现显著的效率提升。例如,在电商场景中,售前售后的导购环节,企业可以将自身的产品知识与大模型能力相结合,极大程度上提升用户支持效率。通过交互式方式,为客户提供更优质的导购体验、售中支持体验和售后客服体验。同时,对于游戏和广告领域,大模型可以在游戏 NPC 的体验上进行升级,对于新游戏发布、游戏服务器维护以及客服高发场景,通过大模型的方式提供更好的资源支撑,实现整体效率的最优化。
第二部分,教育、媒体和影视等领域的企业,由于拥有海量的知识内容沉淀,因此能够快速拥抱大模型,以提升原本需要大量人力成本的编辑场景效率。例如,在教育领域,大模型可以与现有的教材紧密结合,为老师提供客服支持、教学辅助以及学习助手等方面的帮助,同时也为用户自学习场景带来更好的体验。许多教育行业的企业已经开始积极采用大模型,以实现快速增长。媒体和影视行业则更多地将多模态技术与大模型进行融合,实现了媒体资源的更快速创作和检索,推动了整个行业的变革。对于重度安全相关的企业和传统企业而言,他们也在积极探索与大模型的结合点。
在这种场景下以下行业趋势对数据的要求开始变化。以往,单纯的结构化数据即可驱动业务,但现在需要更大范围、更多模态的数据来支持在线客服、销售等在线业务。数据规模的增长幅度显著,同时,大模型所生成的数据的存储规模也影响了数据存储的覆盖范围。这促成了一个正向的飞轮效应正在形成。
第二对于数据的质量要求正在不断提升。数据的质量实际上决定了大模型的回答质量,包括大模型应用的整体质量。拥有更好的数据质量、更完善的数据规范以及更合理的数据建模,能够帮助一些企业更快地接纳大模型,并产生极佳的效果。
在持续增长的同时,越来越多的企业开始重视数据安全。对于企业而言,数据作为核心资产,如何在确保数据安全的前提下有效利用大模型,成为了企业极为关注的问题。整体上需要在确保高度数据安全的环境中,有效地运用大模型进行能力升级,这是所有企业都需具备的能力。在这种背景下全行业正在积极拥抱 AI ,并积极构建自身的企业原生应用。
为了满足上述需求, AnalyticDB 在这方面进行了一系列相关的行业探索。首先对企业的整个大模型服务进行了能力分层。自上而下,第一层是企业私有的服务,涵盖了企业自身的知识库,这些知识库构成了企业的核心知识资产。企业非常期望能通过大模型的能力,以全新的方式实现知识的传递,提高传递效率,并优化传递体验。对于那些拥有明确私域化场景,甚至具有独特性场景的企业,它们可能需要进一步提供自己的模型,并进行整个模型的定制化处理。以阿里为例,在模型服务侧,通义模型提供了基础的 LM 大型语言基础模型。
与此同时,各个行业拥有其独特的行业知识和行业壁垒。为了更好地满足各行业与模型的适配需求,许多企业,包括独立服务商以及像阿里这样的云厂商,都在各行各业中提供了专有的行业模型,以满足这些行业特有的相关场景。而真正的企业落地实践,实际上是将企业自身内部的服务与模型厂商的服务相结合。例如 RAP 就是将知识库与模型服务商提供的模型在框架内进行结合,以完成企业的相关落地工作。在此情境下 可以简单地一同浏览一下当前 REG 构建的体验链路。
对于企业而言更多地关注于下半部分的内容。企业自身的知识是其核心竞争力所在。这些知识不仅包括了过去一段时间内处理的结构化文档,还涵盖了当前越来越多的多模态数据,如声纹、图片和视频等,这些数据也开始被纳入企业知识构建的范畴。我们将这些知识进行了归一化处理,并进行了结构化,然后通过一系列的向量算法,将其存储到企业的数据湖仓中。这个数据湖仓可以用于未来持续为企业提供与大模型集成的知识积淀和检索能力。
对于用户而言,在提供交互式体验时会综合考虑整个聊天历史和新提出的问题。通过大语言模型将这些信息进行长短记忆的结合,形成一个单次独立的问题。随后通过算法将这个问题进行 embedding 处理,生成一段涵盖上下文语义和词间语义的向量数。利用这个向量可以在企业的知识库中进行查找,以获取与这个问题最相关的知识。这些知识是通过多路召回的方式获得的,包括全文检索、向量机召回以及其他结构化方式召回的结果。之后再对这些多路召回的结果进行一轮面向语义的小模型筛选,从而为企业提供与这个问题最相关的知识资产。最后将这些知识资产与问题一起组合成面向解决用户应用场景的一个 prompt 。
举个例子,如果是在客服场景下可以让大模型扮演一个客服角色,利用以下企业的产品知识 12345 来回答用户的问题。通过交替给大模型提供相关信息,进行推理求解,最终生成一个符合场景需求的答案。而 prompt 可以根据不同的场景进行调整。如果是售前场景,可以在语义、语调以及回答方式上进行适当的调整。
因此,这些独立的、开放式的 prompt 为企业提供了灵活性,以满足不同场景下的对话体验需求。在大模型的助力下不仅需要处理原有的结构化数据,还需要应对海量的非结构化知识、图片等多模态数据,并将它们应用于大模型中。这对应用搭建、数据处理规模、数据检索的质量和性能都提出了更高的要求。
AnalyticDB 是一款高度自研的向量数据库。在数据库能力方面一直处于全球领先地位。同时在 2019 年自研了整体的向量能力,并在近年来进行了高度演进。目前与开源产品相比,在满足所有数据库能力的前提下,在向量检索以及全文检索的融合查询能力上,在市场上具有显著优势。
使用这款引擎能够更好地为企业提供长期的企业核心知识构建服务。为什么这么说呢?首先 ADB 是一款 MPP 数据库。它可以随着企业数据规模的不断扩大和服务客户的不断增多,持续地进行扩展,以线性的方式为企业提供增量的计算和存储能力。这样可以确保在业务持续增长、知识不断增多的情况下,核心底层技术能够以非常平滑的方式拓展服务能力。对于核心技术算法,将在每个节点上提供全面的向量检索、全文检索以及条件过滤等能力。任务可以分布到多个节点上进行并行计算,同时确保查询结果的唯一性和事务性得到保障。这种方式能够极大地满足随着业务规模的不断扩大在所有扩展期间能力保持一致的需求。
在数据存储形态方面,除了结构化数据这一传统强项之外,还提供向量、半结构化以及非结构化数据的存储能力。这确保了客户能够将更多的业务场景依托于引擎来实现相关的服务能力。目前这款引擎已经服务了数百家客户,并成功完成了从小规模到大规模的全链全场景客户实践。
02. 向量数据库驱动 RAG 服务化探索
另外 AnalyticDB 虽然是一款阿里云上自研的产品,但与开源社区的合作非常紧密。从最早的 OpenAI 社区,即 ChatGPT 的 retrieval playing 的开源项目,到如今的 Longformer、Lemon Index ,以及今年备受瞩目的 Hugging Face 的 Datasets 和 Streamlit 等社区, AnalyticDB 已经全面提交了相关的框架适配代码,以满足这些框架中所有与 RAP 相关的场景化应用。我们将持续与开源社区进行深度合作,以确保客户在未来选择使用开源产品时,不会因为 AnalyticDB 缺少相关支持而被迫进行架构调整。这也是产品相对领先的一个原因。
03. 方案及优势、典型场景应用案例
接下来将为大家介绍结合阿里云以及开源的相关方案,并分享一些典型客户的落地场景。
首先聚焦于阿里云的主流产品,其中,阿里云的商业化大模型产品通义千问与 AnalyticDB 携手百炼,共同为企业打造了一个安全、企业级的知识库及增强检索服务架构。在这个架构中 ATDB 已成为阿里云通义千问默认的向量引擎之一。它支持海量的多租户数据安全隔离与访问控制。同时与百炼引擎协同工作,在整个检索链路上构建了独特的竞争优势。相较于传统的检索方法,我们采用了 Re-ranking Fusion 技术,进行了长短查询的改写优化。此外还自研了阿里云独有的 embedding 算法,并进行了开源。相较于其他开源算法整体召回精度有了显著提升。这有助于企业在面向客户服务时,提供差异化的召回精度和推理精度,从而提升服务质量。
第三对企业的数据安全也做到了提前规划。当今企业非常关注自身知识的存储以及知识使用的可监管性。 AnalyticDB 完全支持用户在其云上的 VPC 内部署,即整个资源都是客户自己的数据库资源。我们还可以将 ATDB 的资源与百炼平台进行有限度的互通,将百炼的服务能力与企业自身的数据能力相结合,以提供支持。在每一次 RAP 的查询过程中,仅返回企业认为可以公开的相关知识给百炼,由百炼进行模型推理和客户服务。这种方式可以最大程度地监管企业内信息的流出,同时确保企业全域知识在私域内的私密性。当 ATDB 被百炼调用时,可以做到对所有使用量的监控和审计,并进行相关的权限配置,以确保企业能够全局掌控数据安全。
同时今天的这种合作方式意味着,在选择了 ATDB 之后,对于阿里云上所有其他与 RAP 相关的应用,如灵码、钉钉熙言等,都可以采用这种方式进行支持。也就是说,今天对 ATDB 的一次选择,将帮助客户在未来在阿里云上使用检索场景时,实现核心知识库的复用。同时,这也为客户在选型上提供了更长远的考虑。在本次培训中,我们将陪同大家一起,使用自己私有的 ATDB 结合通义百炼的能力,来构建一个轻量级的网站。
我们可以基于企业的私域知识构建一个 AI 助手。这包括在白炼平台上构建模型应用,搭建整个示例网站,并引入 AI 助手。首先进行一次调用,看看基于纯互联网知识的 AI 助手会如何回答。然后,在增加企业私域知识库之后,再次观察 AI 助手在面向用户时,能够基于自己的企业知识回答哪些问题。
第二部分将探讨整套体验如何在汽车行业提供支撑。车载系统实际上承载着非常重要的交互体验,包括出行规划等实用功能,同时也涵盖了基于互联网知识和企业私域知识的闲聊功能,这些在陪护故事等车载应用场景中均有出色的落地案例。此外,汽车作为一个销售重镇,企业对于销售助手有着大量的培训需求。这些培训包括销售技巧的培训、数字人面授课程的文案生成与话术设计,以及提升研发效率方面的企业内办公知识问答等。这些需求均可以通过这一整套解决方案来全面实现。
同时这也是刚刚提及的教育行业的一次变革。在客户中,有不少企业在进行企业教育培训时拥有数万客户群,每个企业都拥有自己独立的权限管理和整套课程体系,服务于海量的学生。通过一套 ATDB 可以为多个客户、多个组织架构、多套课程提供全面的教育服务。 ATDB 让学生的学习、查课、自学过程,以及教育知识助手的相关功能,都能通过检索获得全新的体验变革,满足在为海量客户服务过程中实现边际成本递减的需求。这背后, ATDB 作为多租户数据库,展现出了其完备的能力,同时也支持强大的向量检索功能,并与开源框架实现了良好的互通。
对于游戏行业的客服而言,原先基于单轮对话进行查找的客服方式,现在可以升级为基于 RAP 的整套架构。通过构建大模型和独立的游戏世界观,能够支持数百款游戏同时在线的客户服务。借助多轮对话的方式,并经过安全滤网的评估策略实现了从意图判断、知识召回、总结润色到排版优化的智能内容生成全过程,从而提升了游戏内及游戏外的客服全链路体验。
04. 方案涉及产品的选型配置介绍
接下来详细介绍一下本次课程所涉及的一些方案及产品选型配置。在本次课程中会接触到三款产品,第一款是云数据仓库 United DbPostgresql 。这款产品选用的是基础版的最低规格,即使这样也足以完成本次课程的所有需求。具体来说,我们开启了向量引擎,并配置了 4C 乘以两个节点的规格,每个节点拥有 50G 的存储空间。并且整体服务可以部署在北京,并预计每小时的费用大约在三元左右。
第二部分是关于函数计算,这款产品主要用于帮助客户搭建网站,并公开部署网站的智能助手模块。现在已提供了相关的样例代码,各位可以利用这些样例代码实现快速的冷启动,从而完成网站和智能助手应用层的构建。值得一提的是,对于新用户而言,本次使用是完全免费的。
第三个部分是阿里云百炼产品。这款产品主要用于模型调用以及Web 应用智能化搭建。对于新客户,阿里云会赠送一些免费的 Token 供大家使用。本次体验的时间不会超过 1 个小时,整体费用不会超过 10 元。如果在 1 个小时内完成体验,还将为大家介绍更多内容。整体而言这里提供了两种资源配置供选择。
第一种是高性能版本,它基本上可以满足主流业务的使用需求。在使用过程中,您只需指定所需的计算资源和存储资源即可。对于那些计划在长期内使用,并面向最核心、高可用场景的企业,推荐购买高可用版本。相较于高性能版本,高可用版本在可用性,包括容灾 DR 方面,提供了非常强大的整体保障。此外,它还提供了 99.95% 的 SRV 保障。这里的购买逻辑与高性能版本相同。
05. 最新发布
目前 ADB 仅对计算和存储两种使用方式进行收费。在稍后与大家一起进行实操之前,会先预告一下 ADB 即将发布的一些相关内容。首先,各位在企业内部可能会使用到灵码这种 Copilot 助手。
目前, AnalyticDB For PostgreSQL 的 RAG 服务已经支持了通义灵码的企业标准问答版。并且即将在 Q2 季度开放企业私域的 ADB 作为私域的 RAG 引擎来进行关联。这意味着,企业将能够搭建一个与百炼框架完全相同的框架,用于将自身的知识存储在本地。企业可以将自己的私域内容作为灵码生成的一个补充,以确保生成的代码更符合企业的标准,并且更好地融入企业自身的代码库积淀中。
第二个部分是, ADB 已成为熙琰推荐的 NL to SQL 数据分析引擎。各位可能已经从刚才的介绍中了解到, ADB 在数仓领域也受到了众多客户的青睐。作为企业核心的数据分析引擎,熙琰这款产品能够进一步优化 ADB 的使用方式,将其从传统的面向分析师的 SQL 使用方式,以及面向 BI 的对接方式,转变为通过自然语言进行交互式数据查询的引擎。用户现在可以使用自然语言来查询存储在 ADB 上的企业核心数据资产,从而完成数据分析、数据运营等相关工作。目前,这一功能已经开放。接下来 ADB 将持续与阿里云主流的大模型相关应用进行整合与集成,以帮助企业覆盖更多的大模型原生应用场景。