百炼融合AnalyticDB,10分钟创建网站AI助手
内容介绍
一、大模型的行业变革
二、向量数据库驱动RAG服务化的探索
三、方案及优势、典型场景应用案例
四、方案涉及产品的选型配置简介
五、最新发布
本次分享的主题是百炼融合AnalyticDB,10分钟创建网站AI助手,由阿里云产品经理陈茏久(茏城)分享。
通义百炼融合AnalyticDB这款产品怎么在10分钟内创建自己的网站AI助手。在本次课程之前会介绍整个方案中用到的技术背景,包括行业情况,帮助大家更好的了解解决方案的相关背景。
在今天的主题中共涵盖5章节,第一部分,介绍当前的大模型所带来的行业变革,以及在数据集合大模型的情况下,对于数据有哪些新的要求。第二是阿里云AnalyticDB数据库驱动RAG服务的相关探索和技术实践。第三个部分,介绍AnalyticDB及阿里云百炼两款产品结合相较于行业有哪些优势。同时介绍行业的玩家和典型应用场景和案例。第四个部分,介绍陪跑班所涉及到的相关产品的选型,以及整个产品的能力介绍。第五个部分预告接下来在领域里面会做哪些发布,同时在哪些方面会带来全新的体验升级。
一、大模型的行业变革
自前年 chat gpt 发布后,整个行业实际上在快速迭代升级中,从早期关注的模型,比如 meta,GPT4.0,包括 midjoueney 和这些模型,实际上一开始的整个的研究方向更多是期望模型单链路来解决用户所有的相关问题。自2023年3月份chat gpt发布后,行业看到将自己的企业知识结合大模型提供解决方案框架。企业更多是关注如何能够快速的将自身能力与大模型进行整体的协作,以及在整个行业中,随着模型的演进后,web 这套框架也在持续的配合着升级,包括 llama index。这都更好的帮助企业能够随着大模型的演进趋势不断的将更多的业务场景,更多的使用诉求与大模型结合起来。因此国家也发布了测评标准,对于模型正式的进行商业化的支持,在今年多模态的场景开始持续升级,包括阿里云在 5.19 日发布的整个的东西千万最大模型上也正式超越GPT4。
随着模型的趋势,各行各业正在拥抱大模型。而自身的企业和场景在这中间正处于什么样的位置,整个拥抱最快的依然是电商,游戏和广告这类互联网公司,互联网公司有极大的场景的依托和人力成本通过大模型进行相关的提效。比如电商场景中的售前、售后这类导购,它实际上将企业原来自己产品的相关的知识能力结合大模型的能力,做到极大程度上的用户支持的提效。能够通过交互式的方式,帮助客户有更好的导购体验,受众的知识体验售后的客服体验。同时对于游戏广告这一类生成类,可以更好的在游戏 ABC 上进行体验的升级。同时,对于游戏新的游戏发布,游戏中的相关的服务器维护,这一类需求包括客服高发场景上,通过大模型的方式进行更好的资源的支撑,去实现整个的效率最优。
而对于教育,媒体,影视这一类有非常海量知识内容沉淀的企业,他们可以非常快速拥抱大模型,以提升原来需要大量人力成本服务的边际场景,比如教育在老师的客服、在老师的教学,在学习助手的支持,包括用户自学习的相关场景上,是可以有非常好的大模型,与现有的教材契合的场景。非常多的教育行业已经开始拥抱大模型来快速的进行增长。
媒体,影视行业更多的将多模态与大模型整体进行融合,实现更快速的媒体资源的创作、寻找,来进行整个行业的变革。对于重度的安全相关的企业和传统的企业,也在积极的寻找和大模型领域的相关结合。对于数据要求,团队将单纯的结构化的数据,即可驱动业务,变成现在需要更大范围,更多模态的数据来支持在线业务,比如客服、销售,数据规模的幅度正在大幅增长,同时整个大模型创造的数据存储的规模也影响整个的数据存储的覆盖范围,这是正向的飞轮,并且正在形成。
对于数据的要求、质量正在提升。数据的质量决定大模型回答,包括大模型应用的质量,更好的数据质量,更好的数据规范,更合理的数据建模,帮助企业能够更快的用到大模型,并生成极好的效果。在增长的同时,更多的企业开始关注数据安全,对于整个企业作为核心资产的数据,企业非常关注如何保证数据安全的情况下使用大模型,整体需要做到高度数据安全的环境下,有效的使用大模型进行能力升级,是全域企业所需要的能力。在这种情况下,全行业正在积极的拥抱 AI,正在积极的去构建自己的企业原生应用。
二、向量数据库驱动RAG服务化的探索
1.ma db进行的相关的行业探索
首先将企业的整个大模型服务进行能力分层,自上而下分别是企业私有的服务,包括企业自身的知识库,这就是企业核心的知识资产,企业非常希望能够通过大模型的能力换以全新的方式进行知识的传递服务、传递效率,同时提升传递体验。对于私域化场景企业需要提供自己的模型进行整个的模型的翻退。在模型服务之后,以阿里为例的通义模型提供整个基本的lm的大语言基础模型。与此同时,各个行业其实也有自己的行业知识、行业壁垒,为更好的满足各个行业跟模型的适配,很多企业包括独立服务商以及阿里云厂商,都在各行各业,提供相关专有模型。而真正的企业落地,实际上是将企业自己内部的服务与模型厂商的服务进行结合。比如rap就是将知识库与模型服务商提供的模型进行在框架下的结合,从而完成企业相关的落地。
2.RAG构建的体验链路
对于企业,更多关注于图中的下半部分,企业自身的知识实际上是核心的竞争力,这些知识包括之前一段时间处理的结构化等,而目前越来越多的多模态的数据,比如声纹,图片,视频,这些也开始进入企业知识构建的范畴,将知识进行企业化、结构化后,通过向量存储算法将其存储到企业的向量湖仓中,湖仓可以用于未来持续的为企业提供与大模型集成的知识的积淀和检索能力。对于用户,提供交互式的体验时,包括整个的聊天历史和新问题,通过大语言模型,可以将其进行长短记忆结合,形成单次独立的问题,而将问题通过的算法与 embedding 后,生成一段涵盖上下文语义、词间语义的一段向量数。通过向量进到企业的知识库中,去查找与企业相关的知识,这些知识则是与问题对相关的内容。将这些内容通过多路进行召回。可以通过全文检索或向量进行召回,也包括其他的结构化的方式进行召回,将多路召回的结果进行一轮面向语义的小模型的精排,可以提供到该企业内,面向这些问题相关的知识资产,将这些资产和问题一起拼凑成面向解决用户的 prompt。比如如果是客户场景,扮演客服,用以下企业的产品知识12345进行问题的回答,交递给大模型进行相关的推理求解,最终生成在场景下的答案。prompt 可以基于不同的场景进行变化,如果是售前,可以对其进行语义语调,包括回答方式的调整,所以独立的开放式的 prompt 将面向企业提供灵活性,来满足不同场景下的最大的体验。在大模型的加持下,原来对于结构化的数据之外,需要处理海量的非结构化的知识、图片等多模态的数据用到大模型中。对于应用的搭建、处理的数据规模、数据检索的指标和性能提供更高的要求。
3.AnalyticDB
它是一款高度自研向量数据库,在整个的数据库能力上一直处于全球非常领先的地位,同时到2019年自研整体的销量能力,也在近些年进行高度的演进。目前在与开源整个产品的检索性能上,可以满足所有数据库能力的情况下,比较有优势。使用这款引擎,能够更好的为企业提供长期的企业核心知识构建服务。
4.ADB产品
首先 ADB 产品是 MTP 的数据库,它可以随着企业数据规模不断增大,服务的客户不断增多,可以持续延展到以线性的能力,为各位提供增量的计算和存储能力,可以保证业务持续增长,核心底层技术可以以非常平滑的能力进行服务能力的拓展。对于核心技术算法,将在每个节点上进行提供所有的向量检索,全文检索,包括条件过滤等能力。
任务可以分布到多个节点上进行并行计算,同时查询整个结果,保持唯一的事务性均可以提供保证。而方式,可以极大程度上的满足随着业务规模增大,保证在所有的扩展期间能力一直保持一致。
对于数据存储的形态上来讲,除结构化等传统强项之外,对于向量半结构化,非结构化的数据,均提供相关的存储,也保证客户可以将更多的业务场景依托于引擎来进行相关的服务能力,这一款引擎实际上当下已经服务数百客户,已经完成从小规模到大规模全场景的客户实践。
另外 AnalyticDB 虽然它是一款阿里云自研原生产品,但是和开源是合作非常紧密。
并且已经从最早的 openai 社区,到现在的 langchain 和 llamaindex dify&streamlit 这些社区,AnalyticDB 已经全面的去提交相关的框架适用代码,去满足这些框架中所有跟 RAG 相关的场景应用。也会持续的和开源进行深度的合作,去保证客户在未来面向开源的使用的选择中,不会因为 AnalyticDB 这款产品缺少相关的支持而去进行被迫的架构变换。
三、方案及优势、典型场景应用案例
1.阿里云商业化大模型产品百炼
阿里云商业化大模型产品百炼是阿里云最主流的产品,AnalyticDB 与百炼一起为企业提供非常安全的企业级知识库及增强检索的服务架构。在架构中,AnalyticDB 已经是阿里云的百炼的默认向量引擎之一,支持海量的多租户的数据安全隔离与访问。同时和百炼的引擎一起在整个的 RAG 检索链路上,构建自己的相关竞争优势。相较 naive RAG,使用 RAG fusion 查询改写,以及阿里云自研的 embedding的开源算法。在整体相较于开源的算法之上有非常强的召回精度的提升,也帮助企业在差异化方面做到精度的提升。
对于企业的数据安全要做到提前考虑,今天的企业是非常关注于知识部分的存储以及知识使用的可监管。AnalyticDB 支持用户构建在自己的云上,整个的资源是客户自己的数据库资源,而可以将 AnalyticDB 资源与百链的平台进行有限的打通。将百炼的服务能力与企业自身的数据能力进行支持,在每一次 RAG 的查询过程中,仅返回企业,认为可以透出的相关知识交于百炼,让百炼进行相关的模型推理和客户服务。可以最大程度上监管企业内的信息的流出,同时确保企业全域知识的一个私域内的私密性。在 AnalyticDB 在被百变调用的过程中,可以做到所有使用量的监控审计,同时进行相关的权限配置,去确保企业可以有全局的数据安全的掌控。同时今天的合作方式,对于未来在选择 AnalyticDB 之后,在阿里云上所有其他的 web 相关应用均可以使用方式进行支持。AnalyticDB 的一次单项的选择可以帮助客户在未来阿里云上使用 RAG 场景下,可以做到核心知识库的复用,同时也能做到选型方面更长久的判断。
2.通义百炼和AnalyticDB
使用自己私域的 AnalyticDB 结合通义百炼的的能力去构建面向轻量级的网站,可以做到基于企业私域知识使用的 AI 助手,包括整个在百炼上去构建的模型应用,去搭建整个的实体网站,同时引入 AI 助手。第一次调用基于互联网知识如何回应以及在增加知识库后,基于自己的企业私域知识,在面向网络AI助手时,它能回答什么样的体验。
3.整套体验如何在汽车行业进行相关支撑
车载的车机承担非常重的交互体验,包括相关的支架,比如出行规划,同时也包括基于互联网知识的闲聊和基于企业私域知识的闲聊。在陪护、故事、车书均有很好的落地案例。汽车作为重销售的场景,对于销售助手,企业有非常多的相关的培训,包括销售的培训,数字人,文案生成话术,同时包括研发效率自己企业内的办公,企业知识的问答,这些均可以通过这一套方案来进行全域的实现。
4.教育行业的变革
客户实际在做的企业教培,有数万客户,数万客户内每个企业有自己的整套的权限的管理,一套课程有海量的学生,均可以通过AnalyticDB 进行多个客户,多个组织架构,多套课程的全域的教育 saas,让学生的查课的过程,自学的过程,教育知知识助手的相关的过程,均可以通过 RAG 来进行体验上的全新变革,而满足对于海量客户服务过程中,边际成本递减的方式。其中海量的运用了 ADB 的多租户数据库能力完备,同时支持非常强有力的向量检索和开源的能力。
5.智能客服
对于游戏行业的客户来说,原来基于单轮对话进行查找的客户的方式,目前可以基于RAG来进行整套的架构升级,通过大模型和游戏世界观的独立建立,可以做到数百款游戏同时的在线的客户的服务,通过多轮对话的方式,经过安全滤网的评估策略,实现从意图判断知识召回、总结、润色和排版优化上,来进行游戏内,包括游戏外的全链路的体验升级。
四、方案涉及产品的选型配置简介
1.方案涉及产品的选型配置简介
第一款是云数据仓库 AnalyticDB postgreSQL,选用基础版的最低规格即可完成本次的课程,也就是开启向量引擎,同时支持 4C 乘以两个节点单节点存储 50g。位置整体可以开在北京,整个的预估费用在 3 元左右一小时。第二个部分是函数计算,这款产品主要是用于帮助客户去搭建网站,同时开放网站的智能助手的模块,已经提供相关的代码,可以使用这款代码来去进行快速的能启动完成的网站和智能助手的应用层的构建,本次对于新用户是完全免费的。第三个部分是阿里云百炼产品,这款产品主要是用于的模型调用的 RAG 软件应用的智能化应用的搭建。目前对于新客户,是送免费的 token 供各位来使用,本次的时间是不会超过 1 小时,整个体验不会超过 10 元,如果在 1 小时内完成。
2.两种资源实例
(1)高性能版本
高性能版本可以满足主流的业务使用。在整个过程中,只需要指定所有的计算资源和存储资源即可。
(2)高可用版本
对于企业未来的长期使用过程中,面向最核心高可用的场景,推荐企业购买高可用版本,高可用版本相较于高性能版本上对于可用性、容灾DR上有非常强的保障,也提供99.95的SRA的保障,并且高可用版本的购买逻辑和高性能版本一样,目前ADB只对计算和存储两种使用进行收费。
五、最新发布
关于企业中的灵码助手,AnalyticDB 服务的软服务目前已经支持通义灵码企业标准问答版。
即将在 Q2 开放企业的私域的ADB,作为私域的 RAG 引擎来进行,即完成跟百炼钢的框架一模一样的框架搭建,企业可以将自身的知识存储在本地,将自己的私域内容作为灵码生成的补充,去确保生成的代码更符合企业的标准和更符合企业自身代码库的积淀。
adb 成为了 NL2SQL 数据分析引擎,ADB 实际上在数仓领域也有非常多的客户进行相关的选择,作为企业核心的数据分析,析言这款产品可以更好的将 ADB 的使用方式从单纯的面向分析式的 SQL 的使用方式、面向用户可以使用自然语言交互式查询引擎,来查询在 ADB上的企业核心数据资产来完成数据分析、数据运营等相关的工作。目前能力已经开放,持续的 ADB 也会持续的跟阿里主流的大模型相关应用进行整合,进行集成,来帮助企业覆盖更多的大模型原生的构造场景。了解整个从 0~1 是如何构建一款基于通义百炼模型,加上ADB 构建的网页来实现AI助手的能力。
在百炼的产品详情页,单击管理控制台。如果还未开通,可点击立即开通。在应用中,单击新建应用,在页面上方选择模型。
当前,会预送免费的模型额度用于推理,所以可以选择通义千问plus,输入prompt信息,可以使用文档中示例的prompt。输入问题,看回答的效果。可以看到,回答的答案是通用信息不是自己公司的产品信息。
先把应用发布,等一会再回来看怎么配置知识库。在运动中创建 API——key 用于接下来的示例网站部署。
在部署势力网站中,用于集成 AI 助手,在文档 2.1 章节创建应用中,单击应用模板。
会跳转到函数计算控制台,函数计算提供的免费试用额度可以完全覆盖。本教程所需资源消耗额度消耗完后按量计费。对于本教程所涉及的外服务,只在有访问的情况下会产生费用。根据引导完成支付。
找到相关的函数计算的方案页,在 2.1 上点击开启流程,在过程中对于新的客户是完全免费的使用方式,所以不用太担心。开通成功后,再次点击文档中的应用模板。
选择直接部署,添加角色授权。在百炼应用中复制应用 ID 和 API key 粘贴到函数计算应用的高级配置中。
创建并部署默认环境等。部署完成,大约需等待一分钟。
在配置过程中需要关联到阿里云百炼的应用所相关的API的,在相继添加进中,可以做到在预配置的模板里,实现面向百炼服务的调用授权体系。
部署完成后,单击左侧的访问域名,访问示例网站。接下来,将AI助手集成到示例网站中,回到应用详情页。
在环境详情的最底部找到函数资源,点击函数名称进入函数详情页,创建服务关联角色。如果已经创建过服务关联角色,将不会显示该弹窗。在函数详情页参考下图,打开代码视图,并找到 public index 点 HTML 文件。
取消第24行到52行的注释。
继续部署代码。代码部署完成后刷新示例网站页面。
单击右下角的 AI 助手,并提问题。可以看到,问题的答案是通用的,并不是某个公司的产品详情。通过前面的步骤,已经拥有可以和客户对话的AI助手。但是如果想让AI助手向公司员工一样更加精准且专业的回答与商品相关的问题,还需要为大模型应用配置知识库,从文档中下载示例的知识库文件。
在文档 4.1 章节中单击数据管理,进入百炼控制台的数据管理页面点击导入数据,如果没有整个的文档进来,也可以在控制台里面在左侧的数据中心找到相关的数据管理。更多的是为企业自身管理相关的知识文档提供一站式的入口,也可以从本地上传。
根据引导上传虚构的百炼系列手机产品介绍。等待数据解析完成,在左侧菜单中找到知识索引。
根据引导,创建新的知识库。对于文档类属于非结构化的知识。也可以关联自己的结构化的数据库选择结构化的知识,在配置的部分,有官方推荐的官方向量,会使用阿里云自研的向量,同时也支持官方为 pank 排序和相似度的阈值。
如果比较熟悉召回策略,可以选择自定义的相关配置,里面会开放更多的选项,选择向量存储类型为 ADB-PG。如果选择内置引擎,会采用百炼内置的 ADB 的引擎,将知识存储到百炼的远端,如果企业想要使用自己的私域知识,选择 ADB-PG 它会检测在自己的 vpc 选项以及相关的引擎,并将存储后的的数据放置到企业自身ADB-PG的自身引擎中。参数保持默认。如果在目标地域中已有开启向量引擎的AnalyticDB postgreSQL 实例,可选择已有实例。如果还没有 AnalyticDB postgreSQL 实例可点击购买去创建实例。创建实例时,向量引擎优化保持开启,选择专有网络和交换机。
如果没有专业网络,可以点击按钮,在其中快速创建专业网络,只需要写基本的网络的名称和交换机的名称就可以快速的构建网络。
在阿里的使用过程中,都会用到企业自己的专有VPC,所以这次创建也可以帮助各位在未来持续服用。如果没有专有网络和交换机可以点击创建新的专有网络。为缩短实例,创建时间可选择不加载实例数据。
根据引导完成支付。点击管理控制台选择开通 APP 的目标地域,刷新实例列表,开通的实例将显示在列表中,创建过程通常需要几分钟。刚刚的创建会将ADB放置在企业自身的的网络空间,在回到百炼控制台时,可以去创建区域内的关联关系,比如 region 放在北京,切换到北京就可以检测到刚刚所创建的的企业私有的 ADB 的向量库。回到百炼控制台创建知识库页面,选择已创建的 AnalyticDB postgreSQL,单击下一步,选择刚刚导入的知识文件。
可以自定义切分或智能切分。优先推荐整个的智能切分,它是使用阿里云的ADP。如果自己的企业的上传和支持是有比较明确的语义的分句标识服,比如换行、顿号、问号,在此情况下,也可以使用自定义切分来去选择每一句的分句的标识符去进行切分,确保每一个语义独立且完整。下一步将刚刚上传到数据管理的知识进行数据处理,同时转引数据存入到向量知识库,在这一步结束后,进行相关的工作。这就是百炼如何配置内容的相关的操作步骤、实例。单击导入完成。
导入完成后,可以到自己的 AnalyticDB postgreSQL 里看到这一段所存储到ADB中的样式,同时它也会面向 ADB 的应用进行相关的百炼独有的账号的授权和创建,账号授权和创建仅对百炼所需要的表进行相关的赋权。可以做到对企业核心的数据没有任何权限透出,对于该部分的数据,百炼可以做到有限的,基于业务用户的问询来查到其相关的知识的使用方式。
完成知识库的创建后返回应用设置。打开知识检索,增强开关,选择知识库,最后点击发布。
在这一步,开启了增强知识检索,在原来所配置的 prompt 下,自动生成知识库的相关应用,它的内容对于整个在回答内容选型时,进行知识的补充,而再继续问问题时,实际上是将知识库内召回的内容进行参数的内容的补充,来回答基于企业知识,同时扮演助手的角色下最适合的回答。刷新示例网站,重新进入AI助手,就能重新提问刚刚的问题,AI助手就能准确回答关于某个公司商品的问题。到最后的时候,在应用侧感知对于服务的链路,使用用户自己提供的知识库所产生的相关的回答,百炼服务供给前面的应用来进行相关的全链路的使用,所以在更多的场景下,可以用百炼作为核心的模型引擎,使用 ADB 作为使用助手,将这一套服务用在企业内多个场景之上,满足企业在 AI 的使用模式。目前有非常多的客户采用的这种方式来进行应用构建,也希望通过 10 分钟的 demo 帮助各位快速的体验核心能力和用户构建的全流程。
实操完成后,进入管理控制台。点击视频 ID。点击实例管理、实例释放。根据指引,完成安全验证,即可释放实例。