云端问道10期方案教学

简介: 本次分享由阿里云产品经理陈茏久主讲,主题为“通义百炼融合AnalyticDB,10分钟创建网站AI助手”。内容涵盖五大章节:大模型带来的行业变革、向量数据库驱动RAG服务化的探索、方案及优势、典型场景应用案例、方案涉及产品的选型配置简介和最新发布。介绍了大模型在电商、教育、汽车、游戏等行业的应用,以及AnalyticDB在向量数据库和RAG服务中的优势和具体案例。最后预告了ADB即将发布的功能,包括支持通义灵码企业标准版问答和成为析言推荐的NISQL数据分析引擎。

内容介绍:

一、大模型带来的行业变革

二、向量数据库驱动RAG服务化的探索

三、方案及优势、典型场景应用案例

四、方案涉及产品的选型配置简介

五、最新发布

 

本次分享的主题是通义百炼融合AnalyticDB,10分钟创建网站AI助手,由阿里云产品经理陈茏久(茏城)分享。

image.png

本课程主要介绍在方案中重要的技术背景、行业情况,帮助大家更好的了解这款解决方案。

 

image.png

 

本内容共涵盖五个章节:

1、介绍当前大模型带来的行业变革,以及在数据结合大模型的情况下对于数据的新要求。

2、AnalyticDB在向量数据库驱动RAG服务化的相关探索。

3、介绍AnalyticDB和阿里云百炼结合相较于整个行业的优势,以及目前行业里玩家的典型场景和应用案例。

4、介绍本次配套方案涉及相关产品的选型和产品能力介绍。

5、预告在这个领域的最新发布,介绍在哪些方面会带来全新体验

 

一、大模型带来的行业变革

image.png

随着模型的发展趋势,各行各业正在以不同的速率拥抱大模型。


第一,拥抱最快的是电商游戏和广告这类互联网公司,在场景和人力成本上有极大的依托,可通过大模型进行提效。比如电商场景里售前售后将企业自身产品的相关知识结合大模型,实现用户支持的提效,通过交互方式帮助客户有更好的导购体验、售中知识体验、售后客服体验。对游戏广告这类生成类目,可在游戏NPC体验上升级,同时对于新游戏的发布、游戏中相关的服务器维护、客服高发场景上通过大模型的方式进行更好的资源支撑,实现效率最优。


第二,教育、媒体、影视这类有海量知识内容沉淀的企业可以快速拥抱大模型,以提升原来需要大量人力成本服务的编辑场景。比如教育、老师客服、老师教学、学习助手支持、用户自学习的相关场景,大模型与现有的教材间可实现非常好的契合。非常多的教育行业已开始拥抱大模型,媒体、影视行业更多是将多模态与大模型融合,实现更快速媒体资源创作、寻找,最后进行行业变革。


第三,一些重度和安全相关的企业和传统企业也在积极的寻找和大模型领域的相关结合。


综上,有以下的行业趋势:


首先,于数据,将原来单纯的结构化数据即可驱动业务变成需要更大范围、更多模态的数据支持在线业务,比如客服、销售,数据规模正在大幅增长。同时大模型创造的数据存储的规模也影响数据存储的覆盖范围,这是正向的飞轮的正在形成。


第二,对于数据质量的要求正在提升。数据的质量决定了大模型的回答、应用的质量,更好的数据质量、数据规范,更合理的数据建模,帮助一些企业能更快的拥抱大模型并形成极好的效果。


在增长的同时,更多的企业开始关注数据安全,对于整个企业核心资产的数据,如何保证数据安全的情况下使用大模型是企业非常关注的。需要在高度数据安全的环境下,有效使用大模型进行能力升级,是全域企业所需要的能力。现在全行业正在积极的拥抱AI、构建企业孪生应用。


 

二、向量数据库驱动RAG服务化的探索

image.png

为满足以上需求,AnalyticDB进行了一些相关的行业探索。首先将企业的大模型服务进行能力分层,自上而下分别是企业私有的服务,包括企业自身的知识库(企业核心的知识资产),企业希望通过大模型以全新的方式进行知识的传递服务、传递效率,同时提升产品体验。对于有较明确的私域化场景、独特性场景的企业,需要提供自己的模型,进行模型的finetune。在模型服务侧,以阿里云为例,通义模型提供基本的LM大语言基础模型。与此同时,各行业有自己的行业知识、行业壁垒。为更好满足各行业和模型的适配,很多企业包括独立服务商或阿里云厂商都在各行业提供了专有的行业模型,以满足该行业特有的相关场景。真正的企业落地是将企业内部的服务与模型厂商的服务进行结合。比如RAG就是将知识库与下面模型服务商提供的模型进行在框架下的结合,完成企业相关的落地。

 

image.png

 

如图,这是RAG构建的体验链路。企业更关注下半部分,企业自身的知识是核心竞争力,这些知识包括之前处理的结构化文档,目前越来越多的多模态的数据比如声纹、图片、视频等也开始进入企业知识构建的范畴。将这些知识进行企业知识的规划、结构化之后,通过向量算法将其存储到企业的向量湖仓中,湖仓可用于未来持续为企业提供与大模型集成的知识的基建和检索能力。于用户,当提供交互式体验时,包括聊天历史和新问题,通过大语言模型可以将其进行长短记忆结合,形成单次独立问题。将该问题通过算法embedding,生成一段涵盖上下文语、词间语义的向量数,从而进入企业的知识库查找企业相关的知识,而这些知识则是与这个问题最相关的一些内容,将其通过多路召回全文检索、向量以及其他结构化的方式。将多路召回的结果面向语义小模型精排,可提供该企业内面向此问题最相关的知识资产,将这些资产和问题一起拼凑成面向解决用户应用场景的crowd。例如果是客服场景,那么请扮演一个客服,用以下企业的产品知识1、2、3、4、5进行回答,交替给大模型进行相关的推理求解,最终生成在场景下的答案。prompt可以基于不同的场景变化,如果是售前,可以对其进行语义语调、回答方式上的调整。这些独立、开放的prompt将面向企业提供灵活性满足不同场景下的对答体验。在大模型的加持下,原来对于结构化的数据之外需要处理海量非结构化的知识图片等多模态的数据应用到大模型中,对应用的搭建、处理数据的规模、数据检索的质量和性能提供了更高的要求。

 

image.png

 

AnalyticDB是一款高度自研的向量数据库,在数据库能力上一直处于全球领先地位,在2019年自研了整体的销量能力,也在近些年进行了高度演进。目前在满足所有数据库能力的情况下,在开源产品的向量检索、全文检索的融合查询方面较有优势。

 

image.png

 

使用这款引擎能更好的为企业提供长期核心知识构建的服务。ADB是MTP的数据库,可以随着企业数据规模不断增大、服务客户不断增多持续的延展,以线性的能力提供增量计算和存储。这样可以保证在业务持续增长、知识不断增多时,核心底层技术可以非常平滑的进行服务能力拓展。对于核心技术算法,将在每个节点上提供向量检索、全文检索、条件过滤等,一个任务分布到多个节点上进行并行计算,同时查询整个结果,唯一性与事务性均可以保证。这种方式可以满足随着业务规模的不断增大、扩展期间,能力保持一致。对于数据存储的形态,除了结构化等传统能力之外,对于向量、半结构化、非结构化的数据均提供相关存储,也保证客户可以将更多的业务场景依托引擎进行相关服务。这款引擎已服务了数百客户,也完成了从小规模到大规模的全场景客户实践。

 

image.png

 

AnalyticDB 虽然是阿里云自研产品,但和开源的合作非常紧密。已从OpenAI社区即ChatGPT Retrieval plugin到lang chain 、Llmaindex和Dify&streamlit社区。AnalyticDB DB已经全面的提交相关框架适应代码,满足这些框架中所有和RAG相关的场景化应用也会持续和开源深度合作,保证客户在未来面向开源的使用选择中不会因为ADB缺少相关支持而被迫变化架构,这也是该产品比较靠前的原因。

 

三、方案及优势、典型场景应用案例

 

1.结合阿里云以及开源相关方案和典型客户落地场景

 

image.png

(1)阿里云百炼的默认向量

阿里云最主流的产品——商业化大模型AnalyticDB和百炼一起为企业提供了非常安全的、企业级的知识库及增强检索的服务架构。在这个架构中,AnalyticDB已是阿里云百炼的默认引擎向量引擎之一,支持海量的、多租户的数据安全隔离和访问。


(2)RAG检索优化

ADB和百炼引擎在RAG检索链路上构建相关竞争优势。相较于NaiveRAG, 使用fusion、长短查询、查询改写以及自研阿里云embedding的算法,整体上做到了相较于开源算法有非常强的召回精度的提升。这也帮助企业做真正面向客户服务的时候能够提供差异化的召回精度和推理精度的提升。


(3)保障企业数据安全

ADB对于企业的数据安全做了提前考虑。今天的企业非常关注知识部分的存储和知识使用的可监管。AnalyticDB支持用户构建在自己的云上、VPC内,也就是资源是客户自己的数据库资源,可以将AnalyticDB的资源与百炼平台有限的打通,将百炼的服务能力与企业自身的数据能力进行支持。在每次RAG的查询过程中,仅返回企业认为可以透出的相关知识交予百炼,进行相关的模型推理和客户服务。这样可以最大程度监管企业内的信息流出,同时确保企业全域知识私域内的私密性。ADB在被百炼调用的过程中,可以做到所有使用量的监控、审计,同时进行相关的权限配置,确保企业可以有全局数据安全的掌控。这种合作方式影响未来选择ADB后在阿里云上其他的RAG相关应用,比如灵码、点金、钉钉、析言等,均可使用这种方式,即ADB的一次单向的选择,可以帮助客户未来在阿里云上使用RAG场景从而做到核心知识库的复用,同时也能做到选型上更长久的判断。

 

image.png

 

使用自己私域的ADP结合通义百炼构建一个面向轻量级的网站,可以做到基于企业私域知识使用的AI助手。包括在百炼构建模型应用、搭建示例网站,同时引入AI助手,第一次调用,基于纯互联网的知识会怎么回答。在增加知识库后,基于企业自身私域知识在面向网络AI助手时能得到什么样的回答。


2.汽车行业的相关支撑

 

image.png

 

车载的车机实际上承担了非常重的交互体验,在相关的支架(如出行规划)、基于互联网知识的闲聊和基于企业私域知识的闲聊、陪护、讲故事车书上均有很好的落地案例。汽车作为重销售的场景,对于销售助手企业有非常多的相关培训,包括销售培训、数字人、文案生成(金牌话术),同时包括研发效率上企业办公、企业知识的问答,这些均可通过配套解决方案全域实现。


3. 教育行业的变革

image.png

 

企业教培的客户有数万客户,数万客户内每个企业有自己的整套的权限管理和课程,以及有海量的学生。这均可通过一套ADB进行多个客户、多个组织架构、多套课程的全域教育SARS,让学生自学、查课的过程以及教育知识助手的相关过程均可通过RAG进行体验全新变更,满足对于海量客户服务过程中边际成本递减的方式。海量运用ADB多租户、数据库能力完备、支持强有力的向量检索和开源的框架打通能力。


4、游戏行业的客服

 

image.png

 

游戏行业的客服原来是基于单轮对话进行查找,现在可以基于RAG进行架构升级,通过大脑使用和游戏世界观的独立建立,做到数百款游戏同时的在线客服的服务。通过多轮对话的方式,经过安全滤网的评估策略,实现了从意图判断、知识召回、总结润色和排版优化的智能内容生成,实现游戏内、游戏外客服全链路的体验升级。

 

四、方案涉及产品的选型配置简介

 

1.方案及产品选型配置

image.png

(1)云原生数据仓库AnalyticDB PostgreSQL

云原生数据仓库AnalyticDB PostgreSQL,选用基础版的最低规格即可完成本次课程,即开启向量引擎,同时支持4C*单节点存储50G,这里可以开在北京,预估费用在三元左右。


(2)函数计算

函数计算主要用于帮助客户搭建网站,同时开放网站智能助手,提供相关的样例代码,进行快速的冷启动,完成网站和智能助手的应用层构建,本次对于新用户全免费。


(3)阿里云百炼产品

阿里云百炼产品主要用于模型调用、RAG应用的智能化应用搭建,目前新客户免费使用token。如果在1个小时内完成,体验不超过10元。


2、ADB的两种资源实力

 

image.png

 

1高性能版本,基本可以满足主流的业务使用,只需指定所有的计算资源和存储资源即可。

2对于企业未来在长期使用过程中,面向最核心、高可用的场景,推荐企业购买可用版本,相较于高性能版本上,可用性、容灾DR上有非常强的保障,也提供99.95的SRV保障,购买逻辑和高系统版本一样,目前ADB只对计算和存储进行收费。

 

五、最新发布

 

1、ADB即将发布的相关内容

image.png

 

1企业内可能会使用灵码助手,AnalyticDB PostgreSQL服务目前已经支持了通义灵码企业标准版问答,即将在Q2开放企业的私域ADB作为私域的RAG引擎关联,完成和百炼一样的框架搭建。这样,企业可将自身的知识存储在本地,将自己的私域内容作为灵码生成的补充,确保生成的代码更符合企业的标准和企业的自身代码库的积淀。


2ADB成为析言推荐的NISQL数据分析引擎。ADB实际在数仓领域也有非常多的客户进行相关选择。作为企业核心的数据分析引擎。析言可以更好的将ADB的使用方式从单纯面向分析师的SQL使用方式、面向BI对接的使用方式变成通过自然语言的交互式数据查询引擎。用户可以使用自然语言查询post在ADB上的核心数据资产,完成数据分析、数据运营等相关的工作。目前这个能力已经开放,并且ADB也会持续和阿里云主流大模型相关的应用进行整合、集成,帮助企业覆盖更多大型原生的构造场景。

相关文章
|
1天前
|
调度 云计算 芯片
云超算技术跃进,阿里云牵头制定我国首个云超算国家标准
近日,由阿里云联合中国电子技术标准化研究院主导制定的首个云超算国家标准已完成报批,不久后将正式批准发布。标准规定了云超算服务涉及的云计算基础资源、资源管理、运行和调度等方面的技术要求,为云超算服务产品的设计、实现、应用和选型提供指导,为云超算在HPC应用和用户的大范围采用奠定了基础。
|
8天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
10天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
8679 20
|
14天前
|
Cloud Native Apache 流计算
资料合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
4656 11
资料合集|Flink Forward Asia 2024 上海站
|
14天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
22天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
10天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
|
9天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
804 50
|
7天前
|
弹性计算 运维 监控
阿里云云服务诊断工具:合作伙伴架构师的深度洞察与优化建议
作为阿里云的合作伙伴架构师,我深入体验了其云服务诊断工具,该工具通过实时监控与历史趋势分析,自动化检查并提供详细的诊断报告,极大提升了运维效率和系统稳定性,特别在处理ECS实例资源不可用等问题时表现突出。此外,它支持预防性维护,帮助识别潜在问题,减少业务中断。尽管如此,仍建议增强诊断效能、扩大云产品覆盖范围、提供自定义诊断选项、加强教育与培训资源、集成第三方工具,以进一步提升用户体验。
648 243
|
4天前
|
弹性计算 运维 监控
云服务测评 | 基于云服务诊断全方位监管云产品
本文介绍了阿里云的云服务诊断功能,包括健康状态和诊断两大核心功能。作者通过个人账号体验了该服务,指出其在监控云资源状态和快速排查异常方面的优势,同时也提出了一些改进建议,如增加告警配置入口和扩大诊断范围等。