一、打开数据到应用的任督二脉
本次主题基于OpenLake的大模型训练及RAG,基于OpenLake如何赋能AI,以及AI如何赋能各种千行百业的业务。首先介绍大模型真正变成现实过程当中的环节,数据需要结合AI,AI给数据提供LM的模型供给。
Nature language processing是在处理结构化数据还是非结构化数据,几年前一定是非结构化数据,这是人类的自然语言。但今天NLP已经不再是一个典型的非结构化数据,因为自然语言已经能够通过大语言模型非常精确的做结构化的操作,所以AI for Date不仅仅是提供简单的模型,它更提供一个把非结构化数据转化成为结构化数据的可能,基于数仓所构建的应用,它能够真正理解物理世界,Nature Language自然语言是非常容易被大模型所理解,自然语言的数据是容易进到模型里边的,未来会有更多的非结构化数据通过数据训练进入到模型当中。
第二个部分是Data for AI,高质量数据的供给,今天在世界范围内数据最容易获取的是互联网,酷狗最早做搜索,通过互联网抓取各种各样的数据,这个数据有文本、图片,它可以做模型的训练,训练出Chat GDP的large language model,然后有youtube上面的数据,有各种各样视频的数据,再结合diffusion技术,做diffusion transformer,大家就开始理解视频当中的各种各样的内容,实际在这个世界当中,最核心的业务数据都在数据库里和在大数据平台里边,今天这些数据能够高效安全的被AI所使用,这是当下能够实现AI业务落地的至关重要的环节。
二、OpenLake+PAI
首先基于OpenLake的解决方案,它可以无缝的打开从Open Link各种引擎底层的存储,到人工智能平台之间的一个通路,数据是人工智能的基石,但在整个的数据被应用的过程中,遇到非常多的挑战,首先是高效安全的进行整个训练数据的管理。在如今想用一些高质量的数仓数据进行训练的时候,这些数据的资产该如何被更好的管理和使用,第二挑战是多模态数据的清洗,随着模型能力的变强,多模态数据的处理能力变得更强,但是多模态数据在数据管理平台上,以前更多的是以文件的形式存在,如何能够把他们进行更好的管理,以及进行相应的清洗,第三个挑战是在多模态数据的增强,当处理一份多模态数据的时候,现在有很多用AI能力可以进行数据增强处理的,如何让AI能够快速的access到对应的Data。
最后是大规模的智能标注能力,有一个公司叫做Scale AI。它是一家做数据标注的公司,他在2019年成为open AI的数据供应商,为Open AI提供标注数据,这些数据其实最开始肯定更多的都是靠人标注的,如今有更好的方法能够做数据的清洗,能够用AI的方法以及用大数据的方法对数据进行标注,使数据生产的效率决定模型的效果,这块能够基于OpenLake把数据和AI连接在一起产生的化学反应,在LLM领域训练一个模型要做很多非常复杂的数据清洗的相关操作,平台已经开始提供各种各样的面向LLM数据预处理的标准化方法。提供丰富的LLM的数据预处理模板,如果一家初创企业想做语言模型的训练,可以通过平台获得各种各样数据预处理的方法,这里边涵盖非常多的数据预处理的模块,这些数据处理的过程,实际上它在CPU上面的计算全部都是在OpenLake上面的引擎里,包含像多模态的数据质量的分析,数据进来要先做基本的数据质量的验证,它可以跑在GPU的服务器上,也可以跑在基于OpenLake的各种大数据的处理引擎上面,处理完后,有非常多的工作是在多模态数据的清洗,这个清洗过程有可能把非结构化数据转换成结构化数据,也可能是对非结构化的数据进行过滤的操作,可以选择各种各样的组件,针对的数据完全都是在OpenLake上面的,一份数据既可以做AI的分析,也可以做大数据的分析,清洗完还可以做多模态数据的增强,最典型的是一个多模态数据的增强,比如训练一个语言模型的时候,可以针对语言模型输入语料进行扩展。扩展它背后是用一个大语言模型,帮助扩展视频的描述,这些相关的操作在数据平台上都有标准化的组件,能够帮你连接好大数据,以及背后AI计算的相关资源。
在平台上面,在Open Lake上面处理数据,在派平台上面进行模型的训练,function以及build最终的influence服务,整个的过程可以在统一的平台上面看到AI模型血缘信息,训练一个语言模型,尤其是针对某一个特定企业训练一个语言模型的时候,经过Build的原数据系统判定模型效果好与不好,就知道模型经过什么样的数据预处理,它的预训练模型是用什么数据训练的,训练多少次,每次用到什么样的数据,最终产生一个什么样的模型,当发现可能是某一次训练数据送进来有些问题,这个时候可以定位到具体是哪份数据发生问题,并且对它进行相应的修改或者修正,可以通过平台提供从大数据处理到最终的AI influence端到端的数据血缘链路。
血缘可以通过系统,如今只要使用OpenLake,使用计算引擎自动去上报产生的数据,如今在Open lake上,在引擎当中所做的每一个操作,在Data os上写的每一行代码,在Paimon里边所训练的每一个模型系统都帮你记住,并且帮你以可视化的方式呈现在你的面前,所有的信息都会进行自动上报。
另外依托于统一存储和调度,可以实现跨引擎多实体的数据血缘的串联,比如在AI上面做完的事情,到大数据做完后,中间可能就断掉了,如果是一个多对多的关系,这个互相之间的模型血缘就没有。如今在OpenLake上,可以把全局的数据的处理以及后边的训练全部在统一的平台上面展示,另外模型可能训练需要出现非常多的版本,针对不同版本,也包括数据版本和模型版本,都可以在平台上面清晰展示。另外Open Lake上面有非常多的引擎,也有非常多的平台和统一的入口,都可以在各个地方到模型学员上面找到上下游相关的数据。模型产出后,如果模型太大,可能费用非常高。如今人工智能的平台,通过BladeLLM的核心引擎提供一系列的优化,包括在推理过程当中的调度优化,在GPU核心算子上面的优化,以及通过编译技术的依托模型的自动优化,可以看到针对相同结构的模型,随着整个support的提升,如果用最简单的开源的模型,可以看到token一旦多了后,它的延迟就会变的非常长,在大数据领域token会变得非常多,对于大数据来说并不多,通过BladeLLM可以将模型推理的效率提升,核心降低使用的成本。
在整个的链路中,所串联的AI模型能够进一步让整个大数据的使用者不用关心AI推理效率的问题,全部由平台提供服务。
简单总结,提供大数据AI一体化的开发,有非常轻量化的Notebook的能力,Notebook可以在Data works当中直接拉起连接各种各样的引擎,针对各种各样引擎的场景,在Notebook里边都有已经有best practice,通过Notebook预制好最典型的案例,可以通过Notebook gary就可以找到相应的最佳实践,另外AI+Data Paimon,如果不是很擅长写Python和SQL,可以让其他人把Python和SQL帮你写好,你可能更多的是focus在pipeline的pipeline的构建。同时Notebook组建,自定义freestyle写的代码,也可以天然的plugin到大数据pipeline里边执行相应的调度。最后是端到端的血源,它不仅仅是大数据的学员,也是从数据到AI端到端的数据血缘。
三、OpenLake+OpenSearch
下面介绍RAG场景,AIGC在市场的落地场景有两个,第一个场景是基于stable diffusion的纹声图的场景,纹声视频maybe未来会很火,第二个是RAG,即检索增强的交互式的检索能力。stable diffusion并不属于LLM时代,因为它并不是transformer结构的能力,同样企业在构建自己的RAG system时,遇到了非常多的挑战,RAG最近一年左右经历大起大落,所有人都可以build一个RAG system,五分钟构建你自己的RAG,业内所有的人都说这个东西叫好不叫做,原因首先就是在场景上面对效果的要求非常高,尤其是tob商业领域和数据库里面的数据结合的领域,很难接受10%到20%的错误率。
另外就是有些人可能会选择用Open AI的API串联模型,很多企业发现企业的数据可能被泄露,数据安全可能又会成为一个核心的问题。如果不用公开的Chat GPT,比如买某些云厂商的自己的dedicate instance,调API很便宜,但是如果想build dedicate instance,它价格是非常贵。
最后是自己的数据往往存在各种各样的地方,这些数据想要接入到整个AI的系统里是非常难的,比如有100万个文件要进入到RAG system,尤其是当每天在100万文件里边还要更新1000个文件的时候,这1000个更新如何推送,这些可能都是阻碍RAG在to b场景当中真正落地的很难逾越的鸿沟。
如今把OpenLake和OpenSearch的搜索开放的平台进行连接,它核心解决两个问题,首先是搜索领域,淘宝整个的搜索完全是基于OpenLake 技术支撑的,它提供一系列的像文档的解析 切分 向量化,以及搜索上面的基础能力。有这些能力如何连接到实际的数据,OpenLake提供统一的存储,通过Paimon能够有统一的数据处理的方式,有统一的原数据和存储,并且有实时数据能够进入到系统里边,就把搜索的能力和最宝贵的业务数据连接在一起,就能够解决一部分挑战,但是这里还没有完全解决。
最核心的能力分两层,首先是在整个框架层上面,能够通过统一的原数据让大家能够找到这些数据,找到这些数据后里边的能力,如果使用OpenLake+OpenSearch的解决方案,蓝色部分的所有的能力都有building的版本。如果自己没有做过太多搜索相关的产品,完全可以使用产品默认配置搭建相应的服务。有一些企业可能在一些特定的领域有一些特定的诉求,比如学习一个文档,基于文档做问答。比如在基因领域,想要做基因病毒分析,氨基酸序列该如何切分,这个切片的过程可能和文档的切片就不一样,每一个蓝色的框都支持用户可以plug in,可以选择其中的某几个组件,也可以选择skip其中的某一个或某组件替换成自己的,如果企业里边的知识,不管是文档性的知识,还是数据库数仓里的知识,它有一些特殊的切片方法,可以完全把它自由的plug in进来,就能够让整个搜索效果能够更好展示在OpenLake上做易用性能力。
首先在OpenLake里边可以管理各种各样的表的数据和湖上面的数据,基于OpenLake的表管理,可以直接构建向量索引,在统一的平台上面。点完后,就开始创建一些索引,如果需要构建新的索引,也可以创建一个新的向量索引。点完以后,这里边已经开始准备创建,先提供一个空白的表单,如果要创建自己的索引,会显示索引的详细配置,如果从来没有配置过一个向量索引,平台有native的recommendation的建议,平台会根据你所选择的表的数据类型判断你到底是稀疏的还是稠密的,进行相应的创建,点击完就可以创建索引,索引创建完成以后,如何使用build up搜索的服务或者query服务的API,build之前,比如debug和试用一下,在平台上可以一键前往Notebook,构建一个自己的react system,Notebook里面是有最佳实践,任何一个地方都不会是空白的东西,让你从零到一的去写,如果不会写任何的Python,只要从头到尾一步一步的执行,它就能够基于默认数据,基于所构建索引的数据,帮你把自己的rex system build up,包括相关的Python代码进行参数的相应替换,替换完成以后,整个RAG systembuild起来,这是一个例子,就可以在里边通过自然语言进行。
这是个debug的系统,真正在实际业务场景当中,不会用这套东西服务客户,但是在整个的实验过程当中,评测过程当中,可以完全使用Notebook体验交互式的效果的评估,这个过程当中任何的中间的服务都是可以进行相应的替换的。未来更多的模型对物理世界的理解并不是基于natural language的,其实人自己用人脑学习东西的时候,感知这个世界并不是靠读书,靠的是视觉、听觉,多模态在未来任何一个领域和行业都是非常重要的。
整个解决方案也是基于模型能力,提供相应的多模态的能力,与多模态的检索的好处一样,基于结构化或非结构化数据build向量的索引之后,有最好的practice在里边。默认可以相应的执行,这个case实际上就是在OpenLake上面存一些图片的数据,输入一段音频,这个音频里边包含狗的叫声,放狗的叫声看最后能够搜出什么样的东西。这仅仅是一个例子,通过一个声音可以进行多模态的检索,它背后的意思是对整个的物理世界的理解能力变强了,数仓里面所存的跟业务息息相关的数据可以通过模型的能力,通过统一平台的能力让系统对于数据产生更强的理解,但是在自己的业务场景中,数据具备的特点就可以发挥自己的想象build自己相应场景的system。
在整个RAG场景中有非常多的挑战,讲到的整个的解决方案,一方面是为企业提供真正的企业级的性能,当遇到非常大的规模化成本相关的问题时,不管是在检索领域遇到的问题,搜索rank过程遇到的问题,还是训练推理过程遇到的问题,都可以轻松的在平台上解决。另外第二部分是RAG一定要有非常好的效果,如今build up system只基于大元模型加向量检索,准确率会很低,做一些promise优化,以及多路的召回61%。加入针对企业特定模型,准确率又进一步提升,把rerank加入进来,做数据切片引入多力度的切片能力,它的准确率就能提升到90%以上,经过不断的优化过程,系统能力就会变得更强,并且最终整套系统都是完全安全可信的,并且也可以通过case看到整个的义务性也是非常好的。
如果没写过Python,把这个最佳实践从头到尾执行一遍,能够得到一个RAG system。当然效果不一定好,还需要相应的微调。RAG systerm已经在各行各业产生非常多的最佳的实践和案例,也有非常多的客户不仅是在客服领域、安防领域,还在电商,以及金融领域进行相应的表格问答,RAG只是模型+AI相结合的当下最为突出的一个场景,但是未来整个模型的能力都是迭代演进的,不断的能够把更多的更高质量的数据喂给模型和系统,能够用AI的能力演化出更多的贴近业务实际效果的模型,最终产生眼前一亮的业务效果。