1. OpenAI正式收购实时数据分析公司Rockset
日前,OpenAI公司宣布收购实时分析数据库公司Rockset,将该公司的人才、重要技术同时纳入囊中。OpenAI表示,AI有机会改变个人和组织利用自身数据的方式,OpenAI将基于Rockset提供的世界一流的数据索引和查询功能,提升其在 AI 领域的服务和产品,为客户提供更高效、智能的数据处理解决方案。
2. 为何OpenAI需要Rockset?
OpenAI曾经和相关检索引擎有过合作,如在早期和Pinecone、ES等独立向量检索引擎进行合作,打造Naive RAG相关应用进行ChatGPT Retrieval Plugin等开源框架项目。这些早期的行业试水,在泛互联网基础场景中展现出了绝对的创新性和统治力。但是在目前行业深度拥抱大模型进行升级改造的过程中,纯粹的大模型 + 单纯的检索引擎展现出了厚度不足、深度优化手段薄弱、一方可介入的解决方案有限、企业级相关能力缺失等问题。
当前OpenAI的产品矩阵主要以模型服务为核心,包括开源RAG框架(ChatGPT Retrieval Plugin)和C端商业化应用(ChatGPT),基本上覆盖了从核心能力到场景化的基本能力构建。但是在服务于企业的端到端落地层面,相较于目前的全链路体系,OpenAI在数据引擎层面还存在着提升空间。OpenAI当前并没有开放数据引擎的管理和提供面向数据引擎+AI的一方产品能力,在初期更多是采用前期相对敏捷的向量引擎, 如Pinecone和开放的数据服务Data API等来进行对接;而Rockset的引入,为OpenAI提供了数据层的客户和场景的双向互引:
- Rockset + OpenAI:在应用构建成本极低的情况下,应用深度根植于数据, 企业的数据多元化触发了海量的数据应用, 而Rockset在其自身定位的基础之上, 引入了Data+AI的相关场景, 让企业级B端应用在AI能力的助力上,实现了数据分析、数据处理、数据洞察、模型服务、数据服务等相关的应用跃迁。
- OpenAI + Rockset :Rockset融合数据的处理能力为OpenAI GPT相关 AI 驱动的业务进一步提供了数据管理的厚度, 一方的数据平台可以将内部最佳的模型训练经验、数据sft优化策略、RAG链路优化等全部集成在平台之上,使得OpenAI在支持大型企业落地上能够大幅提高落地效率、丰富调优手段。同时随着企业的持续增长,可持续积累数据经验,形成增长飞轮。
3. 云原生数据仓库AnalyticDB核心能力
企业级RAG的核心,是支持搜索召回能力的数据仓库。阿里云瑶池旗下的云原生数据仓库AnalyticDB,在2023年即开始和通义家族多款产品共同打造核心企业级场景,依托于自身完备的企业级能力,为通义千问的模型提供数据能力和调优手段的支持,同时,AnalyticDB也对用户的数据场景进行了深度分析,在数据+AI的分析能力、在数据开发的智能化场景和智能化构建RAG应用等方面都进行了深度探索。
AnalyticDB具备完整的事务处理、高吞吐写入和业界领先的流批一体引擎,通过全自研计算引擎及行列混合存储引擎,提供高性能数据处理和在线分析能力。AnalyticDB 在数仓中内置 AI 能力,提供向量检索、一站式 RAG 服务,和企业知识库、文搜图/图搜图等解决方案,帮助企业快速构建 AI 应用,一键开启 Data+AI 新范式,架构图如下所示:
AnalyticDB架构图
AnalyticDB核心能力项如下表所示:
4. 实时数据+全索引,引爆Data+AI加速度
AnalyticDB支持同步写入模型和强一致性,高吞吐写入后立即可见。在AnalyticDB内部基于日志同步、实时引擎、主键、DeleteSet和行级MVCC进行实现,在超大规模数据集下仍然做到所有DML的行级实时可见。查询时,各个Shard各自取Leader最新位点所对应的行级快照,即可满足完全实时可见并保证强一致。
AI模型训练所需要的数据,来自于多种多样的数据源,传统的离线导入能力往往需要隔天T+1导入,损失了数据新鲜度。在类似智能问答机器人、新闻智能推荐等AI场景中,数据新鲜度的降低会严重降低业务价值。AnalyticDB可提供具备强一致性的实时数据读写能力,通过数据实时可见确保数据新鲜度;且强一致性也极大简化了上层数据系统的开发难度,提升了数据清洗、提取、转换的工作效率,确保模型训练的每一个环节都能够得到加速。
在索引方面,AnalyticDB与Rockset的相似之处在于两者都自动对所有列建立了索引。不同之处在于:
1)Rockset对于每一列都做了3种索引:适用于点查的倒排索引,适用于聚合的列存索引,适用于数据获取的行存索引;在提供丰富访问模式的同时,也进入了较大的存储开销。
2)AnalyticDB则提供了更丰富、更细粒度的索引能力。
AnalyticDB面向极致的查询下推和延迟物化设计,支持了包括倒排索引、BKD索引、Bitmap索引、向量索引、全文索引、JSON索引等几乎全类型的列级索引实现,覆盖结构化数据和半结构化数据,适用于不同场景的查询性能。全索引的默认设置,玄武引擎会自动为不同列类型选择不同的索引实现,用户无需干预只需专注业务对SQL的使用。
除列级二级索引外,还支持聚集索引(Clustering Key),是一种行数据排序键,使得数据按定义的列顺序分布,使得IO基于排序列聚集,能极大提升在这些排序列上的数据读取效率。AnalyticDB进一步提供了智能索引能力,结合用户的SQL Pattern提供了自动索引推荐、无用索引删除的功能。
RAG(Retrieval-agumented-generation)是AI大模型最为典型的应用场景,也是ChatGPT等问答机器人的关键前置条件。高质量、高效的retrieval能够极大程度上提升问答准确性,是整个AI时代的必备基础设施。AnalyticDB在数据搜索维度可提供更高性能,提供聚集索引,使得数据存储更有序,进一步提升了压缩比及IO性能,最终能够降低客户侧的E2E响应延时。
5. AnalyticDB:数据智能化先驱者
AnalyticDB早在2023年就和阿里云百炼开启了AI & Data的相关合作。阿里云百炼是一站式的企业专属大模型生产平台,基于通义千问大模型和8大行级模型及企业专属数据,结合全链路大模型开发工具所打造的一站式大模型商业化平台。提供完整的模型训练、微调、评估等产品工具,预置丰富的应用插件,提供便捷的集成方式,更快更高效地完成大模型应用的构建。
AnalyticDB在数据仓库能力之上提供全自研的高性能RAG引擎,支持高并发、低延时的向量检索,标签过滤+向量检索+全文检索融合分析。内置一站式RAG开发服务(文档处理、Embedding、召回、精排),避免因为AI引入多个引擎造成数据孤岛和复杂的运维。
5.1 AI+数据仓库
阿里云百炼结合AnalyticDB高性能向量引擎,企业可在之上构建企业专属知识库,让大模型具备私域知识。
- 面向对象:企业用户及伙伴研发/技术人员。
- 核心能力:支持大模型训练和微调。
- 服务形式:通过API服务输出给用户,方便用户进行集成和使用专属大模型能力。
- 应用编排:支持用户打通自己的业务能力API,可以将专属大模型能力结合进入自己的业务链路。
产品架构图
三条核心路径支撑企业和生态合作伙伴练就自己的专属大模型,解决企业实际经营问题。
5.2 数据仓库+AI
AnalyticDB还创新性地将AI应用在数据库的核心场景中,包括在数据分析和客户运营体验的提升,通过阿里云百炼析言的产品能力支持,允许用户将自身的核心数据通过自然语言的方式进行交互式分析。此外,AnalyticDB还将模型对于情感的分析沉淀到了数据库中,基于LLM升级原数据处理方式,实现仓内智能方案。通过通义模型的直接调用,我们将之前需要独立处理的情感分析,质量检测场景, 帮助企业的数据开发工程师快速拓展能力边界,至面向非结构化数据分析能力。
6. Data+AI新范式
2023年自ChatGPT发布以来大语言模型让人们看到了生成式AI能实现和人类高度相仿的语言表达能力,整个业界自顶向下都相信大模型可以改变人们的工作方式。经过各行各业实践总结,结合大模型与向量检索引擎、全文引擎构建的 RAG (检索增强)架构已经成为AI应用落地最可控、高效、数据的技术方案。
AnalyticDB提出 Data+AI 新思路,在数据仓库能力之上支持标签过滤+向量检索+全文检索融合分析能力,同时提供仓内的一站式RAG服务(文档处理、Embedding、召回、精排),避免因为 AI 引入多个引擎造成数据孤岛和复杂的运维。
目前,AnalyticDB已与阿里云百炼、通义析言、通义灵码、通义点金、钉钉、阿里云PAI工具实现集成,同时提供企业专属知识库及Chatbot、文/图搜图等解决方案供企业直接使用构建 AI 应用。