数据之势丨AI时代,云原生数据库的最新发展趋势与进展

本文涉及的产品
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
简介: AI与云数据库的深度结合是数据库发展的必然趋势,基于AI能力的加持,云数据库未来可以实现更快速的查询和决策,帮助企业更好地利用海量数据进行业务创新和决策优化。

uiqpush4khazq_98553b8fe1ab49caab541e185c5f7dbd.png
《云栖战略参考》由阿里云与钛媒体联合策划,呈现云计算与人工智能领域的最新技术战略观点与业务实践探索,希望这些内容能让您有所启发。

文/黄铭钧「新加坡国立大学李光前百年纪念讲席教授、浙江大学长江讲座(Adjunct)教授、清华大学杰出访问教授、新加坡科学院院士、新加坡工程院院士、中国科学院外籍院士、欧洲人文和自然科学院外籍院士、ACM Fellow、IEEE Fellow」


随着云计算的日益普及,其降低成本、简化运维流程的优势正吸引着越来越多的企业将业务迁移至云端。

对于开发人员而言,采用云计算产品技术意味着可以摆脱对负载均衡等基础设施问题的困扰,使得开发者得以更加高效地提升应用性能,并减少对横向扩展等复杂技术问题的关注,从而将更多精力投入到代码逻辑与应用程序等核心业务的开发与创新。

采用云计算架构已成为业内常态,并且越来越流行。虽然它支持独立地扩展计算及存储资源,但这种架构却并非无可挑剔。逻辑层之间的通信、接口整合、信号处理以及数据传输都涉及额外成本,并且要求大量的工程以确保系统的优化与高效运行。在处理这些挑战时,我们必须仔细权衡设计决策,以确保云计算架构既能满足性能要求,又能保持成本效益。

在这方面,云原生数据库PolarDB率先迈出了重要的一步。云数据库实现了存储与计算的分离解耦,具备三个方面的优势:第一,高性能,存储和计算独立可扩展;第二,可伸缩性,实现动态扩缩容;第三,低成本,通过资源池化从而提高资源利用率。

云原生数据库2.0时代:人工智能与云数据库的深度结合

在人工智能技术不断取得突破的推动下,云原生数据库迎来了2.0时代的新篇章。AI与云原生数据库的深度融合,也将大有可为。

人工智能融入云原生数据库,旨在提高数据库系统的处理效率,实现更加细致的负载平衡和更精确的用户行为预测,进而高效、精准地评估并满足用户需求。因此,我们需要基于AI算法对云数据库进行优化,例如用深度学习的方法对云数据库资源进行调度;同时,我们也需要基于云数据库对AI应用进行优化,例如用数据库高效支持数据驱动的AI应用。而随着人工智能模型规模的扩大,我们必须提供充足的数据支持。这不仅涉及大型语言模型(LLM)和推理技术的应用,也意味着随着模型规模的扩大,数据需求亦相应上升。因此,供给高质量数据,从而助力AI大模型的训练和决策过程,尤显重要。

经过数字化的发展,我们已经掌握了海量数据,其中有20%为结构化的表格数据,这部分数据最值得关注。通过挖掘这些数据的内在逻辑,并思考如何高效地将其融入到大模型中,对实现更精确预测与作出有力决策至关重要。

当前,我们正积极探索如何拓展深度学习技术的应用,并研究如何从数据库系统中汲取知识精髓,以强化模型训练与推理的性能。在这一创新征程中,两项关键技术显得尤为重要:其一,数据库内部的模型选择机制;其二,模型在数据库内的精细化切片。这两大技术将作为推动未来数据库技术发展的关键因素,使云原生数据库能更加有效地整合并发挥人工智能的力量。

数据库内部的模型选择机制

随着大数据和人工智能技术的快速发展,模型选择已经成为了数据分析中不可或缺的关键环节。其核心任务是在众多可用模型中,精准有效地筛选出与特定数据集相契合的模型,因为选择最恰当的模型对于提供预测任务的强力支持、优化应用性能具有决定性意义。

因此,将模型选择过程集成到数据库系统内部,比如PolarDB或PostgreSQL,已变得至关重要。云原生数据库为模型选择算法也提供了一个高效的支撑平台。

一个理想的模型选择系统,应同时具备高性能和低成本的特性。然而,传统的模型选择方法往往包括复杂的步骤:首先,在数据处理环节,需要执行一系列操作,如从数据库导出数据、排序、进行ETL(提取、转换、加载)操作,并对数据进行预处理。接着,在模型选择过程中,必须遍历整个模型空间,逐个对模型进行采样,并依靠训练数据进行数百到数千次的迭代训练。这个过程复杂且耗时,不仅消耗大量内存,而且全面地训练模型直至拟合所需的成本也非常高。此外,最终选择的模型通常基于其表现能力和训练的可行性进行评估。

为了在数据库系统中高效、准确且节约资源地识别适合特定应用和数据的深度学习模型,我们引入了“资源节约型两阶段模型选择算法”。在过滤阶段,该算法使用一个高效的、无需训练的模型评估矩阵,以筛选出潜在最适合应用和数据需求的模型。这一过程不涉及直接训练模型,而是依据特定评价指标来识别具有潜力的模型。在细化阶段,算法挑选几个潜在最适宜的模型进行深入训练。此外,算法包含一个协调器,能自动调整两个阶段的时间比例,以符合服务水平协议(SLA),确保精准地选出最优模型。

这一机制在本质上类似于数据库查询处理中的执行计划评估——从评估全套计划开始,逐步缩减至最优计划的选择。遵循类似原则,这种方法旨在迅速淘汰非优选项,同时基于成本与效益的最优化来做出最佳选择。
《AI时代,云原生数据库》1.png

为了降低模型选择过程中数据读取的开销,我们将提出的“资源节约型两阶段模型选择算法”以非侵入式方法与PostgreSQL和PolarDB集成。对于I/O密集的过滤阶段,我们通过用户自定义函数(User Define Function,UDF)来执行,并利用服务器编程接口(Serial Peripheral Interface,SPI)来加速数据读取。

对于计算密集的细化阶段,我们利用外部GPU并行执行模型训练,并采用管道并行技术加速数据读取,以此来提高整体性能。这种方法旨在优化数据处理效率,确保模型选择过程既快速又高效。

这项设计实现了高性能与低成本相平衡的模型选择。在性能方面,与传统系统相比,结构化和非结构化数据集上的模型搜索速度分别获得了高达24.38倍和52.10倍的显著提升。在成本方面,对结构化数据集而言,搜索同等性能的模型所需的系统GPU使用时间降低了29.32倍。

这一创新方法为云原生数据库技术在模型选择领域的应用奠定了坚实的基础,并有望推动人工智能与数据库技术的进一步结合。

数据库内的模型切片

在云计算时代,随着数据呈指数级增长,数据分析对AI模型提出了更高的要求。通用模型无法满足预测任务日益增长的精准度和效率需求,考虑到在预测任务中所涉及的查询条件会携带预测目标的元信息,如何有效利用此信息使得模型预测更加精准成为了问题所在。

由此,数据库内部的模型切片技术应时而生。模型切片是一项模型增强技术,通过对查询条件进行深度建模和利用,构建任务专用模型,从而在预测的精度和效率上得到显著提高。

我们提出了一种新型的模型切片方法,基于混合专家网络进行设计。该方法对查询条件进行编码,转化为易于机器处理的向量特征,同时对基础模型进行了横向扩展。该方法基于查询向量进行条件计算,在扩展后的专家模型集合中智能选择出最适合当前预测任务的组合,以提高在该任务下的预测表现。

我们不满足于简单的基于SQL查询的模型切片算法。在实际应用中,如何将算法整合于数据库中,提供便捷的使用接口,真正为分析人员提供准确且高效的数据分析功能较之更为重要。
《AI时代,云原生数据库》2.png

例如,在分析特定数据集(如特定年龄或人群)时,深度分析变得不可或缺。基于SQL语句所提供的信息,我们能够对数据视图、评价体系以及隐私保护进行更有力的控制与管理。

数据库内的模型切片功能通过数据库原生的PGX进行实现,并以用户自定义函数(UDF)的形式集成于Postgres之中。其中利用Rust调用Postgres的系统编程接口SPI进行数据交互,利用Python实现模型推理。SPI可帮助优化数据读取的I/O开销,同时共享内存的设置可以减小上下文切换的成本。

这类改进显著提升了模型的准确度和运算效率。在多个领域的结构化数据预测任务中,使用模型切片技术后的结果中,AUC-ROC值相较于基础模型提升了2.4%;对于大量预测请求,内置于数据库的模型切片分析技术相较于传统数据分析方法提速1.22倍。

理论上来说,增加更多专家模型数量可以提高准确性,但也会带来更高的计算成本。所以,我们也正致力于进一步优化性能,减少混合专家模型(Mixture of Experts,MoE)的计算成本。

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
3天前
|
存储 SQL 监控
Visual Basic与数据库交互:实现数据访问和管理
【4月更文挑战第27天】本文探讨了使用Visual Basic进行数据库编程的基础,包括数据库基础、连接、数据访问技术如ADO.NET,数据绑定,事务处理,存储过程与视图。还强调了性能优化、安全性、测试与调试,以及持续维护的重要性。通过掌握这些概念和技巧,开发者能构建高效、可靠的数据驱动应用。
|
8天前
|
关系型数据库 Apache 流计算
手把手教你实现 OceanBase 数据到阿里云数据库 SelectDB 内核版 Apache Doris 的便捷迁移|实用指南
本文介绍了如何将数据从 OceanBase 迁移到阿里云数据库 SelectDB 内核版 Apache Doris。提供 3 种数据同步方法 1. 使用 DataX,下载 DataX 并编写配置文件,通过 OceanBaseReader 和 DorisWriter 进行数据迁移。 2. 利用 Apache Doris 的 Catalog功 能,将 OceanBase 表映射到 Doris 并插入数据。 3. 通过Flink CDC,设置 OceanBase 环境,配置 Flink 连接器,实现实时数据同步。
手把手教你实现 OceanBase 数据到阿里云数据库 SelectDB 内核版 Apache Doris 的便捷迁移|实用指南
|
1天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在使用 DataWorks 数据集成同步 PostgreSQL 数据库中的 Geometry 类型数据如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
6 0
|
6天前
|
人工智能 NoSQL atlas
生成式AI入门必读:基本概念、数据挑战与解决方案
为了实现这一目标,许多企业正在选择MongoDB Atlas
|
6天前
|
SQL 关系型数据库 API
从API获取数据并将其插入到PostgreSQL数据库:步骤解析
使用Python处理从API获取的数据并插入到PostgreSQL数据库:安装`psycopg2`,建立数据库连接,确保DataFrame与表结构匹配,然后使用`to_sql`方法将数据插入到已存在的表中。注意数据准备、权限设置、性能优化和安全处理。
|
7天前
|
存储 人工智能 数据库
【AI大模型应用开发】【LangChain系列】10. 实用技巧:如何使用已经存在的向量数据库作为 Retriever?
【AI大模型应用开发】【LangChain系列】10. 实用技巧:如何使用已经存在的向量数据库作为 Retriever?
19 0
|
7天前
|
数据采集 存储 人工智能
【AI大模型应用开发】【LangChain系列】实战案例4:再战RAG问答,提取在线网页数据,并返回生成答案的来源
【AI大模型应用开发】【LangChain系列】实战案例4:再战RAG问答,提取在线网页数据,并返回生成答案的来源
34 0
|
7天前
|
SQL 人工智能 JSON
【AI大模型应用开发】2.2 Function Calling连接外部世界 - 【实战】查询数据库
【AI大模型应用开发】2.2 Function Calling连接外部世界 - 【实战】查询数据库
14 0
|
12天前
|
存储 关系型数据库 MySQL
如何处理爬取到的数据,例如存储到数据库或文件中?
处理爬取的数据,可存储为txt、csv(适合表格数据)或json(适合结构化数据)文件。若需存储大量数据并执行复杂查询,可选择关系型(如MySQL)或非关系型(如MongoDB)数据库。以MySQL为例,需安装数据库和Python的pymysql库,创建数据库和表,然后编写Python代码进行数据操作。选择存储方式应考虑数据类型、数量及后续处理需求。
21 1
|
13天前
|
SQL 关系型数据库 MySQL
关系型数据库插入数据的语句
使用SQL的`INSERT INTO`语句向关系型数据库的`students`表插入数据。例如,插入一个`id`为1,`name`为'张三',`age`为20的记录:`INSERT INTO students (id, name, age) VALUES (1, '张三', 20)。如果`id`自增,则可简化为`INSERT INTO students (name, age) VALUES ('张三', 20)`。
21 2