数据之势丨AI时代,云原生数据库的最新发展趋势与进展

本文涉及的产品
云原生数据库 PolarDB MySQL 版,通用型 2核4GB 50GB
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
简介: AI与云数据库的深度结合是数据库发展的必然趋势,基于AI能力的加持,云数据库未来可以实现更快速的查询和决策,帮助企业更好地利用海量数据进行业务创新和决策优化。

uiqpush4khazq_98553b8fe1ab49caab541e185c5f7dbd.png
《云栖战略参考》由阿里云与钛媒体联合策划,呈现云计算与人工智能领域的最新技术战略观点与业务实践探索,希望这些内容能让您有所启发。

文/黄铭钧「新加坡国立大学李光前百年纪念讲席教授、浙江大学长江讲座(Adjunct)教授、清华大学杰出访问教授、新加坡科学院院士、新加坡工程院院士、中国科学院外籍院士、欧洲人文和自然科学院外籍院士、ACM Fellow、IEEE Fellow」


随着云计算的日益普及,其降低成本、简化运维流程的优势正吸引着越来越多的企业将业务迁移至云端。

对于开发人员而言,采用云计算产品技术意味着可以摆脱对负载均衡等基础设施问题的困扰,使得开发者得以更加高效地提升应用性能,并减少对横向扩展等复杂技术问题的关注,从而将更多精力投入到代码逻辑与应用程序等核心业务的开发与创新。

采用云计算架构已成为业内常态,并且越来越流行。虽然它支持独立地扩展计算及存储资源,但这种架构却并非无可挑剔。逻辑层之间的通信、接口整合、信号处理以及数据传输都涉及额外成本,并且要求大量的工程以确保系统的优化与高效运行。在处理这些挑战时,我们必须仔细权衡设计决策,以确保云计算架构既能满足性能要求,又能保持成本效益。

在这方面,云原生数据库PolarDB率先迈出了重要的一步。云数据库实现了存储与计算的分离解耦,具备三个方面的优势:第一,高性能,存储和计算独立可扩展;第二,可伸缩性,实现动态扩缩容;第三,低成本,通过资源池化从而提高资源利用率。

云原生数据库2.0时代:人工智能与云数据库的深度结合

在人工智能技术不断取得突破的推动下,云原生数据库迎来了2.0时代的新篇章。AI与云原生数据库的深度融合,也将大有可为。

人工智能融入云原生数据库,旨在提高数据库系统的处理效率,实现更加细致的负载平衡和更精确的用户行为预测,进而高效、精准地评估并满足用户需求。因此,我们需要基于AI算法对云数据库进行优化,例如用深度学习的方法对云数据库资源进行调度;同时,我们也需要基于云数据库对AI应用进行优化,例如用数据库高效支持数据驱动的AI应用。而随着人工智能模型规模的扩大,我们必须提供充足的数据支持。这不仅涉及大型语言模型(LLM)和推理技术的应用,也意味着随着模型规模的扩大,数据需求亦相应上升。因此,供给高质量数据,从而助力AI大模型的训练和决策过程,尤显重要。

经过数字化的发展,我们已经掌握了海量数据,其中有20%为结构化的表格数据,这部分数据最值得关注。通过挖掘这些数据的内在逻辑,并思考如何高效地将其融入到大模型中,对实现更精确预测与作出有力决策至关重要。

当前,我们正积极探索如何拓展深度学习技术的应用,并研究如何从数据库系统中汲取知识精髓,以强化模型训练与推理的性能。在这一创新征程中,两项关键技术显得尤为重要:其一,数据库内部的模型选择机制;其二,模型在数据库内的精细化切片。这两大技术将作为推动未来数据库技术发展的关键因素,使云原生数据库能更加有效地整合并发挥人工智能的力量。

数据库内部的模型选择机制

随着大数据和人工智能技术的快速发展,模型选择已经成为了数据分析中不可或缺的关键环节。其核心任务是在众多可用模型中,精准有效地筛选出与特定数据集相契合的模型,因为选择最恰当的模型对于提供预测任务的强力支持、优化应用性能具有决定性意义。

因此,将模型选择过程集成到数据库系统内部,比如PolarDB或PostgreSQL,已变得至关重要。云原生数据库为模型选择算法也提供了一个高效的支撑平台。

一个理想的模型选择系统,应同时具备高性能和低成本的特性。然而,传统的模型选择方法往往包括复杂的步骤:首先,在数据处理环节,需要执行一系列操作,如从数据库导出数据、排序、进行ETL(提取、转换、加载)操作,并对数据进行预处理。接着,在模型选择过程中,必须遍历整个模型空间,逐个对模型进行采样,并依靠训练数据进行数百到数千次的迭代训练。这个过程复杂且耗时,不仅消耗大量内存,而且全面地训练模型直至拟合所需的成本也非常高。此外,最终选择的模型通常基于其表现能力和训练的可行性进行评估。

为了在数据库系统中高效、准确且节约资源地识别适合特定应用和数据的深度学习模型,我们引入了“资源节约型两阶段模型选择算法”。在过滤阶段,该算法使用一个高效的、无需训练的模型评估矩阵,以筛选出潜在最适合应用和数据需求的模型。这一过程不涉及直接训练模型,而是依据特定评价指标来识别具有潜力的模型。在细化阶段,算法挑选几个潜在最适宜的模型进行深入训练。此外,算法包含一个协调器,能自动调整两个阶段的时间比例,以符合服务水平协议(SLA),确保精准地选出最优模型。

这一机制在本质上类似于数据库查询处理中的执行计划评估——从评估全套计划开始,逐步缩减至最优计划的选择。遵循类似原则,这种方法旨在迅速淘汰非优选项,同时基于成本与效益的最优化来做出最佳选择。
《AI时代,云原生数据库》1.png

为了降低模型选择过程中数据读取的开销,我们将提出的“资源节约型两阶段模型选择算法”以非侵入式方法与PostgreSQL和PolarDB集成。对于I/O密集的过滤阶段,我们通过用户自定义函数(User Define Function,UDF)来执行,并利用服务器编程接口(Serial Peripheral Interface,SPI)来加速数据读取。

对于计算密集的细化阶段,我们利用外部GPU并行执行模型训练,并采用管道并行技术加速数据读取,以此来提高整体性能。这种方法旨在优化数据处理效率,确保模型选择过程既快速又高效。

这项设计实现了高性能与低成本相平衡的模型选择。在性能方面,与传统系统相比,结构化和非结构化数据集上的模型搜索速度分别获得了高达24.38倍和52.10倍的显著提升。在成本方面,对结构化数据集而言,搜索同等性能的模型所需的系统GPU使用时间降低了29.32倍。

这一创新方法为云原生数据库技术在模型选择领域的应用奠定了坚实的基础,并有望推动人工智能与数据库技术的进一步结合。

数据库内的模型切片

在云计算时代,随着数据呈指数级增长,数据分析对AI模型提出了更高的要求。通用模型无法满足预测任务日益增长的精准度和效率需求,考虑到在预测任务中所涉及的查询条件会携带预测目标的元信息,如何有效利用此信息使得模型预测更加精准成为了问题所在。

由此,数据库内部的模型切片技术应时而生。模型切片是一项模型增强技术,通过对查询条件进行深度建模和利用,构建任务专用模型,从而在预测的精度和效率上得到显著提高。

我们提出了一种新型的模型切片方法,基于混合专家网络进行设计。该方法对查询条件进行编码,转化为易于机器处理的向量特征,同时对基础模型进行了横向扩展。该方法基于查询向量进行条件计算,在扩展后的专家模型集合中智能选择出最适合当前预测任务的组合,以提高在该任务下的预测表现。

我们不满足于简单的基于SQL查询的模型切片算法。在实际应用中,如何将算法整合于数据库中,提供便捷的使用接口,真正为分析人员提供准确且高效的数据分析功能较之更为重要。
《AI时代,云原生数据库》2.png

例如,在分析特定数据集(如特定年龄或人群)时,深度分析变得不可或缺。基于SQL语句所提供的信息,我们能够对数据视图、评价体系以及隐私保护进行更有力的控制与管理。

数据库内的模型切片功能通过数据库原生的PGX进行实现,并以用户自定义函数(UDF)的形式集成于Postgres之中。其中利用Rust调用Postgres的系统编程接口SPI进行数据交互,利用Python实现模型推理。SPI可帮助优化数据读取的I/O开销,同时共享内存的设置可以减小上下文切换的成本。

这类改进显著提升了模型的准确度和运算效率。在多个领域的结构化数据预测任务中,使用模型切片技术后的结果中,AUC-ROC值相较于基础模型提升了2.4%;对于大量预测请求,内置于数据库的模型切片分析技术相较于传统数据分析方法提速1.22倍。

理论上来说,增加更多专家模型数量可以提高准确性,但也会带来更高的计算成本。所以,我们也正致力于进一步优化性能,减少混合专家模型(Mixture of Experts,MoE)的计算成本。

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
11天前
|
关系型数据库 MySQL 数据库
ORM对mysql数据库中数据进行操作报错解决
ORM对mysql数据库中数据进行操作报错解决
35 2
|
10天前
|
JavaScript Java 关系型数据库
毕设项目&课程设计&毕设项目:基于springboot+vue实现的在线考试系统(含教程&源码&数据库数据)
本文介绍了一个基于Spring Boot和Vue.js实现的在线考试系统。随着在线教育的发展,在线考试系统的重要性日益凸显。该系统不仅能提高教学效率,减轻教师负担,还为学生提供了灵活便捷的考试方式。技术栈包括Spring Boot、Vue.js、Element-UI等,支持多种角色登录,具备考试管理、题库管理、成绩查询等功能。系统采用前后端分离架构,具备高性能和扩展性,未来可进一步优化并引入AI技术提升智能化水平。
毕设项目&课程设计&毕设项目:基于springboot+vue实现的在线考试系统(含教程&源码&数据库数据)
|
12天前
|
Java 关系型数据库 MySQL
毕设项目&课程设计&毕设项目:springboot+jsp实现的房屋租租赁系统(含教程&源码&数据库数据)
本文介绍了一款基于Spring Boot和JSP技术的房屋租赁系统,旨在通过自动化和信息化手段提升房屋管理效率,优化租户体验。系统采用JDK 1.8、Maven 3.6、MySQL 8.0、JSP、Layui和Spring Boot 2.0等技术栈,实现了高效的房源管理和便捷的租户服务。通过该系统,房东可以轻松管理房源,租户可以快速找到合适的住所,双方都能享受数字化带来的便利。未来,系统将持续优化升级,提供更多完善的服务。
毕设项目&课程设计&毕设项目:springboot+jsp实现的房屋租租赁系统(含教程&源码&数据库数据)
|
11天前
|
人工智能 安全 算法
5年数据观巨变,这家公司如何在AI和大模型数据赛道遥遥领先?
5年数据观巨变,这家公司如何在AI和大模型数据赛道遥遥领先?
|
13天前
|
存储 人工智能 运维
重磅!阿里云可观测产品家族全新升级,AI +数据双驱动,打造全栈可观测体系
近日,阿里云可观测产品家族正式发布云监控 2.0,隶属产品日志服务 SLS、云监控 CMS、应用实时监控服务 ARMS 迎来重磅升级。
|
7天前
|
存储 API 数据库
QML使用Sqlite数据库存储ListModel数据
本文介绍了在QML中使用Sqlite数据库存储ListModel数据的方法,包括如何创建数据库、读取数据、动态添加和删除数据,以及如何在程序启动和退出时与数据库同步数据。
|
11天前
|
数据采集 人工智能 安全
AI项目高昂成本与数据问题阻碍进展,2025年前30%的GenAI项目或将搁浅
AI项目高昂成本与数据问题阻碍进展,2025年前30%的GenAI项目或将搁浅
|
6天前
|
存储 数据采集 人工智能
外滩大会热议:AI时代数据价值转变,如何打造下一代智能数据体系?
9月5日,2024 Inclusion·外滩大会举办“从DATA for AI到AI for DATA”论坛,蚂蚁集团、上海交通大学和复旦大学联合主办,探讨AI时代数据价值的转变。中国工程院院士郑纬民和新加坡工程院院士颜水成等专家参会,分享了数据技术变化趋势及与AI融合的最新进展。论坛强调大模型对数据技术的需求推动了存储、生产和加工等各环节的技术革新,并探讨了合成数据和智能数据体系的重要性。
|
24天前
|
关系型数据库 MySQL Serverless
探索PolarDB MySQL版:Serverless数据库的灵活性与性能
本文介绍了个人开发者对阿里云PolarDB MySQL版,特别是其Serverless特性的详细评测体验。评测涵盖了产品初体验、性能观测、Serverless特性深度评测及成本效益分析等方面。尽管试用过程中遇到一些小问题,但总体而言,PolarDB MySQL版表现出色,提供了高性能、高可用性和灵活的资源管理,是个人开发者和企业用户的优秀选择。
|
2月前
|
关系型数据库 MySQL 分布式数据库
PolarDB 与传统数据库的性能对比分析
【8月更文第27天】随着云计算技术的发展,越来越多的企业开始将数据管理和存储迁移到云端。阿里云的 PolarDB 作为一款兼容 MySQL 和 PostgreSQL 的关系型数据库服务,提供了高性能、高可用和弹性伸缩的能力。本文将从不同角度对比 PolarDB 与本地部署的传统数据库(如 MySQL、PostgreSQL)在性能上的差异。
87 1
下一篇
无影云桌面