OceanBase CTO杨传辉谈AI时代下数据库技术的创新演进路径!

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 在「DATA+AI」见解论坛上,OceanBase CTO杨传辉先生分享了AI与数据库技术融合的最新进展。他探讨了AI如何助力数据库技术演进,并介绍了OceanBase一体化数据库的创新。OceanBase通过单机分布式一体化架构,实现了从小规模到大规模的无缝扩展,具备高可用性和高效的数据处理能力。此外,OceanBase还实现了交易处理、分析和AI的一体化,大幅提升了系统的灵活性和性能。杨传辉强调,OceanBase的目标是成为一套能满足80%工作负载需求的系统,推动AI技术在各行各业的广泛应用。关注我们,深入了解AI与大数据的未来!

在「DATA+AI」见解论坛上,OceanBase CTO杨传辉先生带来了关于AI与数据库技术相融合的精彩分享。他探讨了AI如何与数据库技术结合,以及这种融合如何推动OceanBase一体化数据库的演进。

杨传辉先生将AI问题分为两大类:一是构建更大、更智能的模型,二是将AI和大模型真正应用于各行各业。他强调,数据库技术是IT产业的基石,它解决了数据统一和规模化的问题。第一,数据库里面用一套标准的系统、一种标准的范式抽象描述所有的应用场景。第二,是关系数据库的标准编程语言SQL,SQL极大降低了数据库应用的门槛。面对AI的挑战,OceanBase正通过一体化架构,让数据库和AI技术易于被每个人使用。

image.png

OceanBase的架构演进

OceanBase由蚂蚁集团孵化,自2010年立项以来,已服务于蚂蚁集团及超过1000家企业用户,覆盖金融、政企、物流、出海等多个领域的核心场景。目前在金融领域,60%-70%头部银行、保险公司和证券公司都依赖OceanBase来支撑其核心系统,包括支付和账务核心系统。当你每缴纳一次社保、公积金,拨打一次电话,您可能已经在不经意间体验了OceanBase的技术实力。甚至在双11的购物狂欢或日常的线下支付中,通过支付宝,您可能已经使用OceanBase完成了交易。

OceanBase在2019年和2020年连续两年参与TPC-C测试,这是在数据库领域的权威性能评估,可以类比数据库领域的奥林匹克竞赛。在这两年OceanBase连续两次都刷新了世界纪录,第二次还超越了一年前OceanBase自己的成绩,得分比第二名高出20多倍。

image.png

从2010年到今天,技术经过了多次迭代,从最早的单写多读架构,只有一个节点可以写,其他的节点可以读;到2016年OceanBase1.0版本所有的节点可读可写,成为真正的分布式数据库;再到2022年发布的OceanBase 4.0版本,正式提出“单机分布式一体化”,所有的分布式系统都会存在一个问题,一般分布式系统只能应用在大企业,没有办法应用在中小企业,4.0版本旨在让分布式系统不仅服务于大企业,也能适应中小企业的需求。今年发布的4.3版本,是一体化数据库,除了支持传统数据库的交易、分析,也能支持其他不同的工作负载,包括搜索、AI等。

OceanBase的一体化架构

OceanBase的一体化架构从最底层往上分成三个层次:存储层、多模数据模型和面向不同工作负载的计算引擎。

image.png

底层的存储层开始,这一层对于分布式系统来说至关重要,它需要支持事务,包括ACID——原子性、一致性、隔离性和持久性。OceanBase因为是分布式系统,每个数据存储了多个副本,这些副本根据需要以不同的形式存储:列存适合处理分析型应用(OLAP),向量存储能够很好的支持AI应用。

中间层是多模态数据模型,它不仅包含了传统数据库中的标量数据类型,也有一些单结构化数据,包括AI无结构化数据支持,用户也可以自定义数据类型以适应AI需求。

最上层是计算引擎,它们针对不同类型的工作负载设计,包括处理OLTP的计算引擎、处理OLAP的计算引擎,以及专门为AI而生的向量化执行引擎。这样的分层设计使得OceanBase能够灵活应对各种数据处理需求。

OceanBase的单机一体化架构包括:1、单机分布式一体化、交易和分析一体化、SQL跟AI的一体化。

01 单机与分布式一体化

image.png

传统上,数据库分为集中式和分布式两种。集中式就是一台机器适用于小规模企业,分布式就是一个集群。单机适用于小规模企业,而分布式则服务于大规模需求,小企业随着业务扩展,为了满足新项目需求,往往需要进行耗时且影响业务的数据库迁移。OceanBase打破了这一局限,支持从小规模到大规模的无缝扩展,业务量变大之后增加服务器就可以了,系统帮你自动做扩容,也可以帮你自动缩容,甚至能在单机或笔记本上部署。

OceanBase的高可用能力能够实现RTO小于8秒,当发生机器故障、城市级故障的时候,OceanBase可以在8秒之内恢复,完全不丢任何一条数据,这也是支付宝等应用能够信赖OceanBase的原因,大家可以放心使用。

02 TP&AP一体化

image.png

以往,我们通常将数据库的交易处理和数据分析功能分开,分别在两个系统中运行,并通过数据同步来更新两者的信息。但现在,我们追求的是将这两种功能整合到一个系统中,以提高效率和降低成本。

集群模式:
- 双集群模式:建立两个集群,一个处理交易,另一个处理分析。虽然使用相同的软件,但它们是独立部署的,这会导致较高的成本和数据处理延迟。
- 单集群模式:OceanBase采用单一集群来处理交易和分析。这种方法通过在集群内分配不同副本来处理不同类型的任务,从而减少了成本和延迟,尽管这增加了集群工程复杂性,OceanBase拥有很强大的工程团队,能够很有效的处理这类问题。

应用实例:
海底捞之前使用两套数据库分别管理交易和分析系统,但迁移到OceanBase后,他们能够在同一个系统中同时处理交易和分析,实现了TCO降低35%和AP性能提升30%的双重效益。

image.png

03 SQL与AI一体化

image.png

OceanBase的多模架构最底层是单机分布式一体化架构,这种架构支持单机和分布式部署,适应了从本地应用线下软件布署到公有云环境的不同应用场景。它能够处理多种数据存储格式,如行存储、列存储和半结构化的数据支持,为不同的数据处理模型提供了支持。

这种产品的优势在于,它在一个通用数据库中集成了多种数据处理模式。与那些单个模型的数据库,例如独立的向量数据库,它能够直接复用最底层单机分布式一体化结构已经打磨好的能力,这意味着它继承了诸如弹性、低延迟的能力、高可用、稳定的能力等优点。

稳定性的关键:

在数据库领域,稳定性至关重要。OceanBase的单机分布式一体化架构经过了蚂蚁集团和支付宝等核心业务的严格测试和优化,确保了其稳定性和可靠性。这使得用户可以安心使用OceanBase,不必担心运维和稳定性问题,这是其他独立向量数据库难以比拟的。

OceanBase的向量类型设计:

image.png

OceanBase的多维引擎支持向量插件,这是与蚂蚁集团合作研发的成果。它使得OceanBase能够直接内置向量处理能力,支持SQL扩展语法,以及向量索引等AI功能。我们的系统还支持距离计算功能,包括精确查找和近似搜索等,利用OceanBase的向量引擎插件,你不仅可以利用其强大的底层架构,还能享受达到数据库领域专业标准的,高效便捷运维管理工具。

OceanBase利用自身的向量引擎来构建文档搜索能力。DBA可以将知识存储在向量数据库中,当用户提出问题时,比如询问如何创建向量索引,首先会进行embedding处理。这一过程不是简单地将处理结果存入向量数据库,而是通过它来检索相关的信息,并将这些信息与用户的问题结合起来,以此提高搜索结果的精确度和召回率。使用OceanBase,开发者可以轻松实现RAG应用,因为所有数据处理和计算都是内置的,操作简单,只需掌握SQL即可。

image.png

在一些应用场景中,需要同时使用SQL和AI技术。例如,用户可能需要查询最近的高评分奶茶店及其评论。OceanBase能够整合空间模型、关系模型和向量模型,通过优化器自动选择最佳处理路径,简化用户的查询过程。开发者只需编写SQL查询或SQL扩展,OceanBase的智能优化器就能自动处理并返回最佳结果。

OceanBase的AI应用

场景一:OceanBase在自身的研发过程中融入了AI技术,主要体现在两个方面。
1. 数据库创新:我们探索使用AI来革新数据库内核设计,尽管这一领域仍处于研究阶段,因为AI在提供确定性方面存在局限,尚未有成熟的应用成果。
2.辅助运维:AI在辅助数据库运维方面发挥着重要作用,尤其是在不需要极高确定性的场合。我们开发了两款工具:

image.png

- OceanBase诊断Agent:面向业务智能(BI),通过机器学习技术,将知识和经验转化为决策树,自动诊断OceanBase的问题根源。在运维诊断中,我们选择了决策树模型,因为它在这一场景下更为高效和精准。虽然大模型在某些toB应用中可能更受欢迎,但决策树提供了更好的平衡。

image.png

- ODC Copilot:ODC Copilot 是一款基于 LLM 构建的自然语言数据库查询系统。它利用先进的自然语言处理技术,可以理解用户查询,智能地解析数据库结构,并提供 SQL 生成和优化、错误纠正、图表创建等功能。尽管许多数据库公司都尝试提供这样的能力,但在企业级市场(ToB)中,尤其是在数据库领域,要使其有效运行并不容易,主要挑战在于当前准确率不足,所以怎么提升这一功能的准确率成为了一个亟待解决的关键问题。

OceanBase的Roadmap

今年,OceanBase的主要目标是从一个主要处理事务(TP)的数据库转变为一个既能支持事务处理、分析处理(AP)、人工智能(AI)等多功能的数据库。我们按季度计划实施了以下改进:

image.png

第一季度(Q1):我们增强了分析处理能力,使OceanBase能够更有效地处理复杂查询。
第二季度(Q2):我们引入了索引功能,主要支持搜索,提升搜索效率。
第三季度(Q3):我们扩展了对数据类型的支持,现在OceanBase不仅能处理内部的关系数据,也能处理外部数据。
第四季度(Q4):我们实现了存储与计算的分离,这将显著提高OceanBase的性能和成本效益。

OceanBase在公有云上已经拥有大量用户,只要是公有云的用户都会用存算分离,我们之前的存算分离依赖于云盘,但成本较高。如果我们在Q4之后,可以基于对象存储来做,可以大幅度提升OceanBase的性价比。

END

杨传辉先生的分享为我们揭示了OceanBase如何通过一体化架构,支持多种工作负载,包括交易处理、分析和AI等。他强调,OceanBase的愿景是成为一套系统,能够满足80%不同工作负载的需求,降低AI在各行业应用的成本,真正推动AI的普及和应用。这不仅是技术的进步,更是对未来工作方式的革新。

想了解更多AI和大数据如何塑造未来?关注我们,深入探索技术的无限可能!

自媒体发文-底部引导图.PNG

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
15天前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
3月前
|
存储 SQL 分布式数据库
OceanBase 入门:分布式数据库的基础概念
【8月更文第31天】在当今的大数据时代,随着业务规模的不断扩大,传统的单机数据库已经难以满足高并发、大数据量的应用需求。分布式数据库应运而生,成为解决这一问题的有效方案之一。本文将介绍一款由阿里巴巴集团自主研发的分布式数据库——OceanBase,并通过一些基础概念和实际代码示例来帮助读者理解其工作原理。
309 0
|
14天前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。
|
1月前
|
数据采集 人工智能 自然语言处理
表格增强生成TAG登场:解锁AI自然语言与数据库的完美结合
【10月更文挑战第4天】表格增强生成(TAG)范式解锁了AI自然语言处理与数据库的深度融合,旨在让用户通过自然语言便捷地查询和管理数据。TAG结合了语言模型的强大推理能力和数据库系统的高效计算能力,通过查询合成、执行及答案生成三步完成复杂查询。相较于传统Text2SQL和RAG方法,TAG在准确性上显著提升,但其应用仍面临技术门槛和数据质量等挑战。[论文地址:](https://arxiv.org/pdf/2408.14717)
55 4
|
1月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云瑶池在2024云栖大会上重磅发布由Data+AI驱动的多模数据管理平台DMS:OneMeta+OneOps,通过统一、开放、多模的元数据服务实现跨环境、跨引擎、跨实例的统一治理,可支持高达40+种数据源,实现自建、他云数据源的无缝对接,助力业务决策效率提升10倍。
|
2月前
|
存储 人工智能 数据处理
阿里云CTO周靖人:全面投入升级AI大基建
9月19日,在2024杭州云栖大会上,阿里云CTO周靖人表示,阿里云正在围绕AI时代,树立一个AI基础设施的新标准,全面升级从服务器到计算、存储、网络、数据处理、模型训练和推理平台的技术架构体系,让数据中心成为一台超级计算机,为每个AI和应用提供高性能、高效的算力服务。
772 15
|
2月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云数据库重磅升级!元数据服务OneMeta + OneOps统一管理多模态数据
|
3月前
|
Oracle 关系型数据库 MySQL
OceanBase 与传统数据库的对比
【8月更文第31天】随着云计算和大数据技术的发展,分布式数据库因其高扩展性、高可用性和高性能而逐渐成为企业和开发者关注的焦点。在众多分布式数据库解决方案中,OceanBase作为一个由阿里巴巴集团自主研发的分布式数据库系统,以其独特的架构设计和卓越的性能表现脱颖而出。本文将深入探讨OceanBase与其他常见关系型数据库管理系统(如MySQL、Oracle)之间的关键差异,并通过具体的代码示例来展示这些差异。
250 1
|
3月前
|
Java 数据库连接 数据库
AI 时代风起云涌,Hibernate 实体映射引领数据库高效之路,最佳实践与陷阱全解析!
【8月更文挑战第31天】Hibernate 是一款强大的 Java 持久化框架,可将 Java 对象映射到关系数据库表中。本文通过代码示例详细介绍了 Hibernate 实体映射的最佳实践,包括合理使用关联映射(如 `@OneToMany` 和 `@ManyToOne`)以及正确处理继承关系(如单表继承)。此外,还探讨了常见陷阱,例如循环依赖可能导致的无限递归问题,并提供了使用 `@JsonIgnore` 等注解来避免此类问题的方法。通过遵循这些最佳实践,可以显著提升开发效率和数据库操作性能。
84 0
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。