专访 | 分布式HTAP数据库会成为未来主流据库吗?

简介: 近日,北京奥星贝斯科技有限公司CTO杨传辉接受了CSDN【大咖来了】栏目专访,探讨了从产品自身,到行业需求,再到数据库的未来。本文为采访实录。

近日,北京奥星贝斯科技有限公司 CTO 杨传辉接受了CSDN -【大咖来了】栏目专访,探讨了从产品自身,到行业需求,再到数据库的未来。


作为数据库行业前沿的技术专家,杨传辉对业内最关注的热议话题进行了深度解析,对OceanBase开源社区建设规划和布局进行了全面解答,也对未来数据库发展趋势做了预测和展望。


据悉,【大咖来了】是CSDN特推出的高端人物对话栏目,以「对话技术大咖,讲述程序员故事」为特色,覆盖前沿技术、开源、技术创业等领域,每期邀请行业内极具代表性及影响力的大咖,深度挖掘话题价值,激发技术开发与创新应用等多维度的真知灼见。


点击链接观看采访视频:https://www.ixigua.com/6990670406499697190?is_new_connect=0&is_new_user=0&wid_try=1


以下为杨传辉与CSDN 对话实录:

 

业内数据库的类型有哪些?特点分别是什么?


杨传辉数据库主要分成关系型数据库和非关系数据库两个大类,其中非关系型数据库包括键值数据库、文档数据库、图数据库、地理信息数据库等等,关系型数据库可以分为OLTP事务型数据库和OLAP分析型数据库。OLTP事务型数据库的优势主要是能够处理高并发,具备ACID的事务处理能力;OLAP分析型数据库的优势在于能够处理复杂的一些查询,具备大查询的并行执行能力。


发展到今天,主流的一些OLTP数据库:包括Oracle、SQL Server 都已经具备比较强的OLAP分析能力,有一个比较新的词汇叫HTAP,它指的是又能处理OLAP、又能处理OLTP的数据库。

 

近十年,数据消费习惯和数据架构发生了什么样的变化?


杨传辉之前在分享中经常提到一个观点,应用是数据库的第一推动力,最近十年主要发生了两个特别大的变化:第一个变化,互联网和移动互联网的兴起,使得数据库的一些应用场景由封闭式场景变成开放式场景。比如说以前在取款机取款,我们有多少个取款机,就有多少个用户;到了今天互联网时代,人们在网上和线下购物、支付,特别双11的时候,全国会有几亿人在同时做高并发的操作。第二个变化是,中国的数据库用户会追求自主创新,很多的企业需要有办法能够掌控数据库。


从数据架构的角度来看,也产生了两个变化:第一个变化,应用需求的推动,使得数据库架构从集中式架构向云原生跟分布式架构做转型。通过分布式架构,有更多的普通的服务器搭建成分布式的集群,从而能够满足今天在互联网、移动互联网趋势下的高并发和可扩展的需求;第二个变化,数据处理类型由简单的结构化数据发展为更加丰富的一些多模的数据、非结构化数据的处理,涌现出文档数据库、键值数据库、图数据库等等更加丰富的数据库类型。

 

中国数据库用户的“痛点”是什么?有什么样的解决方案?


杨传辉对于中国的数据,有两个痛点,首先从产品和技术的角度来看,中国数据库面临向云的环境、向分布式架构转型,痛点主要还是经典的集中式数据库没有办法处理更大的数据量,没有可扩展的能力。而且经典的数据库因为依赖高端的硬件、服务器、存储,所以成本相对会比较高;


其次是在于中国的数据库的自主创新能力,主要的解决方案有两类:第一类是基于开源的数据库做二次开发,第二类是从零开始完全自主研发,绝大部分公司会采用第一类方案,只有OceanBase选择了第二类方案:从0-1完全自主研发。


那么基于开源的方案,好处在于初始投入成本较低,因为有一个开源的数据库为基础,能够快速的起步;而选择自研的方案,越到后期,可控性越强,潜力会越大。OceanBase之所以选择更难的方案,就是因为我们想做企业级的数据库。

 

开源数据库的优势在于能够处理比较简单的查询,但没有办法像企业级数据库一样具有丰富复杂的查询能力,也不具有分布式的能力,要做好复杂查询和分布式,我们认为一定要打破开源数据库的内核,完全掌控内核,才能把这件事情做到极致,因此OceanBase选择了从0-1完全自主研发的道路。


到今天回过头来看,我们发现这个选择十分正确,因为自从2017年在蚂蚁集团实现了所有核心业务从Oracle切换为OceanBase之后,发现我们的能力已经超越了开源数据库,而且随着我们对数据库的掌控能力越来越强,也在不断地拉开与开源数据库的差距。

 

HTAP正在兴起,它会取代以Oracle为代表的关系型数据库或者传统数据仓库么?未来数据库的发展方向是什么?


杨传辉首先HTAP并不是一个新的概念,数据库刚开始诞生的时候,并没有区分哪些是OLTP,哪些是OLAP,今天我们看非常成功的商业数据库,比如说Oracle或者SQL Server 都是又能处理OLTP,又能处理OLAP的,它们也可以被认为是HTAP的数据库,当然,随着云跟分布式技术的引入,我们通过分布式架构,拓展了HTAP的边界,经典的数据库只能应用在集中式的场景,只能处理相对比较小规模的一些数据,不具有可扩展的能力。新一代的分布式数据库能够具备可扩展、更高并发、更弹性的能力,它一定是拓展了以前经典数据库处理的边界,能够处理海量的数据。


未来是云的时代,我认为下一代的数据库,一定是采用分布式架构的新一代的HTAP数据库,一方面这样的数据库,它的底层是原生分布式架构,能够充分的享受到原生分布式的技术红利,比如说具备可扩展的能力,具备高并发的能力,具有较高的性价比;


另一方面,下一代的数据库一定需要站在经典数据库巨人的肩膀上,充分地借鉴经典数据库做的比较好的一些技术方案和设计理念,比如说借鉴经典数据库的SQL兼容性、事务处理能力等能力;借鉴怎么去做精细化、怎么去做存储计算分离的技术方案等。只有站在经典数据库巨人的肩膀之上,下一代再融入分布式的技术,才能做出真正的符合用户需求的下一代分布式HTAP数据库。


OceanBase开源社区建设有哪些规划和布局?


杨传辉我认为开发者应该选择最有发展前景的开发项目,而OceanBase 注定会成为顶级的开源项目。


首先OceanBase的核心技术已经得到了非常广泛的业内证明,OceanBase 在分布式领域的技术是全球领先的,得到了蚂蚁集团应用场景的证明、也得到了来自金融、运营商和政府等各个行业的客户的证明。OceanBase 非常稳定、成熟、可靠,当我们把这样的一个企业级数据库开源的时候,它是注定会成功的,而且OceanBase在第一天开源的时候,就是已经取得了2000多的Star ,在数据库的开源项目中,应该也是全球最多的。

 

其次OceanBase会投入大量的精力去对开源社区做建设,使得我们的开源社区更加地popular ,只要我们的开发者随着OceanBase 一起成长,我相信每个开发者一定能收获技术以及经验上的成长,现在OceanBase 的开源项目还处在早期,坦率的说这个阶段加入OceanBase,会比较容易找到OceanBase的问题,能够更容易地对OceanBase 做贡献,从而成为OceanBase的contributor ,再而成为 committer ,OceanBase社区的治理模式借鉴了Apache开源项目的模式,有PMC的组织、contributor、committer等等,和一般的Apache开源项目比较相似。

 

一个开源社区能否运营得比较好,第一是在于开源的项目是不是有诚意,很明显OceanBase是把蚂蚁集团最为核心的技术在商业里面应用得已经非常成熟,完完全全的内核开放,这是非常有诚意的一件事情,另外OceanBase 后续会把所有商业的一些修改都非常快的patch到开源的一个分支里面来,OceanBase 公司本身也是OceanBase社区其中的一个参与者,当然也会是贡献最大的一个参与者。


第二是针对用户的运营计划分为两个部分:针对头部客户,会有十里春风的VIP计划,这个阶段加入OceanBase 开源项目的头部用户,会有专门的支持团队和服务人员,对每一家用户提供VIP的服务,需求能够更快地反馈,来支持用户将OceanBase用得更好;对于其他的用户,会设有OceanBase论坛、微信群、钉钉群等服务模式来支持和解答大家的问题;


第三是针对开发者运营的计划,会举办面向开发者、高校、数据库的爱好者等的一些活动,比如每月一次meet up、每月一次的线上直播,以及在9月份也有一个专门面向数据库的OceanBase 大赛。

 

您与《程序员》杂志有哪些故事可以和我们分享?


杨传辉我在2002年上的大学,当时的技术杂志比较少,当年每一期的《新程序员》杂志都会仔细地阅读。以前我主要关注偏技术分析、技术架构方面的文章,到现在这个时点,我更喜欢看一些更宏观的内容,比如上一期《新程序员》杂志里陆奇写的文章以及关于SaaS行业的内容。


以上为全部采访内容,希望对大家有所启发,也欢迎大家共同深度探讨和交流。


相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
9月前
|
关系型数据库 分布式数据库 数据库
一库多能:阿里云PolarDB三大引擎、四种输出形态,覆盖企业数据库全场景
PolarDB是阿里云自研的新一代云原生数据库,提供极致弹性、高性能和海量存储。它包含三个版本:PolarDB-M(兼容MySQL)、PolarDB-PG(兼容PostgreSQL及Oracle语法)和PolarDB-X(分布式数据库)。支持公有云、专有云、DBStack及轻量版等多种形态,满足不同场景需求。2021年,PolarDB-PG与PolarDB-X开源,内核与商业版一致,推动国产数据库生态发展,同时兼容主流国产操作系统与芯片,获得权威安全认证。
|
6月前
|
存储 关系型数据库 分布式数据库
喜报|阿里云PolarDB数据库(分布式版)荣获国内首台(套)产品奖项
阿里云PolarDB数据库管理软件(分布式版)荣获「2024年度国内首版次软件」称号,并跻身《2024年度浙江省首台(套)推广应用典型案例》。
|
10月前
|
Cloud Native 关系型数据库 分布式数据库
登顶TPC-C|云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
阿里云PolarDB云原生数据库在TPC-C基准测试中以20.55亿tpmC的成绩刷新世界纪录,展现卓越性能与性价比。其轻量版满足国产化需求,兼具高性能与低成本,适用于多种场景,推动数据库技术革新与发展。
|
6月前
|
存储 NoSQL MongoDB
MongoDB数据库详解-针对大型分布式项目采用的原因以及基础原理和发展-卓伊凡|贝贝|莉莉
MongoDB数据库详解-针对大型分布式项目采用的原因以及基础原理和发展-卓伊凡|贝贝|莉莉
295 8
MongoDB数据库详解-针对大型分布式项目采用的原因以及基础原理和发展-卓伊凡|贝贝|莉莉
|
6月前
|
存储 监控 分布式数据库
ClickHouse分布式数据库动态伸缩(弹性扩缩容)的实现
实现ClickHouse数据库的动态伸缩需要持续的维护和精细的操作。从集群配置到数据迁移,再到监控和自动化,每一步都要仔细管理以确保服务的可靠性和性能。这些活动可以显著提高应用的响应性和成本效率,帮助业务根据实际需求灵活调整资源分配。
370 10
|
5月前
|
机器学习/深度学习 算法 数据库
基于GoogleNet深度学习网络和GEI步态能量提取的步态识别算法matlab仿真,数据库采用CASIA库
本项目基于GoogleNet深度学习网络与GEI步态能量图提取技术,实现高精度步态识别。采用CASI库训练模型,结合Inception模块多尺度特征提取与GEI图像能量整合,提升识别稳定性与准确率,适用于智能安防、身份验证等领域。
|
7月前
|
存储 关系型数据库 分布式数据库
【赵渝强老师】基于PostgreSQL的分布式数据库:Citus
Citus 是基于 PostgreSQL 的开源分布式数据库,采用 shared nothing 架构,具备良好的扩展性。它以插件形式集成,部署简单,适用于处理大规模数据和高并发场景。本文介绍了 Citus 的基础概念、安装配置步骤及其在单机环境下的集群搭建方法。
579 2
|
9月前
|
Cloud Native 关系型数据库 分布式数据库
登顶TPC-C|云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
|
9月前
|
SQL 存储 分布式数据库
分布式存储数据恢复—hbase和hive数据库数据恢复案例
分布式存储数据恢复环境: 16台某品牌R730xd服务器节点,每台服务器节点上有数台虚拟机。 虚拟机上部署Hbase和Hive数据库。 分布式存储故障: 数据库底层文件被误删除,数据库不能使用。要求恢复hbase和hive数据库。
310 12