专访 | 分布式HTAP数据库会成为未来主流据库吗?

本文涉及的产品
云原生数据库 PolarDB MySQL 版,通用型 2核4GB 50GB
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
简介: 近日,北京奥星贝斯科技有限公司CTO杨传辉接受了CSDN【大咖来了】栏目专访,探讨了从产品自身,到行业需求,再到数据库的未来。本文为采访实录。

近日,北京奥星贝斯科技有限公司 CTO 杨传辉接受了CSDN -【大咖来了】栏目专访,探讨了从产品自身,到行业需求,再到数据库的未来。


作为数据库行业前沿的技术专家,杨传辉对业内最关注的热议话题进行了深度解析,对OceanBase开源社区建设规划和布局进行了全面解答,也对未来数据库发展趋势做了预测和展望。


据悉,【大咖来了】是CSDN特推出的高端人物对话栏目,以「对话技术大咖,讲述程序员故事」为特色,覆盖前沿技术、开源、技术创业等领域,每期邀请行业内极具代表性及影响力的大咖,深度挖掘话题价值,激发技术开发与创新应用等多维度的真知灼见。


点击链接观看采访视频:https://www.ixigua.com/6990670406499697190?is_new_connect=0&is_new_user=0&wid_try=1


以下为杨传辉与CSDN 对话实录:

 

业内数据库的类型有哪些?特点分别是什么?


杨传辉数据库主要分成关系型数据库和非关系数据库两个大类,其中非关系型数据库包括键值数据库、文档数据库、图数据库、地理信息数据库等等,关系型数据库可以分为OLTP事务型数据库和OLAP分析型数据库。OLTP事务型数据库的优势主要是能够处理高并发,具备ACID的事务处理能力;OLAP分析型数据库的优势在于能够处理复杂的一些查询,具备大查询的并行执行能力。


发展到今天,主流的一些OLTP数据库:包括Oracle、SQL Server 都已经具备比较强的OLAP分析能力,有一个比较新的词汇叫HTAP,它指的是又能处理OLAP、又能处理OLTP的数据库。

 

近十年,数据消费习惯和数据架构发生了什么样的变化?


杨传辉之前在分享中经常提到一个观点,应用是数据库的第一推动力,最近十年主要发生了两个特别大的变化:第一个变化,互联网和移动互联网的兴起,使得数据库的一些应用场景由封闭式场景变成开放式场景。比如说以前在取款机取款,我们有多少个取款机,就有多少个用户;到了今天互联网时代,人们在网上和线下购物、支付,特别双11的时候,全国会有几亿人在同时做高并发的操作。第二个变化是,中国的数据库用户会追求自主创新,很多的企业需要有办法能够掌控数据库。


从数据架构的角度来看,也产生了两个变化:第一个变化,应用需求的推动,使得数据库架构从集中式架构向云原生跟分布式架构做转型。通过分布式架构,有更多的普通的服务器搭建成分布式的集群,从而能够满足今天在互联网、移动互联网趋势下的高并发和可扩展的需求;第二个变化,数据处理类型由简单的结构化数据发展为更加丰富的一些多模的数据、非结构化数据的处理,涌现出文档数据库、键值数据库、图数据库等等更加丰富的数据库类型。

 

中国数据库用户的“痛点”是什么?有什么样的解决方案?


杨传辉对于中国的数据,有两个痛点,首先从产品和技术的角度来看,中国数据库面临向云的环境、向分布式架构转型,痛点主要还是经典的集中式数据库没有办法处理更大的数据量,没有可扩展的能力。而且经典的数据库因为依赖高端的硬件、服务器、存储,所以成本相对会比较高;


其次是在于中国的数据库的自主创新能力,主要的解决方案有两类:第一类是基于开源的数据库做二次开发,第二类是从零开始完全自主研发,绝大部分公司会采用第一类方案,只有OceanBase选择了第二类方案:从0-1完全自主研发。


那么基于开源的方案,好处在于初始投入成本较低,因为有一个开源的数据库为基础,能够快速的起步;而选择自研的方案,越到后期,可控性越强,潜力会越大。OceanBase之所以选择更难的方案,就是因为我们想做企业级的数据库。

 

开源数据库的优势在于能够处理比较简单的查询,但没有办法像企业级数据库一样具有丰富复杂的查询能力,也不具有分布式的能力,要做好复杂查询和分布式,我们认为一定要打破开源数据库的内核,完全掌控内核,才能把这件事情做到极致,因此OceanBase选择了从0-1完全自主研发的道路。


到今天回过头来看,我们发现这个选择十分正确,因为自从2017年在蚂蚁集团实现了所有核心业务从Oracle切换为OceanBase之后,发现我们的能力已经超越了开源数据库,而且随着我们对数据库的掌控能力越来越强,也在不断地拉开与开源数据库的差距。

 

HTAP正在兴起,它会取代以Oracle为代表的关系型数据库或者传统数据仓库么?未来数据库的发展方向是什么?


杨传辉首先HTAP并不是一个新的概念,数据库刚开始诞生的时候,并没有区分哪些是OLTP,哪些是OLAP,今天我们看非常成功的商业数据库,比如说Oracle或者SQL Server 都是又能处理OLTP,又能处理OLAP的,它们也可以被认为是HTAP的数据库,当然,随着云跟分布式技术的引入,我们通过分布式架构,拓展了HTAP的边界,经典的数据库只能应用在集中式的场景,只能处理相对比较小规模的一些数据,不具有可扩展的能力。新一代的分布式数据库能够具备可扩展、更高并发、更弹性的能力,它一定是拓展了以前经典数据库处理的边界,能够处理海量的数据。


未来是云的时代,我认为下一代的数据库,一定是采用分布式架构的新一代的HTAP数据库,一方面这样的数据库,它的底层是原生分布式架构,能够充分的享受到原生分布式的技术红利,比如说具备可扩展的能力,具备高并发的能力,具有较高的性价比;


另一方面,下一代的数据库一定需要站在经典数据库巨人的肩膀上,充分地借鉴经典数据库做的比较好的一些技术方案和设计理念,比如说借鉴经典数据库的SQL兼容性、事务处理能力等能力;借鉴怎么去做精细化、怎么去做存储计算分离的技术方案等。只有站在经典数据库巨人的肩膀之上,下一代再融入分布式的技术,才能做出真正的符合用户需求的下一代分布式HTAP数据库。


OceanBase开源社区建设有哪些规划和布局?


杨传辉我认为开发者应该选择最有发展前景的开发项目,而OceanBase 注定会成为顶级的开源项目。


首先OceanBase的核心技术已经得到了非常广泛的业内证明,OceanBase 在分布式领域的技术是全球领先的,得到了蚂蚁集团应用场景的证明、也得到了来自金融、运营商和政府等各个行业的客户的证明。OceanBase 非常稳定、成熟、可靠,当我们把这样的一个企业级数据库开源的时候,它是注定会成功的,而且OceanBase在第一天开源的时候,就是已经取得了2000多的Star ,在数据库的开源项目中,应该也是全球最多的。

 

其次OceanBase会投入大量的精力去对开源社区做建设,使得我们的开源社区更加地popular ,只要我们的开发者随着OceanBase 一起成长,我相信每个开发者一定能收获技术以及经验上的成长,现在OceanBase 的开源项目还处在早期,坦率的说这个阶段加入OceanBase,会比较容易找到OceanBase的问题,能够更容易地对OceanBase 做贡献,从而成为OceanBase的contributor ,再而成为 committer ,OceanBase社区的治理模式借鉴了Apache开源项目的模式,有PMC的组织、contributor、committer等等,和一般的Apache开源项目比较相似。

 

一个开源社区能否运营得比较好,第一是在于开源的项目是不是有诚意,很明显OceanBase是把蚂蚁集团最为核心的技术在商业里面应用得已经非常成熟,完完全全的内核开放,这是非常有诚意的一件事情,另外OceanBase 后续会把所有商业的一些修改都非常快的patch到开源的一个分支里面来,OceanBase 公司本身也是OceanBase社区其中的一个参与者,当然也会是贡献最大的一个参与者。


第二是针对用户的运营计划分为两个部分:针对头部客户,会有十里春风的VIP计划,这个阶段加入OceanBase 开源项目的头部用户,会有专门的支持团队和服务人员,对每一家用户提供VIP的服务,需求能够更快地反馈,来支持用户将OceanBase用得更好;对于其他的用户,会设有OceanBase论坛、微信群、钉钉群等服务模式来支持和解答大家的问题;


第三是针对开发者运营的计划,会举办面向开发者、高校、数据库的爱好者等的一些活动,比如每月一次meet up、每月一次的线上直播,以及在9月份也有一个专门面向数据库的OceanBase 大赛。

 

您与《程序员》杂志有哪些故事可以和我们分享?


杨传辉我在2002年上的大学,当时的技术杂志比较少,当年每一期的《新程序员》杂志都会仔细地阅读。以前我主要关注偏技术分析、技术架构方面的文章,到现在这个时点,我更喜欢看一些更宏观的内容,比如上一期《新程序员》杂志里陆奇写的文章以及关于SaaS行业的内容。


以上为全部采访内容,希望对大家有所启发,也欢迎大家共同深度探讨和交流。


相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
13天前
|
SQL 关系型数据库 MySQL
乐观锁在分布式数据库中如何与事务隔离级别结合使用
乐观锁在分布式数据库中如何与事务隔离级别结合使用
|
20天前
|
SQL NoSQL 关系型数据库
实时数仓Hologres发展问题之实时数仓的类数据库化与HTAP数据库的差异如何解决
实时数仓Hologres发展问题之实时数仓的类数据库化与HTAP数据库的差异如何解决
36 2
|
12天前
|
存储 SQL 分布式数据库
OceanBase 入门:分布式数据库的基础概念
【8月更文第31天】在当今的大数据时代,随着业务规模的不断扩大,传统的单机数据库已经难以满足高并发、大数据量的应用需求。分布式数据库应运而生,成为解决这一问题的有效方案之一。本文将介绍一款由阿里巴巴集团自主研发的分布式数据库——OceanBase,并通过一些基础概念和实际代码示例来帮助读者理解其工作原理。
59 0
|
17天前
|
存储 缓存 负载均衡
【PolarDB-X 技术揭秘】Lizard B+tree:揭秘分布式数据库索引优化的终极奥秘!
【8月更文挑战第25天】PolarDB-X是阿里云的一款分布式数据库产品,其核心组件Lizard B+tree针对分布式环境优化,解决了传统B+tree面临的数据分片与跨节点查询等问题。Lizard B+tree通过一致性哈希实现数据分片,确保分布式一致性;智能分区实现了负载均衡;高效的搜索算法与缓存机制降低了查询延迟;副本机制确保了系统的高可用性。此外,PolarDB-X通过自适应分支因子、缓存优化、异步写入、数据压缩和智能分片等策略进一步提升了Lizard B+tree的性能,使其能够在分布式环境下提供高性能的索引服务。这些优化不仅提高了查询速度,还确保了系统的稳定性和可靠性。
44 5
|
18天前
|
运维 安全 Cloud Native
核心系统转型问题之分布式数据库和数据访问中间件协作如何解决
核心系统转型问题之分布式数据库和数据访问中间件协作如何解决
|
24天前
|
数据采集 DataWorks 安全
DataWorks产品使用合集之如何判断数据库类型是否支持整库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
11天前
|
C# UED 定位技术
WPF控件大全:初学者必读,掌握控件使用技巧,让你的应用程序更上一层楼!
【8月更文挑战第31天】在WPF应用程序开发中,控件是实现用户界面交互的关键元素。WPF提供了丰富的控件库,包括基础控件(如`Button`、`TextBox`)、布局控件(如`StackPanel`、`Grid`)、数据绑定控件(如`ListBox`、`DataGrid`)等。本文将介绍这些控件的基本分类及使用技巧,并通过示例代码展示如何在项目中应用。合理选择控件并利用布局控件和数据绑定功能,可以提升用户体验和程序性能。
26 0
|
1月前
|
SQL JavaScript 前端开发
websql数据库javascript操作库--websqlWrapper
websql数据库javascript操作库--websqlWrapper
|
13天前
|
Cloud Native 关系型数据库 分布式数据库
什么是云原生数据库PolarDB分布式版
本文介绍什么是云原生数据库PolarDB分布式版,也称为PolarDB分布式版,本手册中简称为PolarDB-X。
31 0
|
1月前
|
存储 SQL 运维
“震撼发布!PolarDB-X:云原生分布式数据库巨擘,超高并发、海量存储、复杂查询,一网打尽!错过等哭!”
【8月更文挑战第7天】PolarDB-X 是面向超高并发、海量存储和复杂查询场景设计的云原生分布式数据库系统
85 1