数据COOL谈第4期

简介: 本文整理自极客邦科技事业合伙人InfoQ极客传媒总经理汪丹,中国信通院数据库应用创新实验室负责人姜春宇,Forrester首席分析师穆飞,金融行业数据库资深专家韩锋,在数据COOL谈第4期的分享。

数据COOL谈第4


摘要:本文整理自极客邦科技事业合伙人InfoQ极客传媒总经理汪丹,中国信通院数据库应用创新实验室负责人姜春宇,Forrester首席分析师穆飞,金融行业数据库资深专家韩锋,在数据COOL谈第4期的分享。

本篇内容主要分为四个部分:

1.数智化转型趋势下,为什么数据库选项是关键?

2.多元场景下,不同行业,对数据库诉求有何不同?

3.多数据管理下,企业如何做数据库选型?

4.企业如何权衡数据库的自研和开源?

 

一、数智化转型趋势下,为什么数据库选项是关键?


汪丹:随着疫情爆发,各行各业的企业遇到了严峻的挑战。每家企业都开始思考,数字化转型的整体进程。为什么在数字化转型的大趋势下,数据库选型非常关键?


姜春宇:首先,在政策层面,国家陆续发布了十四五的各类规划。包括数字经济,大数据等等。数据库在规划里占比非常大。国家鼓励数据库产业发展是一个非常重要的信号。


在数字化转型的需求层面,国企和私企都在通过数字化转型,提升企业整体的经营效率,提升企业各方面的能力。数字化转型已然成为刚需。


在疫情的背景下,很多线下业务无法在正常运转,企业的很多业务都开始在线化。在这种背景下,数据库是数字化转型最核心的一块,它是信息系统最底层的基石。


随着数字化转型的升级,数据开始提升企业的经营效率。在数据使用方面,数据库的能力起到非常关键的作用。


韩锋:作为一个数据库的从业者,数据在企业中的价值越来越大,企业也越来越重视数据,数据规模开始变大,数据种类更加丰富。大量不同架构的数据库不断涌现,如何选择数据库是企业面临的共性问题。


穆飞:在数字化转型过程中,企业面临的挑战包括技术,业务流程,企业文化等等。我国企业在数字化转型的过程中,认为数据问题是非常严重的问题。

我国企业努力把数据资产化帮助企业转型。我国企业认为数据问题是数字化转型时很大的挑战,同时也在积极通过数据库技术,大数据技术,AI技术等,把裸数据变成更有价值的数据资产,推进数字化转型。

 

二、多元场景下,不同行业,对数据库诉求有何不同?


汪丹:目前,企业不仅考虑降本增效,也会考虑企业多年经营,积累的海量数据。如何通过数据管理,数据治理,数据分析,让企业有新业务,线上化的业务?


为了让企业更健康、更高速的发展,海量数据成了企业数字化转型过程中,非常关键的核心要点。数据库选型,对于企业而言非常重要。但每家企业的业务,应用场景其实是不一样的。


在这种情况下,对于不同行业他接下来做数字化转型,企业需要去考虑哪些维度?包括企业现状怎么样?在数字化转型的过程中,企业会面临哪些挑战?


韩锋:不同行业的发展水平不一样,企业面临的问题也各有不同。每个行业都有自己的行业特点,而且数字化的进程也不一样。以金融行业为例,企业更加关注数据库整体的稳定性,生态性,数据一致性以及数据安全。


穆飞:根据调研来看,尽管全球客户都在积极进行数字化转型,但企业自评觉得自己的数字化转型走到了高级阶段,比例有27%,国内的比例是24%。电信行业的数据显示有28%的电信的客户觉得自己处在高级水平。


由此可见,电信运营商的数字化转型比较靠前。电信运营商的用户量非常庞大,数字化转型的数字基础设施要求也非常高。除此之外,互联网行业的户数量太大,有非常极限的应用场景。倒逼互联网企业,在数字化转型领域走到高级阶段。


姜春宇:金融、通信和互联网行业是大家公认数字化转型超前的行业,也是公认的数据密集型行业。各个行业对数字化转型的认识都是互联网行业业务模式的拓展。


通信行业是数据密集型行业。它需要大量的数据库处理自己的业务,会用到很多分析型数据库和大数据技术处理。


金融行业特别强调稳定性。它的整个业务系统,核心系统是不允许出现故障的。它对数据库的需求很大程度上需要有稳健的、高容错的,具备栽培能力的,安全性能较高的数据库。


互联网行业是快速变化的,它的业务在不断调整。所以它强调敏捷性,成本可控,开源框架,技术水平相对较高。由此可见,不同行业的数据现状,对数据库技术的需求也是不一样的。

 

三、多数据管理下,企业如何做数据库选型?


汪丹:在多数据库管理下,从企业的角度该怎样做数据库选型?


姜春宇:数据库本身的发展很快,产品也非常多。企业在数字化转型的过程中需要大量选择。目前,整个数据库行业是一种碎片化的状态。企业不能通过某一种数据库或一两种数据库解决所有的业务问题。它不得不面对,在同一个公司体制内管理多条业务条线,使用多种数据库的现状。


穆飞:针对金融、电信、互联网三个行业的数据库使用情况的确非常多元。使用最多的是分布式管理型数据库以及数据仓库,使用率都在50%以上。数据库使用多元化必然会要求统一管理。在金融领域和电信领域,它们认为排在第一位的挑战就是难以管理的问题,数据库难以统一管理是最大的挑战。


互联网行业认为,最大的挑战是数据库产品单一。与此同时,一站式、全链路、全生命周期的统一管理是非常重要的。


韩锋:一些厂商提供了统一管理的能力,比如阿里云平台提供了全链路的数据库管理能力。从数据的集成管理,备份等多方面,覆盖了全生命周期的管理,给用户带来了非常大的价值。


有些金融交易,由二三十条SQL语句与数据库的交互语句组成。它的整体延迟必须在100毫秒。如果变成了120毫秒、130毫秒,很有可能造成阻塞的情况。


穆飞:近期调研了国内金融、互联网和电信三个行业的主要客户,在选择数据库时,对于金融行业需要来说,提供稳定可靠的交易和结算,信息的展示和查询,多维度的运营与分析是至关重要的。


韩锋:金融交易的核心诉求是什么?第一个,海量规模。技术能够支持很高的并发。第二个,业务交易的稳定性,低延迟。分布式数据库恰好解决了这个问题,但分布式的技术路线有很多不同。


单机引擎,存储引擎构建的分布式计算层,组成完整的一套分布式架构。还有基于分布式的存储,基于上层单机的计算引擎。它有多种不同的模式,各种模式有各自的优点和缺点。需要企业用户根据自己的场景特点有针对性的进行选择。


电信行业的数据体量非常大。冷热数据分层既能保证活跃数据、热数据的响应能力,又能保证静态冷数据的低成本存储。厂商产品可以从一线需求里找到自己的产品发展的长处。


穆飞:企业从原来某厂商的数据库迁移到云厂商数据库时,中间会涉及大量的兼容性问题。这也是很多企业,不敢用云数据库的原因。


所以云数据库需要提供完备的迁移支持能力,包括事前评估,中间保障以及事后的稳定运行等等。


姜春宇:数据库迁移是用户更换数据库最核心的环节。有很多的规范和流程,需要企业完善。包括业务逻辑改造,语法改造等等。为此中国信通院联合阿里等企业,做了一套迁移标准,对企业的迁移能力和迁移工具进行评估。


韩锋:无论是分布式数据库,还是云原生数据库,都是一种新的技术架构。云原生数据库给带来了非常灵活的资源供给方式,可以实时弹性,实现资源的灵活分配。分布式数据库是一个革命性的技术,它大大突破了原有数据库的能力边界。


所以企业在选择时,要思考它会给我带来什么收益,同时它有什么弊端。在设计侧、应用侧解决这些短板,让整体达到非常好的效果。


金融行业有一些代表性的场景。比如在线分析,多模场景,可以把异构数据、非结构化数据、半结构化数据存储在一起。


姜春宇:不同客户对数据库选型的要求和标准是不一样的。在金融领域,强调事物类数据库的稳定性,高一致性等分布式事务的支持能力。


在分析领域,不同的行业需求也是不一样的。电信行业的业务体系很复杂,它的库和表很多,业务系统也很多,所以它对复杂查询的要求较高,要求数据库分析数据库支持复杂查询。在互联网领域,数据结构相对简单。在分析领域强调海量数据的支持的情况。


韩锋:因为多模技术的出现,可以用单一技术站解决上述问题。对于用户来说,加快了业务的推进速度,简化底层设施。分布式的能力带来一致性能力,随着对数据的时效性,体量的要求越来越高。


如何通过一种新的架构,满足海量数据的实时分析诉求?国内有很多企业在做这方面的尝试,通过一些技术架构上的突破,很好地解决了这个问题。


姜春宇:在评测过程中,信通院做了大规模测试,阿里的Polar DB在大规模测试场景下的表现非常不错。它基于最新的硬件能力,大内存的存储,最新设计的系统架构,导致它在海量数据和规模处理方面的效果很好。


韩锋:以金融行业的HTAP场景为例,它有非常多的技术路线可以选择。用户需要从场景出发,,根据自己的场景特点选择。


穆飞:首先,企业不能按图索骥。当你的思路限制在旧技术时,就不能发现新大陆。


其次,企业不能削足适履。一定要选择适合的数据库,适合的才是最好的。虽然技术非常先进,但不一定适合你你的场景。


第三,企业不能故步自封,好的数据库一定是越用越好。企业需要开放的心态,和厂商一起把数据库做的越来越好,推动技术进步的同时,也解决了企业自身的问题。

 

四、企业如何权衡数据库的自研和开源?


汪丹:在互联网领域大家经常采用开源数据库。对于企业而言,该怎么权衡自研数据库和开源数据库?


姜春宇:首先,PGMysql是非常好的两个开源数据库.他们有很好的生态。个人建议从开源向自研方向发展。除了构建自研能力以,需要开放自己的能力,进入开源模式。


当今世界,大家需要营造一个技术生态,让你的技术成为主流生存下去,得到更多的人的认可。所以,开源无疑是一种非常好的模式。让你的技术更被广泛的接纳,有更多的贡献者。


与此同时,技术的运营模式也要以开源的方式进行,让用户很容易的参与进来。


韩锋:从最近分析机构的调研数据可以看出,从去年开始,大家对于开源数据库的关注度,已经超过了商业数据库。开源,普及了大众使用数据库。Mysql数据库很好的适应了互联网行业的发展,所以它的普及率非常快。


第二,开源技术是自研厂商弯道超车的机会。基于一个成熟的开源产品可以在技术侧达到很好的基础,从而让快速实现一定的能力。


第三,开源也是一种商业模式。开源模式已经被大家所熟知,并且有了一定的商业潜力。在未来大家会更关注开源,更认同开源。与此同时,大家再选择时也会把开源作为重点考虑方向。在选择产品时,希望它能够提供和开源数据库同等的兼容能力。


穆飞:因为相信,所以看见。技术人都喜欢开源,国内厂商不止步PGMysql的开源生态,所以个人非常看好国内的开源数据库生态。


汪丹:企业的数字化需求继续上升,面向复杂的应用场景,对于数据库的需求非常大。只要对企业选好、用好数据库,一定会加速企业迈向数字化转型。

相关文章
|
存储 关系型数据库 Java
数据COOL谈第3期
本文整理自阿里巴巴大淘宝技术部双12队长朱成(锡泽),阿里巴巴业务平台双11队长徐培德(裴度),阿里巴巴数据库双11队长陈锦赋(智盛),InfoQ主编王一鹏,在数据COOL谈第3期的分享。
|
自然语言处理 C# C++
Cool说丨970与720
970. 强整数 720. 词典中最长的单词
109 0
|
C# C++
Cool说丨717与674
717. 1比特与2比特字符 674. 最长连续递增序列
80 0
|
C# C++
Cool说丨819
819. 最常见的单词
99 0
|
人工智能 BI C#
Cool说丨884与1207
[884. 两句话中的不常见单词](https://leetcode-cn.com/problems/uncommon-words-from-two-sentences/) [1207. 独一无二的出现次数](https://leetcode-cn.com/problems/unique-number-of-occurrences/)
101 0
|
机器学习/深度学习 算法 C#
Cool说丨力扣202
202. 快乐数
104 0
|
C# C++
Cool说丨力扣165
[165. 比较版本号](https://leetcode-cn.com/problems/compare-version-numbers/)
82 0
|
C# C++
Cool说丨力扣914
914.卡牌分组
82 0
|
C# C++
Cool说丨力扣665
665. 非递减数列
69 0
|
C# C++
Cool说丨力扣744、704
744. 寻找比目标字母大的最小字母 704. 二分查找
113 0