开发者学习笔记【阿里云云数据库助理工程师(ACA)认证:从传统数据库到云数据库演进(一)】
课程地址:https://edu.aliyun.com/course/3112080/lesson/19069
从传统数据库到云数据库演进(一)
内容介绍
一、数据库简介
二、传统数据库与云数据库对比
课程目标:
学习完本课程后,你将能够:
1、了解数据库发展历史
2、了解数据库的基本分类与应用场景
4、掌握云数据库基本特性
4、了解阿里云数据库整体概况
课程目录:
1、数据库简介
1.1数据库发展历史
1.2数据库分类
2、传统数据库与云数据库对比
3、阿里云数据库介绍
一、数据库简介
1.1、数据库发展历史
数据库和计算机的基础设施发展密切相关。在上世纪50年代,主要是大型机,计算机主要应用在国防和科学研究领域,数据库分为层次数据库和网状数据库两种类型,比较典型的产品是 IBM和 IMS ,这个数据库现在比较少见,偶尔出现在一些金融领域。到了70年代,小型机开始全面普及,此时的计算机开始应用在银行、证券这样的大型商业处理场景,关系型数据库开始诞生。比较典型的产品有 IBM的 DB2 , 还有 oracle 以及开源数据库 Ingres 。到了 90 年代, PC 机、 X86 服务器和局域网的技术架构已经全面普及。计算机已经开始应用在企业的信息化各个领域,包括像 ERP/CRM 等,还有个人办公和娱乐的这种场景。数据库除了关系型数据库之外,还诞生了数据仓库以及 PC 单机数据库。比较典型的产品有 SQL server、开源数据库 PostgreSQL 以及数据仓库 Teradata 和单机数据库dBase 。到了2000年左右,互联网开始快速发展,基本渗透在我们生活中各种领域,包括像媒体,搜索、社交、电子商务还有娱乐等等。这个时候开源数据库得到了蓬勃发展,比较典型的产品有 MySQL、 Redis 还有 MongoDB 。到了2015年左右,我们把它称为云+端的计算机时代,这个时候设备非常多,已经远超100亿台。云+端时代的应用场景就非常丰富,包括你能在手机上看到的微信、抖音这样的一些新媒体,还有移动各种移动 APP ,还有云计算已经全面普及,互联网也应用在我们的生活方方面面,包括像物联网、智能家居等,以及在线办公、教育、娱乐得到更全面的发展。在这个时代,云数据库承担一个核心的角色。比较主要的产品像 AWS 的 RDS ,还有它的云原生数据库 Aurora 和云原生数据仓库Redshift, 在阿里云主要有关系型数据库 RDS , 还有原生数据库 PolarDB 和数据仓库AnalyticDB。
1.2、数据库分类(按使用场景)
数据库的基本分类是按使用场景来划分,首先第一类是 OLTP ,称为在线事务处理。大家可以简单的理解为银行交易转账以及 ERP和CRM 账务处理。它的特点是高并发、低延时的数据请求。比较典型的产品有 Oracle、SQL Server、MySQL 、 阿里云 RDS 和 Polar DB , 都是在以上场景里应用。第二类是 OLAP ,主要应用在数据分析场景,像报表的统计分析、数据挖掘等。它的特点是对海量的数据做统计分析。有时候可能在一个分析里面会有上千万条甚至上亿条上百亿条数据。比较典型的产品有比较老牌的数据仓库 Teradata 、最新的云原生数据仓库 Snowflake 、开源处于劣势的数据仓库Clickhouse 、在云厂商里有 AWS Reddhift 、阿里云 AnalyticDB都是数据仓库领域的典型产品。第三类 NoSQL , 被称为新数据模型,应用于缓存数据管理、通常用来描述关联关系的图数据,以及半结构化的文档数据。它的特点通常是非关系型的数据模型,用来处理半结构化或者说非结构化的数据。比较典型的产品有用于缓存的 Redis、图数据库 Neo4j 、文档数据库 MongoDB 以及宽列的海量数据存储 HBase 和多模数据库阿里云 Lindom 等等。
OLTP |
OLAP |
NoSQL |
|
描述 |
在线事务处理 |
数据分析 |
新数据模型 |
典型场景 |
银行交易、ERP、财务管理 |
报表统计分析 数据挖掘 |
缓存数据管理 图数据管理 JSON文档数据管理 |
业务特点 |
高并发、低延时数据请求处理 |
海量数据统计分析 |
通常是非关系型数据模型 |
代表产品 |
Oracle SQL Server MySQL 阿里云RDS 阿里云 PolarDB |
Teradata Snowflake Clickhouse AWS Reddhift 阿里云AnalyticDB |
Redis Neo4j MongoDB Cassandra 阿里云Lindom |
二、传统数据库与云数据库对比
根据当前国际最权威的科技调研机构 Gartne 的报告指出云是数据库最重要的发展方向。报告预计在2022年75%的数据库都会在云上、都会使用云数据库。这意味着云数据库将会在两年之后全面普及。右边的个两个象限图是 Gartner 发布的数据库魔力象限。由此可知, 2013年魔力象限里领导者领域有 Oracle、Microsoft 、 IBM 和 SAP ,以上基本是传统的 IT 巨头。领导者意味着他在市场上的地位,以及他对长远的发展规划都有非常强的影响力。 2020年的魔力象限报告和13年就有非常大的区别,在领导者里面,云厂商有 AWS、Microsoft、Google 和阿里云。这也说明,云数据库在数据库的发展方向上是非常重要的。
传统自建数据库管理的挑战
我们把传统自建数据库分成两类,一类是自建商业数据库,比较典型有 IBM 的 DB2、 Oracle、SQL Server 。它有几个比较大的挑战:第一是软件价格高,第二是运维压力大,这些数据库通常应用在非常核心的系统,由于没有太强的运维的体系,往往都需要 DBA 或系统管理员或专业的服务厂商去构建这个数据库监控运维系统,如果出现任何问题,都可能会影响生产系统的可用性,因此,运维压力是非常大的;第三这些数据库是集中式设计,因为它诞生的比较早,在当时的基础架构以及分布式的理念,或是分布式的技术还不太成熟,所以说它主要还是集中式的设计,扩展性是相对较弱的;第四是商业数据库普遍上技术体系比较封闭,对新的数据模型支持比较弱,因为这些数据库普遍都是关系型数据库,对表格的数据模型支持非常强,但是对于像互联网以及物联网,或者新媒体这类数据模型,它在设计上考虑的比较少。
第二类是自建开源数据库。比较典型的有 MySQL、Redis、MongoDB、Clickhouse 等。这些数据库自己管理也有几个挑战,第一个是运维压力大。因为这些数据库通常都是用在核心系统里面,要保证它的高可用,并且我们用数据库的时候,可能实例会非常多,怎么去规模化管理这些实力,都是有比较大的挑战;第二个是开源数据库普遍缺少商业服务保障,甚至有些开源数据库没有商业的这个公司在支撑,都是个人的组织行为,也有很多数据库在中国没有商业服务公司,所以我们要靠自己的技术人员去来保障;第三个是可靠性和安全性比较难保障,这些开源数据库往往都是提供了引擎,但在系统的高可用以及安全这方面并没有相关的配套,都需要我们自己去构建,有些开源数据库在这个数据安全、权限认证、备份恢复方面,考虑的比较弱,所以要把开源数据库管理好是需要投入非常多的成本。
云数据库核心特征:
数据库基本都是云数据库厂商提供面向云计算架构设计,这是一个基本的设计原则。它有四大核心特征。
第一个我们把它称为简单应用,另外一个解释就是自助服务,开箱即用。你在阿里云或者云厂商的这个网站里可以根据你的业务需求,按照你的硬件的要规格,比如说要多少 CPU ,多少内存可直接选购,一件开通,使用非常方便,不像传统数据库需要操作系统、安装数据库、配置脚本、参数等,云数据库通常是在网站上一键开通,如果要开通多个数据库,可以使用云厂商提供的 API 来批量的管理或运维。
第二个是弹性扩展,这也是云计算里面一个非常重要的特性。我们可以简单的举个例子,比如说一家创业公司,最开始的时候业务非常小,可以选择一个小规格的数据库,像2核4G 以满足业务的发展。当数据越来越多,体量越来越大,这个时候可以在系统里直接扩容,扩大到八核16G 或者16核128G ,通常都是在分钟或者小时级别就可以完成。如此可以在业务的不同阶段选择不同的配置,非常灵活。
第三个是按需计费,这个与弹性扩展是密切相关的。云计算根据选择的配置来计算相应的费用,可以精确到按月甚至按小时的级别来计算费用。就像生活中使用的水电一样,都是根据用户的使用量来计算费用,非常灵活。
第四个是云数据库普遍都提供了服务保障,它能够提供99.9%的高可用 SOA 保障,同时,它也内置了安全保障,包括像备份恢复以及传输链路的加密和数据落盘的加密等等,这是服务保障和安全稳定。
综上,云数据库有几个特征。第一个是自助服务,开箱即用;第二个是可快速弹性扩展;第三个是按需计费;第四个是服务保障,安全稳定。
传统数据库与云数据库对比:
在安全配置诊断优化方面,传统数据库基本上是需要专业的数据库人员操作,而云数据库是可以自助完成,开箱即用,简单高效。在弹性扩展方面,传统数据库比较弱,通常都需要提前规划、硬件网络投入、再加上数据迁移,通常都需要数天甚至数月。而云数据库可以根据业务需求快速扩展,通常在分钟级就可以一键完成。在计费模型方面,传统数据库是用购买 License 加上每年的服务费的方式计费,而云数据库一般是在线购买,可以按需付费或者是包年包月。在保障方面,传统数据库一般是要单独购买服务和安全保障,而云数据库里面内置服务保障,提供了更高的可用性 SLA 。
传统数据库 |
云数据库 |
|
安装配置 诊断优化 |
需专业数据库人员操作 |
可自助完成,开箱即用、简单高效 |
弹性扩屐 |
弱,根据需求提前规划硬件网络投入,再加上数据迁移,通常需要数天 |
强,可根据业务需求快速扩展,通常在分钟级可以一键完成 |
计费模型 |
购买License+服务费 |
在线购买,可按需付费或包年包月 |
服务保障 安全保护 |
需单独购买服务与安全保障 |
内置服务保障,提供了更高的可用性SLA 提供安全加密、备份恢复、操作审计等数据等数据安全保障能力 |