聊聊数据库

本文涉及的产品
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
云原生数据库 PolarDB MySQL 版,通用型 2核8GB 50GB
简介: 聊聊数据库

数据库的发展基本上也是伴随着计算机技术经历了 40 年的历史,从最初的文件系统上的文件,到有结构的层次和网状数据库,一直到今天被广泛使用的关系型数据库。随着互联网和物联网行业的兴起,数据量飞速增长,对大数据的采集、存储和应用是每个数据库必备的技能。现在大多数应用都是数据存储密集型,而不是计算密集型。


数据存储发展


众所周知,文明的发展离不开信息的积累,而任何东西的积累离不开存储。因此,信息存储是文明发展的重要环节,从某种意义上讲,甚至可以说是人类迈入文明社会的标志之一。在历史上,人类曾经创造过很多信息存储的方法。我们一起来看下存储发展历程。


古老的东方开始使用甲骨文记录着自己的数据。

网络异常,图片无法展示
|


到了东汉,人们开始用纸张记录数据。纸的出现使得信息的记录、传播和继承,有了革命性的进步,促进了人类文化的传播。同时纸也为后来打孔卡的出现奠定了基础。

网络异常,图片无法展示
|


到了近代有了打孔卡、磁带、软磁盘(记得小时候初中一年级见到的电脑好像是这种存储)、硬盘。以前大学上计算机课,总是听老师讲以前的 U 盘都是几 M 的,现在的 U 盘都有上百 G 的,而且很便宜。


存储现在发展的已经很快,现在存储数据很廉价。而数据库的必备功能就是存储数据。


传统的数据库


传统的关系型数据库大家都接触的比较多,比如常见的 Oracle、MySQL、PostgreSQL。数据库中每个属性都有特性的类型来定义,可以把数据想象成一个个表格存储着。和我们记录数据的认知非常相似,一行行记录着信息。


网络异常,图片无法展示
|


例如学生表里一条记录,就是一个学生他的属性描述,包括年龄、性别、出生年月日、所属班级等。但班级也有它的更详细的属性,那就可以在学生表里增加一个关系字段来表示该学生所属的班级索引,通过索引连接到班级表,可以查到这个班级的年级、班主任、学生人数等信息。


NoSQL 数据库


随着移动互联网时代的到来,需要存储的数据量越来越大,对机器的扩展要求成为了数据库的必备技能,这也是传统数据库的弱点,比如 Oracle 在做集群是很有限的。NoSQL 对于数据库的扩展和高可用是它的强项。


那为什么 NoSQL 能够有可扩展和高可用呢?


我们都知道 CAP 理论,CAP 理论指的是一个分布式系统最多只能同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition tolerance)这三项中的两项。


网络异常,图片无法展示
|


分布式系统的一致性通常称为 ACID,即原子性、一致性、隔离性、永久性,传统的关系型数据库都能做到。简单的你可以理解一致性为数据写入数据库中,后续读取是否能立刻读取到更新的最新值。


另外,我们可以看到大多数 NoSQL 数据库都是“弱一致性”的,强调的是“最终一致性”,可以理解为如果你停止向数据库写入数据,并等待一段不确定的时间,那么最终所有的读取请求都会返回相同的值。换句话说,不一致性是暂时的,最终会解决。通过让系统放松对某一时刻数据一致性的要求来换取系统整体伸缩性和性能上改观。显然,NoSQL 大都是用一致性来换取了可用性和分区容错性。那么牺牲一致性到底值不值得呢?举个例子,淘宝双十一当天,对于商品的评论和访问数可能不需要那么在意,首要是要保证服务器的高可用,崩了什么都白搭了!


新型数据库


在实际的应用中,存在一种场景,我们要求数据库必须保证 ACID 和高可用性,于是一批新型的数据库诞生了,比如蚂蚁金服的 OcenBase 和最近的“新晋网红”数据库 TiDB。他们看似近乎完美的支持的分布式一致性和高可用性,支持标准 SQL,对传统的关系型数据库提供迁移兼容方案。


还有一个数据库可以关注下,Vertica。很多人把 Vertica 划分到传统关系型数据库中,但是他与传统型关系库又有不同:


Vertica 是面向分析的而不是面向事务的,他的强项在于 OLAP 场景,对大量数据的读取和聚合表现强悍!


Vertica 是基于列存储的,列存储让数据的分割查询变的更加灵活


Vertica 并不是一个广泛应用的数据库,我们上面提到了 CAP 理论,提到所有数据库不能同时满足“三性”,但是对于特性的应用场景设计,就能很大程度上在“三性”上取得平衡。


Vertica 的原型称为“C-Store”,C-Store 最早是 2005 年学术界的一个项目,作者是 2015 年图灵奖获得者 Mike Stonebraker,同时也是 Vertica 的创办者。


论文总结一下三点:


数据库的查询瓶颈是在 IO 上,而不是在 CPU 上,那么用 CPU 时间交换磁盘带宽是有意义的。一般有两种途径用 CPU 时间交换磁盘带宽。第一种方法是采用高效的编码技术,比如存储一个客户的住址,可以用 6bits 来编码所有的 US 州名,如果采用州名缩写,则需要 16bits;如果用全称则更多。第二种方法是浓缩存储的数据,比如把 N 个数据,每个 K bits,直接打包成 N*K bits。


在物理上存储列的集合,每个集合都按照一些属性来排序。以同一个属性进行排序的列,组成 projections。


读写优化,构建 WOS 和 ROS 组件,用 tuple mover 联系它们


网络异常,图片无法展示
|


C-Store 应该是第一个将列存技术在实际系统中实现出来的,比 Google 的 BigTable 要早。


我们怎么用数据库


其实以前的一些经典理论还是很有道理的,比如 CAP、比如 Raft 呀,各个数据库还都是“术业有专攻”,别老想着用一种数据库打天下。比如,核心系统的事务数据还是选择使用 MySQL 或者 postgreSQL。分析性数据库还是选择 Vertica 或者 Greenplum。

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍如何基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
目录
相关文章
|
6天前
|
弹性计算 关系型数据库 微服务
基于 Docker 与 Kubernetes(K3s)的微服务:阿里云生产环境扩容实践
在微服务架构中,如何实现“稳定扩容”与“成本可控”是企业面临的核心挑战。本文结合 Python FastAPI 微服务实战,详解如何基于阿里云基础设施,利用 Docker 封装服务、K3s 实现容器编排,构建生产级微服务架构。内容涵盖容器构建、集群部署、自动扩缩容、可观测性等关键环节,适配阿里云资源特性与服务生态,助力企业打造低成本、高可靠、易扩展的微服务解决方案。
1143 3
|
5天前
|
机器学习/深度学习 人工智能 前端开发
通义DeepResearch全面开源!同步分享可落地的高阶Agent构建方法论
通义研究团队开源发布通义 DeepResearch —— 首个在性能上可与 OpenAI DeepResearch 相媲美、并在多项权威基准测试中取得领先表现的全开源 Web Agent。
729 11
|
15天前
|
人工智能 运维 安全
|
4天前
|
机器学习/深度学习 物联网
Wan2.2再次开源数字人:Animate-14B!一键实现电影角色替换和动作驱动
今天,通义万相的视频生成模型又又又开源了!Wan2.2系列模型家族新增数字人成员Wan2.2-Animate-14B。
344 10
|
6天前
|
弹性计算 Kubernetes jenkins
如何在 ECS/EKS 集群中有效使用 Jenkins
本文探讨了如何将 Jenkins 与 AWS ECS 和 EKS 集群集成,以构建高效、灵活且具备自动扩缩容能力的 CI/CD 流水线,提升软件交付效率并优化资源成本。
324 0
|
13天前
|
人工智能 异构计算
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
|
6天前
|
缓存 供应链 监控
VVIC seller_search 排行榜搜索接口深度分析及 Python 实现
VVIC搜款网seller_search接口提供服装批发市场的商品及商家排行榜数据,涵盖热销榜、销量排名、类目趋势等,支持多维度筛选与数据分析,助力选品决策、竞品分析与市场预测,为服装供应链提供有力数据支撑。