大数据时代下的存储技术--- 数据库类型及应用场景

本文涉及的产品
云原生数据库 PolarDB MySQL 版,通用型 2核4GB 50GB
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
简介: 传统单一的数据库的时代已经过去,大数据的特点以及新的数据应用场景对于数据库的新需求在不断出现,采用传统的数据库应对不同需求这种一刀切的方式已经不再奏效。

随着互联网的飞速发展,人们的工作生活都通过互联网紧密联接,各种网络数据暴增,这就促使大数据时代到来。


大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。


大数据时代,不但数据规模大、数据传递快,而且数据种类也是多样性的。这就对数据的存储技术提出了更高的要求,但是也给整个世界带来了更加快捷和方便的进步和发展。


大数据时代下的数据类型:

  • 结构化数据(Structured Data) 

      即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据

  • 半结构数据(Semi-structured Data)

      指结构数据中,结构不规则的数据,由于结构变化很大也不能够简单的建立一个表和他对应。如:声音、图像文件等之间的数据,HTML文档就属于半结构化数据。

  • 非结构化数据(Unstructured Data)

非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、像和音频/视频信息等等。


传统单一的数据库的时代已经过去,大数据的特点以及新的数据应用场景对数据库存储不断提出的新需求,采用传统的数据库应对不同需求这种一刀切的方式已经不再奏效。


大数据时代下,数据库类型以及应用场景


虽然使用数据库的目的都是为了进行数据存储,但是不同数据库还是有不同的产品特性。

场景.png

数据库分类


关系型数据库应用场景


关系模型,就是二维表格模型。一个关系型数据库就是由多个二维表及其之间的联系所组成的一个数据组织。


关系数据库的使用比较广泛,其以行和列的形式来存储数据,更便于用户理解,关系型数据库这一系列的行和列被称为表,一组表组成了数据库。 主流的关系型数据库例如:OracleL、SQL Server、DB2、MySQL、PostgreSQL等。


如下图所示:通常该表第一行为字段名称,描述该字段的作用,下面是具体的数据。

关系型数据库.png


关系型数据库特点--ACID理论


• A (Atomicity) 原子性: 就是说事务里的所有操作要么全部做完,要么都不做,事务成功的条件是事务里的所有操作都成功,只要有一个 操作失败,整个事务就失败,需要回滚。

 

• C (Consistency) 一致性: 一致性也比较容易理解,也就是说数据库要一直处于一致的状态,事务的运行不会改变数据库原本的一致性约束。


• I (Isolation) 独立性: 是指并发的事务之间不会互相影响,如果一个事务要访问的数据正在被另外一个事务修改,只要另外一个事务未 提交,它所访问的数据就不受未提交事务的影响。


• D (Durability) 持久性: 指一旦事务提交后,它所做的修改将会永久的保存在数据库上,即使出现宕机也不会丢失。


关系型数据库的优点:

1.操作方便,   SQL语言容易书写和理解。

2.数据冗余度低

3.适合支撑复杂数据查询


非关系型数据库应用场景

常见的非关系型数据库有键值数据库、列存储数据库、文档数据库、图数据库、时序数据库、搜索引擎数据库等。非关系型数据库主要用于处理大数据量、高负载情况,一般采集分布式文件系统。通常,在非关系型数据库中,数据以对象的形式存储在数据库中,而对象之间的关系通过每个对象自身的属性来决定。

非关系数据库.png

非关系型数据库特点---CAP理论

CAP理论指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼。

CAP 理论核心是: 一个分布式系统不可能同时很好的满足一致性,一致性和区分容错性这三个需求,最多只能同时较好的满足两个。


  • C:Consistency 一致性

      在分布式系统中的所有数据备份,在同一时刻是否同样的值。

  • A: Availability 可用性

      保证每个请求不管成功或者失败都有响应。

  • P:Partition Tolerance 区分容错性

     系统中任意信息的丢失或失败不会影响系统的继续运作。


非关系型数据库的优点:

  1. 数据间耦合性低,扩展性好
  2. 读写性能高
  3. 更适用于大数据分析场景

虽然两种类型数据库各有优势,但其优势也需要建立在不同的架构和成本之上,使用过程中也需要注意各优势之间的平衡。


在制定企业存储策略过程中,如何更有效地、稳定地发挥各自的优势是架构师们需要根据实际需要认真考虑的问题。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
存储 Oracle 关系型数据库
Oracle数据库的应用场景有哪些?
【10月更文挑战第15天】Oracle数据库的应用场景有哪些?
198 64
|
2月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
167 1
|
6天前
|
存储 分布式计算 安全
MaxCompute Bloomfilter index 在蚂蚁安全溯源场景大规模点查询的最佳实践
MaxCompute 在11月最新版本中全新上线了 Bloomfilter index 能力,针对大规模数据点查场景,支持更细粒度的数据裁剪,减少查询过程中不必要的数据扫描,从而提高整体的查询效率和性能。
|
1月前
|
架构师 数据库
大厂面试高频:数据库乐观锁的实现原理、以及应用场景
数据库乐观锁是必知必会的技术栈,也是大厂面试高频,十分重要,本文解析数据库乐观锁。关注【mikechen的互联网架构】,10年+BAT架构经验分享。
大厂面试高频:数据库乐观锁的实现原理、以及应用场景
|
21天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
1月前
|
机器学习/深度学习 存储 大数据
云计算与大数据技术的融合应用
云计算与大数据技术的融合应用
|
2月前
|
存储 分布式计算 druid
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
74 1
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
|
2月前
|
算法 大数据 数据库
云计算与大数据平台的数据库迁移与同步
本文详细介绍了云计算与大数据平台的数据库迁移与同步的核心概念、算法原理、具体操作步骤、数学模型公式、代码实例及未来发展趋势与挑战。涵盖全量与增量迁移、一致性与异步复制等内容,旨在帮助读者全面了解并应对相关技术挑战。
57 3
|
2月前
|
供应链 数据库
数据库事务安全性控制有什么应用场景吗
【10月更文挑战第15天】数据库事务安全性控制有什么应用场景吗
|
2月前
|
SQL 存储 分布式计算
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
43 9