大数据时代下的存储技术--- 数据库类型及应用场景

简介: 传统单一的数据库的时代已经过去,大数据的特点以及新的数据应用场景对于数据库的新需求在不断出现,采用传统的数据库应对不同需求这种一刀切的方式已经不再奏效。

随着互联网的飞速发展,人们的工作生活都通过互联网紧密联接,各种网络数据暴增,这就促使大数据时代到来。


大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。


大数据时代,不但数据规模大、数据传递快,而且数据种类也是多样性的。这就对数据的存储技术提出了更高的要求,但是也给整个世界带来了更加快捷和方便的进步和发展。


大数据时代下的数据类型:

  • 结构化数据(Structured Data) 

      即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据

  • 半结构数据(Semi-structured Data)

      指结构数据中,结构不规则的数据,由于结构变化很大也不能够简单的建立一个表和他对应。如:声音、图像文件等之间的数据,HTML文档就属于半结构化数据。

  • 非结构化数据(Unstructured Data)

非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、像和音频/视频信息等等。


传统单一的数据库的时代已经过去,大数据的特点以及新的数据应用场景对数据库存储不断提出的新需求,采用传统的数据库应对不同需求这种一刀切的方式已经不再奏效。


大数据时代下,数据库类型以及应用场景


虽然使用数据库的目的都是为了进行数据存储,但是不同数据库还是有不同的产品特性。

场景.png

数据库分类


关系型数据库应用场景


关系模型,就是二维表格模型。一个关系型数据库就是由多个二维表及其之间的联系所组成的一个数据组织。


关系数据库的使用比较广泛,其以行和列的形式来存储数据,更便于用户理解,关系型数据库这一系列的行和列被称为表,一组表组成了数据库。 主流的关系型数据库例如:OracleL、SQL Server、DB2、MySQL、PostgreSQL等。


如下图所示:通常该表第一行为字段名称,描述该字段的作用,下面是具体的数据。

关系型数据库.png


关系型数据库特点--ACID理论


• A (Atomicity) 原子性: 就是说事务里的所有操作要么全部做完,要么都不做,事务成功的条件是事务里的所有操作都成功,只要有一个 操作失败,整个事务就失败,需要回滚。

 

• C (Consistency) 一致性: 一致性也比较容易理解,也就是说数据库要一直处于一致的状态,事务的运行不会改变数据库原本的一致性约束。


• I (Isolation) 独立性: 是指并发的事务之间不会互相影响,如果一个事务要访问的数据正在被另外一个事务修改,只要另外一个事务未 提交,它所访问的数据就不受未提交事务的影响。


• D (Durability) 持久性: 指一旦事务提交后,它所做的修改将会永久的保存在数据库上,即使出现宕机也不会丢失。


关系型数据库的优点:

1.操作方便,   SQL语言容易书写和理解。

2.数据冗余度低

3.适合支撑复杂数据查询


非关系型数据库应用场景

常见的非关系型数据库有键值数据库、列存储数据库、文档数据库、图数据库、时序数据库、搜索引擎数据库等。非关系型数据库主要用于处理大数据量、高负载情况,一般采集分布式文件系统。通常,在非关系型数据库中,数据以对象的形式存储在数据库中,而对象之间的关系通过每个对象自身的属性来决定。

非关系数据库.png

非关系型数据库特点---CAP理论

CAP理论指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼。

CAP 理论核心是: 一个分布式系统不可能同时很好的满足一致性,一致性和区分容错性这三个需求,最多只能同时较好的满足两个。


  • C:Consistency 一致性

      在分布式系统中的所有数据备份,在同一时刻是否同样的值。

  • A: Availability 可用性

      保证每个请求不管成功或者失败都有响应。

  • P:Partition Tolerance 区分容错性

     系统中任意信息的丢失或失败不会影响系统的继续运作。


非关系型数据库的优点:

  1. 数据间耦合性低,扩展性好
  2. 读写性能高
  3. 更适用于大数据分析场景

虽然两种类型数据库各有优势,但其优势也需要建立在不同的架构和成本之上,使用过程中也需要注意各优势之间的平衡。


在制定企业存储策略过程中,如何更有效地、稳定地发挥各自的优势是架构师们需要根据实际需要认真考虑的问题。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
4月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
6月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
6月前
|
机器学习/深度学习 数据采集 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在城市空气质量监测与污染溯源中的应用(216)
本文探讨Java大数据可视化在城市空气质量监测与污染溯源中的创新应用,结合多源数据采集、实时分析与GIS技术,助力环保决策,提升城市空气质量管理水平。
Java 大视界 -- 基于 Java 的大数据可视化在城市空气质量监测与污染溯源中的应用(216)
|
6月前
|
存储 监控 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在企业生产运营监控与决策支持中的应用(228)
本文探讨了基于 Java 的大数据可视化技术在企业生产运营监控与决策支持中的关键应用。面对数据爆炸、信息孤岛和实时性不足等挑战,Java 通过高效数据采集、清洗与可视化引擎,助力企业构建实时监控与智能决策系统,显著提升运营效率与竞争力。
|
6月前
|
Java 大数据 数据处理
Java 大视界 -- 基于 Java 的大数据实时数据处理在工业互联网设备协同制造中的应用与挑战(222)
本文探讨了基于 Java 的大数据实时数据处理在工业互联网设备协同制造中的应用与挑战。文章分析了传统制造模式的局限性,介绍了工业互联网带来的机遇,并结合实际案例展示了 Java 在多源数据采集、实时处理及设备协同优化中的关键技术应用。同时,也深入讨论了数据安全、技术架构等挑战及应对策略。
|
6月前
|
数据采集 搜索推荐 Java
Java 大视界 -- Java 大数据在智能教育虚拟学习环境构建与用户体验优化中的应用(221)
本文探讨 Java 大数据在智能教育虚拟学习环境中的应用,涵盖多源数据采集、个性化推荐、实时互动优化等核心技术,结合实际案例分析其在提升学习体验与教学质量中的成效,并展望未来发展方向与技术挑战。
|
5月前
|
存储 弹性计算 Cloud Native
云原生数据库的演进与应用实践
随着企业业务扩展,传统数据库难以应对高并发与弹性需求。云原生数据库应运而生,具备计算存储分离、弹性伸缩、高可用等核心特性,广泛应用于电商、金融、物联网等场景。阿里云PolarDB、Lindorm等产品已形成完善生态,助力企业高效处理数据。未来,AI驱动、Serverless与多云兼容将推动其进一步发展。
260 8
|
5月前
|
存储 弹性计算 安全
现有数据库系统中应用加密技术的不同之处
本文介绍了数据库加密技术的种类及其在不同应用场景下的安全防护能力,包括云盘加密、透明数据加密(TDE)和选择列加密。分析了数据库面临的安全威胁,如管理员攻击、网络监听、绕过数据库访问等,并通过能力矩阵对比了各类加密技术的安全防护范围、加密粒度、业务影响及性能损耗。帮助用户根据安全需求、业务改造成本和性能要求,选择合适的加密方案,保障数据存储与传输安全。
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用(229)
本文深入探讨Java大数据与机器学习在自然语言生成(NLG)中的可控性研究,分析当前生成模型面临的“失控”挑战,如数据噪声、标注偏差及黑盒模型信任问题,提出Java技术在数据清洗、异构框架融合与生态工具链中的关键作用。通过条件注入、强化学习与模型融合等策略,实现文本生成的精准控制,并结合网易新闻与蚂蚁集团的实战案例,展示Java在提升生成效率与合规性方面的卓越能力,为金融、法律等强监管领域提供技术参考。
|
6月前
|
存储 人工智能 算法
Java 大视界 -- Java 大数据在智能医疗影像数据压缩与传输优化中的技术应用(227)
本文探讨 Java 大数据在智能医疗影像压缩与传输中的关键技术应用,分析其如何解决医疗影像数据存储、传输与压缩三大难题,并结合实际案例展示技术落地效果。