大数据时代的引擎:大数据架构随记

本文涉及的产品
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
云原生数据库 PolarDB MySQL 版,通用型 2核8GB 50GB
日志服务 SLS,月写入数据量 50GB 1个月
简介: 大数据架构通常分为四层:数据采集层、数据存储层、数据计算层和数据应用层。数据采集层负责从各种源采集、清洗和转换数据,常用技术包括Flume、Sqoop和Logstash+Filebeat。数据存储层管理数据的持久性和组织,常用技术有Hadoop HDFS、HBase和Elasticsearch。数据计算层处理大规模数据集,支持离线和在线计算,如Spark SQL、Flink等。数据应用层将结果可视化或提供给第三方应用,常用工具为Tableau、Zeppelin和Superset。

大数据架构通常可以分为以下几层:


添加图片注释,不超过 140 字(可选)


一、数据采集层


添加图片注释,不超过 140 字(可选)


负责从各种数据源采集、清洗、转换、丰富以及格式化数据,可能包括结构化、半结构化和非结构化的数据。

1.1、常用的技术

在大数据领域,数据采集是一个关键的环节,常用的数据采集技术包括:

  1. Flume:Apache Flume是一个分布式、可靠、并且可用于高可用性环境的日志收集、聚合和传输系统。它通常用于从各种数据源(如网络服务器日志、传感器数据等)收集大量数据,并将其传输到数据存储或处理系统中。
  2. Sqoop:Apache Sqoop是用于在Apache Hadoop和关系型数据库之间进行数据传输的工具。它允许用户将结构化数据从关系型数据库(如MySQL、Oracle等)导入到Hadoop生态系统中(如HDFS、Hive等),也可以将数据从Hadoop导出到关系型数据库中。
  3. Logstash+Filebeat:Logstash是一个开源的日志收集和处理引擎,它可以从多个来源收集数据、转换数据格式并将数据发送到各种目的地。Filebeat是一个轻量级的日志收集工具,通常与Logstash配合使用,用于收集和传输日志文件。Logstash负责对数据进行过滤、解析和转换,然后将其发送到目标存储或处理系统(如Elasticsearch、Hadoop等)。

1.2、数据分类

结构化、半结构化和非结构化数据是指在数据管理和处理中的不同类型的数据:

  1. 结构化数据:这些数据以一种预定义的模型或格式进行组织,通常存储在数据库表格中,并且可以轻松地通过查询语言(如SQL)进行访问和处理。结构化数据具有明确定义的数据模式,其字段和值之间的关系清晰明确。例如,关系型数据库中的表格数据就是一种典型的结构化数据,其中每一列都有特定的数据类型,而每一行代表一个记录或实体。
  2. 半结构化数据:这类数据包含结构化数据和非结构化数据的混合体。虽然它们没有严格的数据模型,但它们可能具有某种程度的标记或标签,以便组织和查询。半结构化数据通常以XML、JSON等格式存储,具有层次结构或标记,但不像结构化数据那样具有明确的模式。例如,XML文档或JSON对象就是半结构化数据的常见形式,其中包含了数据的结构化组织,但某些字段可能是可选的或者不具有严格的数据类型。
  3. 非结构化数据:这种类型的数据没有明确的结构或组织方式,通常以自然语言、图像、音频或视频等形式存在。非结构化数据不容易用传统的数据库或表格来存储和处理,因为它们缺乏明确的模式或格式。例如,文档、电子邮件、社交媒体帖子、图像和视频文件等都属于非结构化数据的范畴。处理非结构化数据通常需要使用特殊的技术和工具,如自然语言处理(NLP)或图像识别技术。


二、数据存储层


添加图片注释,不超过 140 字(可选)


1、主要职能

  1. 持久性存储:数据存储层负责将大数据系统中的数据永久性地保存在存储介质中,以便长期保留和访问。这包括结构化、半结构化和非结构化数据。持久性存储通常需要提供高容量、高可靠性和高性能的存储解决方案。
  2. 数据管理:数据存储层管理数据的组织、存储、备份、恢复和归档等任务。这包括数据的分区、索引、压缩、加密和权限控制等。数据管理的目标是确保数据的完整性、可靠性、安全性和可用性。

2、常用技术

在大数据领域,数据存储层的常用技术包括:

  1. Hadoop HDFS:HDFS是Apache Hadoop的核心组件之一,用于存储大规模数据集。它将数据分散存储在多个节点上,并提供高可靠性、容错性和高吞吐量。
  2. Apache HBase:HBase是一个分布式、面向列的数据库,用于实时读写大规模结构化数据。它建立在Hadoop HDFS之上,提供了高度可扩展性和实时访问能力。
  3. Elasticsearch:Elasticsearch是一个分布式搜索和分析引擎,用于存储和检索大规模半结构化和非结构化数据。它提供了强大的全文搜索、实时分析和数据可视化功能。

三、数据计算层


添加图片注释,不超过 140 字(可选)


大数据计算层的主要职能是处理和分析大规模数据集,以支持数据驱动的决策制定。这一层包括了离线计算和在线计算两个部分,每个部分都有其专用的技术和工具。


离线计算主要用于处理大量的非实时数据。它可以进行深入的数据分析,通常用于生成报告、数据挖掘、机器学习等场景。常用的离线计算技术包括:

  • Spark SQL: 用于执行SQL查询的分布式计算框架。
  • Hadoop MapReduce: 一个可扩展的数据处理工具,适用于大数据集的分析。
  • Apache Impala: 提供高性能、低延迟的SQL查询功能,适用于Hadoop数据。
  • Apache Kylin: 为大规模数据提供OLAP(在线分析处理)功能。
  • Hive: 一个数据仓库工具,可以处理大数据并提供SQL查询功能。

在线计算则更侧重于实时数据处理,支持快速的数据查询和分析,适用于需要即时反馈的应用场景。常用的在线计算技术包括:

  • Spark Streaming: 用于处理实时数据流的分布式计算系统。
  • Flink: 专注于分布式流处理和批处理的开源平台。
  • Storm: 一个实时大数据处理框架。
  • Clickhouse: 一个用于在线分析处理查询的列式数据库管理系统。
  • Presto: 一个分布式SQL查询引擎,适用于大规模数据集。

四、数据应用层

添加图片注释,不超过 140 字(可选)

这一层负责将数据结果可视化或提供给第三方应用,常用的技术有:

  • Tableau:数据可视化工具。
  • Zeppelin:基于Web的笔记本,支持数据驱动、交互式数据分析和协作。
  • Superset:数据探索和可视化平台。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3月前
|
运维 监控 负载均衡
动态服务管理平台:驱动微服务架构的高效引擎
动态服务管理平台:驱动微服务架构的高效引擎
62 17
|
3月前
|
大数据
【赵渝强老师】大数据主从架构的单点故障
大数据体系架构中,核心组件采用主从架构,存在单点故障问题。为提高系统可用性,需实现高可用(HA)架构,通常借助ZooKeeper来实现。ZooKeeper提供配置维护、分布式同步等功能,确保集群稳定运行。下图展示了基于ZooKeeper的HDFS HA架构。
|
30天前
|
SQL 存储 大数据
Flink 基础详解:大数据处理的强大引擎
Apache Flink 是一个分布式流批一体化的开源平台,专为大规模数据处理设计。它支持实时流处理和批处理,具有高吞吐量、低延迟特性。Flink 提供统一的编程抽象,简化大数据应用开发,并在流处理方面表现卓越,广泛应用于实时监控、金融交易分析等场景。其架构包括 JobManager、TaskManager 和 Client,支持并行度、水位线、时间语义等基础属性。Flink 还提供了丰富的算子、状态管理和容错机制,如检查点和 Savepoint,确保作业的可靠性和一致性。此外,Flink 支持 SQL 查询和 CDC 功能,实现实时数据捕获与同步,广泛应用于数据仓库和实时数据分析领域。
213 32
|
2月前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
250 15
|
2月前
|
机器学习/深度学习 分布式计算 数据挖掘
MaxFrame 性能评测:阿里云MaxCompute上的分布式Pandas引擎
MaxFrame是一款兼容Pandas API的分布式数据分析工具,基于MaxCompute平台,极大提升了大规模数据处理效率。其核心优势在于结合了Pandas的易用性和MaxCompute的分布式计算能力,无需学习新编程模型即可处理海量数据。性能测试显示,在涉及`groupby`和`merge`等复杂操作时,MaxFrame相比本地Pandas有显著性能提升,最高可达9倍。适用于大规模数据分析、数据清洗、预处理及机器学习特征工程等场景。尽管存在网络延迟和资源消耗等问题,MaxFrame仍是处理TB级甚至PB级数据的理想选择。
70 4
|
3月前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
417 3
【赵渝强老师】基于大数据组件的平台架构
|
2月前
|
存储 负载均衡 监控
揭秘 Elasticsearch 集群架构,解锁大数据处理神器
Elasticsearch 是一个强大的分布式搜索和分析引擎,广泛应用于大数据处理、实时搜索和分析。本文深入探讨了 Elasticsearch 集群的架构和特性,包括高可用性和负载均衡,以及主节点、数据节点、协调节点和 Ingest 节点的角色和功能。
83 0
|
4月前
|
存储 SQL 分布式计算
湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
【10月更文挑战第7天】湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
338 1
|
2月前
|
弹性计算 API 持续交付
后端服务架构的微服务化转型
本文旨在探讨后端服务从单体架构向微服务架构转型的过程,分析微服务架构的优势和面临的挑战。文章首先介绍单体架构的局限性,然后详细阐述微服务架构的核心概念及其在现代软件开发中的应用。通过对比两种架构,指出微服务化转型的必要性和实施策略。最后,讨论了微服务架构实施过程中可能遇到的问题及解决方案。
|
3月前
|
Cloud Native Devops 云计算
云计算的未来:云原生架构与微服务的革命####
【10月更文挑战第21天】 随着企业数字化转型的加速,云原生技术正迅速成为IT行业的新宠。本文深入探讨了云原生架构的核心理念、关键技术如容器化和微服务的优势,以及如何通过这些技术实现高效、灵活且可扩展的现代应用开发。我们将揭示云原生如何重塑软件开发流程,提升业务敏捷性,并探索其对企业IT架构的深远影响。 ####
83 3

热门文章

最新文章