从零到一建设数据中台 - 功能组织与实现技术

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
云原生数据库 PolarDB MySQL 版,通用型 2核8GB 50GB
简介: 从零到一建设数据中台 - 功能组织与实现技术

从零到一建设数据中台 - 功能组织与实现技术

image.png

一、数据中台功能架构

image.png

- 目录管理

通过盘点和梳理业务数据,编制、发布数据目录,规划和指导数据的接入、管理、治理、开发、共享等。

- 数据集成

为大数据平台提供基础支撑性服务,提供多种数据接入工具,实现结构化和非结构化的数据的汇聚接入,并支持数据的预处理,为大数据平台提供原始数据支撑。

- 数据资产管理

通过管理数据标准、元数据、主数据、数据资源等,提高数据资产的价值。

- 数据治理

规范数据的生成以及使用,发现并持续改善数据质量。数据治理主要涉及两个大的功能:

数据质量(DQC):在Hadoop, Spark, Storm等分布式系统中,提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。

元数据管理:元数据管理核心在更好的维护数据血缘关系,能够支持表级别、字段级别数据血缘关系。为后续的数据发现、数据追朔、标签体系构建、数据资产运营等提供支撑。

- 数据开发

提供大数据开发、分析、挖掘等功能。非专业的业务人员也可以利用图形化的IDE进行数据分析。

- 数据分析

提供从基本数据查询统计、数据交叉汇总、自由挖掘钻取分析、多维数据分析等多层次的数据分析功能。

- 数据共享

实现不同部门、不同格式数据的共享交换,以及异构系统之间、新老系统之间的信息的透明交换。

- 数据安全

提升一系列安全工具,包括数据加密、数据脱敏、数据备份、日志审计等。

二、数据中台分层架构

image.png

数据源层

- 结构化数据:

异构数据库中的结构化数据(关系型数据库、非关系型数据库,KafkaRabbitMQ等消息队列中的数据、其他业务系统中数据库数据、Elasticsearch中的数据)

- 非结构化数据:

包括图片、声音、视频等,这类数据通常无法直接知道它的内容,数据库通常将它保存在一个BLOB字段中。一般的做法是,建立一个包含三个字段的表(编号 number、内容描述 varchar(1024)、内容 blob)。引用通过编号,检索通过内容描述。

- 半结构化数据:

半结构化数据具有一定的结构性,但是结构变化很大。因为我们要了解数据的细节所以不能将数据简单的组织成一个文件按照非结构化数据处理,由于结构变化很大也不能够简单的建立一个表和他对应。其存储方式有两种:一种是化解为结构化数据,另一种是用XML格式来组织并保存到CLOB字段中。

数据获取层(数据采集层)

数据获取层的主要作用是实现多源异构数据的采集、聚合、传输及预处理,集成多种数据采集工具。

- Sqoop是一款开源工具

主要用于在Hadoop(Hive)与传统的数据库(mysqlpostgresql...)间进行数据传递。它可以将一个关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导入到HadoopHDFS中,也可以将HDFS的数据导进到关系型数据库中。

- Flume是一个分布式的海量日志采集、聚合和传输系统

Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

- 消息队列(MQ)是一种应用程序对应用程序的通信方法

应用程序通过写和检索出入列队的针对应用程序的数据(消息)来通信,而无需专用连接来链接它们。消息传递指的是程序之间通过在消息中发送数据进行通信,而不是通过直接调用彼此来通信。

- Kettle是一款开源ETL工具

可以跨平台上运行,绿色无需安装,数据抽取高效稳定。中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。kettle四大家族:

  1. Chef:工作(job),设计工具 (GUI方式);
  2. Kitchen:工作(job)执行器 (命令行方式);
  3. Spoon:转换(transform),设计工具 (GUI方式)
  4. Pan:转换(transform)执行器 (命令行方式)

数据存储层

- 关系数据库:

Mpp(大规模并行处理)技术是基于关系数据库的成熟技术,伴随着分布式与并行数据库技术的发展而来。

- 非关系数据库:

NoSQL用以解决大规模数据集合多重数据种类问题。分为四大类:键值(Key-Value)存储数据库(如Redis),列存储数据库(如HBase),文档型数据库(SequoiaDB),图形(Graph)数据库(如Neo4J)。

- 分布式文件存储:

HDFS是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它具有高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征,为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。FastDFS是一个开源的轻量级分布式文件系统。功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。

- 全文索引:

Solr是以Lucene搜索库为核心,提供全文索引和搜索的开源工具,提供RESTHTTP/XMLJSONAPIES(ElasticSearch)是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。

数据处理层

- 离线数据处理:

大数据离线处理一般使用 HDFSMPP 存储数据,使用MapReduceSpark微批处理、Flink流批处理,计算完成的数据如需数据仓库的存储,直接存入 Hive(或ClickHouse), 然后从Hive(或ClickHouse) 进行展现。

  • 实时数据处理:

是指计算机对现场数据在其发生的实际时间内进行收集和处理的过程,主要技术实现有:StormSpark StreamingFlink流式处理。


相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
打赏
0
0
0
0
43
分享
相关文章
什么是数据中台,一文读懂数据中台核心功能
在数字化浪潮下,数据成为企业核心资产。然而,数据分散、质量参差、使用效率低等问题困扰企业发展。数据中台应运而生,作为企业的“中枢神经”,它通过整合、治理、分析和共享数据,打破信息孤岛,提升数据价值,助力企业在营销、风控、产品创新和运营等方面实现数据驱动决策。本文深入解析数据中台的概念、功能、应用场景及建设路径,帮助企业理解如何构建高效的数据能力平台,推动业务增长。
数据中台架构与技术体系
本文介绍了数据中台的整体架构设计,涵盖数据采集、存储、计算、服务及治理等多个层面。在数据采集层,通过实时与离线方式整合多类型数据源;存储层采用分层策略,包括原始层、清洗层、服务层和归档层,满足不同访问频率需求;计算层提供批处理、流处理、交互式分析和AI计算能力,支持多样化业务场景。数据服务层封装数据为标准化API,实现灵活调用,同时强调数据治理与安全,确保元数据管理、质量监控、权限控制及加密措施到位,助力企业构建高效、合规的数据管理体系。
【重磅发布】AllData数据中台核心功能:机器学习算法平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
深度探索 Dataphin 数据中台的功能与表现
深度探索 Dataphin 数据中台的功能与表现
163 7
【重磅发布】AllData数据中台核心功能:湖仓平台中心
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
【重磅发布】AllData数据中台核心功能:湖仓一体化平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
【重磅发布】AllData数据中台核心功能:湖仓一体化平台
一图尽览:AllData数据中台商业版与开源版功能对比
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
运用LangChain赋能企业规章制度制定:深入解析Retrieval-Augmented Generation(RAG)技术如何革新内部管理文件起草流程,实现高效合规与个性化定制的完美结合——实战指南与代码示例全面呈现
【10月更文挑战第3天】构建公司规章制度时,需融合业务实际与管理理论,制定合规且促发展的规则体系。尤其在数字化转型背景下,利用LangChain框架中的RAG技术,可提升规章制定效率与质量。通过Chroma向量数据库存储规章制度文本,并使用OpenAI Embeddings处理文本向量化,将现有文档转换后插入数据库。基于此,构建RAG生成器,根据输入问题检索信息并生成规章制度草案,加快更新速度并确保内容准确,灵活应对法律与业务变化,提高管理效率。此方法结合了先进的人工智能技术,展现了未来规章制度制定的新方向。
319 3
LangChain-17 FunctionCalling 利用大模型对函数进行回调 扩展大模型的额外的能力 比如实现加减乘除等功能
LangChain-17 FunctionCalling 利用大模型对函数进行回调 扩展大模型的额外的能力 比如实现加减乘除等功能
202 4
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问