基于Apache doris怎么构建数据中台(二)-数据中台建设内容

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
RDS MySQL DuckDB 分析主实例,集群系列 8核16GB
简介: 主要是将基于Doris的数据中台建设内容及系统架构设计。

这次主要是将基于Doris的数据中台建设内容及系统架构设计


围绕着上次将的我们要解决的五个问题:找数,理解数据,问题评估,取数及数据可视化,给出一个概要的设计及框架


数据中台建设内容


  1. 数据规范统一:采用维度事实建模理论进行严格的,规范化、标准化的定义,保障数据质量,避免数据指标的二义性。


  1. 一站式研发体验:从数据接入、建模、研发、运维、数据查找及探查等过程提供高效一站式统一的研发立案率。


  1. 系统化构建数据体系:以标准的技术框架,系统地构建规范可读的业务化数据体系,形成数据资产,方便业务查找及应用。


  1. 可视化数据资产:系统化构建业务数据资产大图,还原业务系统,提取业务知识,快速提取业务关键环节及业务。


  1. 数据使用简单可依赖:定义及服务,研发构建的业务主题式数据逻辑表可被直接,快速查询及访问,简化查询代码。


数据中台架构


数据中台系统架构

image.png

image-20210327145957837


数据中台技术架构


对用户来说,Doris 的优点是功能强大,易用性好。 功能强大指可以满足我们用户的需求,易用性好主要指 兼容 Mysql 协议和语法,以及 Online Schema Change。 兼容 Mysql 协议和语法让用户的学习成本和开发成本很低, Online Schema Change 也是一个很吸引人的 feature,因为在业务快速发展和频繁迭代的情况下,Schema 变更会是一个高频的操作。


对平台侧来说,Doris 的优点是易运维,易扩展和高可用


  • 易运维指 Doris 无外部系统依赖,部署和配置都很简单。


  • 易扩展指 Doris 可以一键加减节点,并自动均衡数据。


  • 高可用值 Dors 的 FE 和 BE 都可以容忍少数节点挂掉。


所以这里数仓是使用Doris作为核心组件来构建


image.png

image-20210327145957837


架构说明:


  1. 数仓整体以Doris为核心构建公司企业级数据仓库,(后期会根据实际需要还可能会引进Hive、ClickHouse等其他组件)


  1. 通过统一的数据采集系统,多种数据采集手段,包括Mysql binlog解析(Cannal),日志采集Flume(Doris审计日志)、埋点接口等实现多种异构数据的采集,针对Mysql,Kafka数据源我们封装了零代码入仓,可视化完成


  1. 将采集的数据统一通过消息队列(Kafka)完成高并发的数据吞吐,同时实现数仓及计算引擎的解耦


  1. Flink计算引擎完成数据的ETL处理及实时数据的统计,并将数据推送到Kafka及Doris(Stream Load)


  1. 对外通过doris和消息队列对外提供数据服务


  1. 数据质量管理是实现对从数据采集到数据ETL处理,数据存储及数据服务全生命周期的数据管理,包括元数据,数据质量,数据规范、数据安全


  1. 血缘关系的构建是基于Doris的审计日志,这块我会在后面数据资产的元数据管理里讲解


系统架构数据管理及数据流向

image.png


image-20210327145957837


数据中台功能整体规划


数据中台功能整体规划

这是我们数据中台的整体功能规划,我会在后续展开每个功能

image.png

image-20210327145957837




相关实践学习
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
3月前
|
人工智能 缓存 监控
使用LangChain4j构建Java AI智能体:让大模型学会使用工具
AI智能体是大模型技术的重要演进方向,它使模型能够主动使用工具、与环境交互,以完成复杂任务。本文详细介绍如何在Java应用中,借助LangChain4j框架构建一个具备工具使用能力的AI智能体。我们将创建一个能够进行数学计算和实时信息查询的智能体,涵盖工具定义、智能体组装、记忆管理以及Spring Boot集成等关键步骤,并展示如何通过简单的对话界面与智能体交互。
978 1
|
3月前
|
SQL 人工智能 数据挖掘
Apache Doris 4.0 AI 能力揭秘(二):为企业级应用而生的 AI 函数设计与实践
Apache Doris 4.0 原生集成 LLM 函数,将大语言模型能力深度融入 SQL 引擎,实现文本处理智能化与数据分析一体化。通过十大函数,支持智能客服、内容分析、金融风控等场景,提升实时决策效率。采用资源池化管理,保障数据一致性,降低传输开销,毫秒级完成 AI 分析。结合缓存复用、并行执行与权限控制,兼顾性能、成本与安全,推动数据库向 AI 原生演进。
302 0
Apache Doris 4.0 AI 能力揭秘(二):为企业级应用而生的 AI 函数设计与实践
|
3月前
|
人工智能 Java API
构建基于Java的AI智能体:使用LangChain4j与Spring AI实现RAG应用
当大模型需要处理私有、实时的数据时,检索增强生成(RAG)技术成为了核心解决方案。本文深入探讨如何在Java生态中构建具备RAG能力的AI智能体。我们将介绍新兴的Spring AI项目与成熟的LangChain4j框架,详细演示如何从零开始构建一个能够查询私有知识库的智能问答系统。内容涵盖文档加载与分块、向量数据库集成、语义检索以及与大模型的最终合成,并提供完整的代码实现,为Java开发者开启构建复杂AI智能体的大门。
1560 58
|
3月前
|
存储 自然语言处理 分布式计算
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
Apache Doris 3.1 正式发布!全面升级半结构化分析,支持 VARIANT 稀疏列与模板化 Schema,提升湖仓一体能力,增强 Iceberg/Paimon 集成,优化存储引擎与查询性能,助力高效数据分析。
514 4
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
存储 人工智能 机器人
112 0
|
3月前
|
人工智能 安全 数据库
构建可扩展的 AI 应用:LangChain 与 MCP 服务的集成模式
本文以LangChain和文件系统服务器为例,详细介绍了MCP的配置、工具创建及调用流程,展现了其“即插即用”的模块化优势,为构建复杂AI应用提供了强大支持。
|
4月前
|
存储 分布式计算 Apache
湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃
小米通过将 Apache Doris(数据库)与 Apache Paimon(数据湖)深度融合,不仅解决了数据湖分析的性能瓶颈,更实现了 “1+1>2” 的协同效应。在这些实践下,小米在湖仓数据分析场景下获得了可观的业务收益。
832 9
湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃
|
2月前
|
人工智能 数据处理 API
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
Apache Flink Agents 是由阿里云、Ververica、Confluent 与 LinkedIn 联合推出的开源子项目,旨在基于 Flink 构建可扩展、事件驱动的生产级 AI 智能体框架,实现数据与智能的实时融合。
378 6
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
|
3月前
|
人工智能 运维 Java
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
本文基于Apache Flink PMC成员宋辛童在Community Over Code Asia 2025的演讲,深入解析Flink Agents项目的技术背景、架构设计与应用场景。该项目聚焦事件驱动型AI智能体,结合Flink的实时处理能力,推动AI在工业场景中的工程化落地,涵盖智能运维、直播分析等典型应用,展现其在AI发展第四层次——智能体AI中的重要意义。
1210 27
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
|
存储 Cloud Native 数据处理
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
本文整理自阿里云资深技术专家、Apache Flink PMC 成员梅源在 Flink Forward Asia 新加坡 2025上的分享,深入解析 Flink 状态管理系统的发展历程,从核心设计到 Flink 2.0 存算分离架构,并展望未来基于流批一体的通用增量计算方向。
311 0
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式

热门文章

最新文章

推荐镜像

更多