基于阿里云服务的数据平台架构实践

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。

1. 背景介绍

目前由于数据分散在不同的存储环境或数据库中,对于新业务需求的开发需要从不同的数据库中同步、集中、合并等处理,造成资源和人力的浪费。同时,现有的系统架构,无法为未来数据驱动业务创新的理念提供友好的支撑。需要建设新一代数据管理平台,来解决数据利用率效率跟不上,以及不能支撑业务发展的问题。

以此背景,建设数据平台需要能够支持数据汇集、数据分析、数据应用、数据计算、数据管理、数据协同等,实现高效的数据管理、分析和应用,从而提升企业的竞争力和业务水平,并且将数据资产打造为新一代企业发展的重要资产之一。


2. 目标与价值

数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合。

数据仓库构建主要指的是把企业的业务数据库如ERP、CRM、SCM等数据按照决策分析的要求建模并汇总到数据仓库引擎中,其应用以报表为主,目的是支持管理层和业务人员决策(中长期策略型决策),支持数据的即时展现。


2.1 目标

数仓建设的目标是通过建立健全的数据管理和分析体系,实现数据的价值最大化,促进业务的持续增长和发展。可以从多个方面来考虑,主要包括以下几个方面:

  1. 数据一致性: 确保各个部门和业务系统的数据是一致的,避免数据冲突和混乱。
  2. 数据质量: 提高数据的准确性、完整性和时效性,确保数据的质量达到业务需求的标准。
  3. 数据集成和整合: 将内部和外部的各种数据源进行集成和整合,构建统一的数据视图和数据模型。
  4. 数据可用性: 提高数据的可用性和可访问性,确保用户能够随时随地获取到所需的数据。
  5. 数据安全: 保护数据安全和隐私,防止数据泄露和非法访问。


2.2 价值

数仓建设的价值体现在提高决策效率、优化业务流程、创新产品和服务、提升客户体验等多个方面,对企业的长期发展具有重要意义。建设的价值体现在多个方面,包括但不限于以下几个方面:

  1. 数据驱动决策: 数仓能够提供高质量、准确、实时的数据支持,帮助管理层和决策者基于数据做出更明智的决策,降低决策风险,提高决策效率。
  2. 精准营销: 借助数仓,可以对客户数据进行深度分析,实现个性化营销,精准定位目标客户,提高营销效果和ROI。
  3. 业务优化: 数仓能够对业务流程和运营情况进行全面分析,帮助发现业务瓶颈和优化空间,提升业务效率和运营水平。
  4. 产品创新: 通过对市场和用户行为数据的分析,可以及时了解市场需求和趋势,为产品创新提供参考和支持,提高产品竞争力。
  5. 客户体验提升: 借助数仓可以全面了解客户的行为和需求,提供个性化、精准的产品和服务,提升客户满意度和忠诚度。
  6. 成本降低: 数仓能够提高数据的利用率和效率,减少数据重复采集和整理的工作量,降低数据管理和分析的成本。
  7. 风险管控: 数仓能够对风险进行全面监控和预警,帮助及时发现和应对潜在风险,保障安全和稳定发展。
  8. 品牌价值提升: 借助数仓,可以提供更智能、更个性化的产品和服务,提升品牌的知名度和影响力,增强市场竞争力。


3. 技术架构与关键组件选型

数据仓库平台整体依托阿里云的各项功能进行部署,充分利用阿里云提供的强大技术和服务,实现离线实时一体化数仓架构设计。


3.1 数据采集与集成

数据采集和集成阶段,是对业务数据源进行抽取、转换、导入等作业。依据目前阶段发展以及各个工具组件的优缺点,这里主要推荐使用阿里云数据集成(Data Integration)作为数据采集和集成的主要工具。下面列出目前其他主流数据 ETL 工具,可供参考。

  • *数据集成(Data Integration): 阿里云数据集成服务实现对多种数据源的实时、批量数据采集和同步。整合了离线和实时数据抽取能力,适合目前离线实时一体数仓建设方案,因此比较推荐。官方链接:https://www.aliyun.com/product/cdp
  • 日志服务(SLS):云原生观测分析平台,为 Log/Metric/Trace 等数据提供大规模、低成本、实时平台化服务。一站式提供数据采集、加工、分析、告警可视化与投递功能。适用于埋点丰富,且实时需求较高的场景。官方链接:https://www.aliyun.com/product/sls
  • DataHub / Kafka :专精于流式数据(Streaming Data)的处理平台,提供对流式数据的发布、订阅和分发功能,可以轻松构建基于流式数据的分析和应用。适合用于实时计算数据平台,对离线数据能力支持较弱。官方链接:DataHubhttps://www.aliyun.com/product/datahub,Kafka https://www.aliyun.com/product/kafka
  • 数据导入导出服务(DTS): DTS服务实现异构数据源之间的数据迁移和同步。 只支持选的单一数据源同步,适合大批量数据进行迁移使用。官方链接:https://www.aliyun.com/product/dts




3.2 数据存储与管理

离线数据的存储,可以依赖MaxCompute中自带空间进行存储。实时数据存储使用阿里云原生数据仓库AnalyticDB MySQL版,能够提供高效的数据处理速度,支持看板报表秒级展现。数据管理则使用DataWorks,集成了开发运维等常用开发功能,拥有良好的 IDE 界面,能够快快速进行开发运维发布等操作。

  • *云原生数据仓库AnalyticDB MySQL版:支持高并发低延时査询的新一代云原生数据仓库,可以对海量数据进行即时的多维分析透视和业务探索。官方链接:https://www.aliyun.com/product/ApsaraDB/ads
  • *大数据开发治理平台DataWorks:DataWorks基于阿里云ODPS/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。官方链接:https://www.aliyun.com/product/bigdata/ide
  • 对象存储 OSS: 将原始数据存储于阿里云对象存储(OSS)中,构建灵活可扩展的离线数据存储层。离线数据可以通过建立外部表的方式,使用 oss 文件存储数据。但基于此文件外部表,数据管理较难,存在删除表但数据仍然存在的情况。
  • 表格存储 OTS: 用于存储结构化数据,提供高并发、低延迟的数据访问能力。场景比较单一,适合明细类数据快速检索展示。


3.3 数据处理与分析

数据处理阶段,离线数据和实时数据是完全不同的处理场景,需要分别使用不同的服务进行。离线数据处理使用MaxCompute的集成功能进行处理,实时数据则依托实时计算Flink版进行处理。

  • *大数据计算服务(MaxCompute): 基于MaxCompute实现数据的大规模计算和分析,支持SQL、MapReduce、Spark等计算模型。 官方链接:https://www.aliyun.com/product/odps
  • *实时计算Flink版:实时计算Flink版提供实时流数据处理和分析能力,支持低延迟的数据处理和决策。具备实时应用的作业开发、数据调试、运行与监控、自动调优、智能诊断等全生命周期能力。官方链接:https://www.aliyun.com/product/bigdata/sc


3.4 数据应用与服务

数据应用主要为数据结果输出可视化内容,包括报表看板、大屏展示等。


  • DataV:阿里云原生大屏展示工具,专注于大屏可视化视觉层面建设。适用于会议展览、业务监控、风险预警、地理信息分析等固定模板的展示需求。官方链接:https://www.aliyun.com/product/bigdata/datav

  • Tableau:强大的可视化功能,用户友好的界面,支持多种数据源的连接和整合,可实现高度定制化的报表和看板设计。适用于需要高度定制化和专业可视化的数据分析和报表展示场景。
  • Microsoft Power BI: 与Microsoft Office和Azure等产品的无缝集成,功能强大且易于学习使用,支持多种数据源连接和数据分析功能。适用于微软生态系统用户,需要与其他Microsoft产品集成的场景。
  • 帆软BI:提供丰富的数据分析和可视化功能,支持复杂的数据报表和仪表板设计,适合中大型企业和数据团队,对于数据报表和可视化有较高的定制化需求,支持与其他系统(如ERP、CRM等)深度集成的场景。类似工具包括观远BI、网易有数BI 等。
  • Apache Superset:Superset 是Apache旗下的一个开源项目,具有较强的可扩展性,可以根据需要自行定制和扩展功能,支持本地部署,适合需要灵活的数据连接和多样化的可视化需求的场景。


3.5核心服务应用架构

基于阿里云的核心服务应用,在数据平台中的相互协作关系如下图:




4. 结语

基于阿里云平台的数据仓库建设方案能够充分发挥阿里云在云计算和大数据领域的优势,提供高效可靠的数据管理和分析服务。通过本方案的实施,可以快速进行大数据平台建设,更好地利用数据驱动业务发展,提升竞争力和核心竞争力。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6天前
|
存储 Linux KVM
Proxmox VE (PVE) 主要架构和重要服务介绍
Proxmox VE (PVE) 是一款开源的虚拟化平台,它基于 KVM (Kernel-based Virtual Machine) 和 LXC (Linux Containers) 技术,支持虚拟机和容器的运行。PVE 还提供高可用集群管理、软件定义存储、备份和恢复以及网络管理等企业级功能。
61 7
|
9天前
|
存储 SQL 缓存
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
快手 OLAP 系统为内外多个场景提供数据服务,每天承载近 10 亿的查询请求。原有湖仓分离架构,由离线数据湖和实时数仓组成,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。通过引入 Apache Doris 湖仓一体能力,替换了 Clickhouse ,升级为湖仓一体架构,并结合 Doris 的物化视图改写能力和自动物化服务,实现高性能的数据查询以及灵活的数据治理。
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
|
5天前
|
Cloud Native 持续交付 微服务
云原生时代的微服务架构实践
【9月更文挑战第30天】随着云计算技术的不断进步,云原生已经成为现代软件开发的重要趋势。本文将通过深入浅出的方式,介绍如何在云原生环境下设计并实施微服务架构,以及如何利用容器化技术和自动化工具来提升服务的可维护性和可扩展性。我们将一起探讨微服务架构的核心原则、优势,以及在云平台中部署和管理微服务的最佳实践。无论你是初学者还是有经验的开发者,这篇文章都将成为你探索云原生和微服务世界的一盏明灯。
|
6天前
|
缓存 Kubernetes Java
阿里云 SAE Web:百毫秒高弹性的实时事件中心的架构和挑战
SAE 事件中心通过智能诊断显示通知与用户连接起来,SAE WEB 百毫秒弹性实例给事件中心带来了新的实时性、海量数据和高吞吐的挑战,本篇将带您了解 SAE 整体事件中心的架构和挑战。
|
8天前
|
监控 Cloud Native 持续交付
云原生时代的微服务架构设计原则与实践
【9月更文挑战第27天】本文深入探讨了在云原生环境下,如何高效地实施微服务架构。通过分析微服务的基本概念、设计原则和关键技术,结合实际案例,指导读者理解并应用微服务架构于云计算项目之中。文章旨在为软件开发者和架构师提供一条清晰的路径,以实现更加灵活、可扩展且易于维护的系统。
|
9天前
|
存储 运维 负载均衡
后端开发中的微服务架构实践与思考
本文旨在探讨后端开发中微服务架构的应用及其带来的优势与挑战。通过分析实际案例,揭示如何有效地实施微服务架构以提高系统的可维护性和扩展性。同时,文章也讨论了在采用微服务过程中需要注意的问题和解决方案。
|
9天前
|
运维 持续交付 API
深入理解并实践微服务架构:从理论到实战
深入理解并实践微服务架构:从理论到实战
34 3
|
1月前
|
存储 大数据 数据挖掘
【数据新纪元】Apache Doris:重塑实时分析性能,解锁大数据处理新速度,引爆数据价值潜能!
【9月更文挑战第5天】Apache Doris以其卓越的性能、灵活的架构和高效的数据处理能力,正在重塑实时分析的性能极限,解锁大数据处理的新速度,引爆数据价值的无限潜能。在未来的发展中,我们有理由相信Apache Doris将继续引领数据处理的潮流,为企业提供更快速、更准确、更智能的数据洞察和决策支持。让我们携手并进,共同探索数据新纪元的无限可能!
82 11
|
2月前
|
存储 分布式计算 大数据
MaxCompute 数据分区与生命周期管理
【8月更文第31天】随着大数据分析需求的增长,如何高效地管理和组织数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个专为海量数据设计的计算服务,它提供了丰富的功能来帮助用户管理和优化数据。本文将重点讨论 MaxCompute 中的数据分区策略和生命周期管理方法,并通过具体的代码示例来展示如何实施这些策略。
82 1
|
2月前
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 下一篇
    无影云桌面