实时数据中心建设思路与企业实践|青训营笔记

简介: 本篇文章主要分为四个方面介绍实时数据中心建设思路与企业实践:1. 企业数据架构;2. 数据中心案例;3. 实时数据生产;4. 数据服务

课程资料

课程链接:https://live.juejin.cn/4354/yc_Datacenter

课程PPT:https://bytedance.feishu.cn/file/boxcnUuosAaotJt4NbKSIsLtoS3

学员手册:https://juejin.cn/post/7130131931722678308#heading-104

完整手册:https://bytedance.feishu.cn/docx/doxcnECGEFkCKYqbxaDipK1qrVf

一、企业数据架构

image-20220817222505264

  • 企业整体数据架构:基础引擎、数据集成/生产/服务、开发和治理工具
  • 关键模块及数据流向

    • 数据集成

      • 业务数据收集:数据库变更数据收集(CDC)、业务日志收集(业务数据->数据处理系统)

      image-20220817223451859

      • 大数据系统内传输:基于Flink丰富的connector体系 (数据系统内)

      image-20220817223545849

    • 数据生产:实时和离线生产pipeline (数据系统内)

    image-20220817223612498

    • 数据服务:统一数据服务架构(数据系统->业务系统)

    image-20220817223719671

二、数据中心案例

image-20220817223848239

  • 以房产业务举例说明数据中心建设目标和要求
  • 房产业务介绍:房产服务平台、经纪人、客户
  • 数据中心核心指标分析:供需、过程、结果
  • 数据中心查询要求:查询条件、数据结果、技术要求

三、实时数据生产

  • 案例生产方案分析:数据探查、明确指标口径和产出粒度、生产架构、计算难点
  • 数据探查:分析数据信息是否齐全,即基于原始数据计算指标可行性
  • 数据架构:lambda架构和全量计算架构比对,确定合适的生产架构方案

image-20220817224141957

  • 计算难点解决

    • 全量数据获取:hybrid source

    image-20220817224225396

    • 精确计算

      • 去重&更新处理:基于retract机制
      • 乱序问题解决:流join乱序问题方案
    • 计算效率

      • MiniBatch-聚合计算
      • MiniBatch-join

      image-20220817224605524

  • 数据质量

    image-20220817224510920

    • 任务稳定性:消费LAG、JVM、资源、算子
    • 数据正确性:和离线比对、趋势比对、异常值占比
  • 实时数仓

    image-20220817224717399

    • 数据分层:数据复用,减少重复开发
    • 数据管理:格式、元数据

四、数据服务

image-20220817224833028

  • 整体架构:查询引擎、查询优化和执行、稳定性、元数据
  • 案例查询方案分析

    • 如何更快的查询

      • 原始信息筛选和关联效率
      • 计算处理效率
      • 只关注目标所需数据
  • 关注目标信息

    • 列存
  • 原始信息筛选效率

    • OLAP引擎索引方案
  • 原始信息关联

    • join方案及优化
  • 计算效率

    • 向量化
  • 执行计划优化:RBO、CBO
  • 应用层优化

    • 宽表构建
    • 提升信息密度:bit化、bitmap
  • 查询稳定性

    • 熔断、限流、降级
  • 元数据管理:指标口径管理、查询生成
相关文章
|
17天前
|
运维 监控 持续交付
自动化运维在现代数据中心的应用与实践####
本文探讨了自动化运维技术在现代数据中心中的应用现状与实践案例,分析了其如何提升运维效率、降低成本并增强系统稳定性。通过具体实例,展示了自动化工具如Ansible、Puppet及Docker在环境配置、软件部署、故障恢复等方面的实际应用效果,为读者提供了一套可参考的实施框架。 ####
|
7月前
|
机器学习/深度学习 算法 数据挖掘
利用机器学习优化数据中心能效的策略与实践
【5月更文挑战第13天】 在数据中心管理和运营的众多挑战中,能源效率优化是降低运营成本和减少环境影响的关键因素。本文旨在探讨如何应用机器学习技术来提高数据中心的能效,通过智能化的数据分析和资源管理达到节能的目的。与传统的摘要不同,本文将直接深入探讨所采用的技术手段、实施步骤以及预期效果,为读者提供一种新颖的视角。
80 4
|
4月前
|
机器学习/深度学习 人工智能 运维
提升数据中心效率的关键:智能运维策略与实践
【7月更文挑战第39天】 在数字化时代,数据中心作为企业信息系统的心脏,其运行效率直接关系到企业的业务连续性和竞争力。本文将探讨如何通过智能运维(AIOps)策略来优化数据中心的性能,降低运营成本,并提高服务质量。我们将分析当前数据中心面临的挑战,介绍智能运维的基本概念,以及实施智能运维时需要考虑的关键因素。最后,本文将提供一系列实用的智能运维实践案例,帮助读者理解如何将这些策略应用于实际工作中。
|
7月前
|
机器学习/深度学习 敏捷开发 测试技术
深入理解自动化测试:框架选择与实践挑战利用机器学习技术优化数据中心冷却系统
【5月更文挑战第27天】 在现代软件开发周期中,自动化测试已成为确保产品质量和加快市场投放的关键步骤。本文深入探讨了自动化测试的框架选择问题,并剖析了实施过程中面临的挑战及其解决方案。通过比较不同测试框架的特点,我们旨在为读者提供一套明确的指导原则,帮助他们根据项目需求做出恰当的技术决策。同时,文中还分享了实际案例和最佳实践,以期帮助开发团队克服实施自动化测试时可能遇到的障碍。
|
7月前
|
机器学习/深度学习 传感器 运维
提升数据中心效能:智能运维策略与实践
【4月更文挑战第6天】在数字化时代,数据中心作为企业信息架构的核心,其稳定性和效率直接影响到业务连续性和客户满意度。随着技术的进步,传统的数据中心运维模式已经不能满足现代高效、智能化的需求。本文将探讨如何通过智能运维(AIOps)策略,结合大数据分析和机器学习技术,实现数据中心的自动化管理、故障预测及快速响应,以提升整体效能并降低运营成本。
|
7月前
|
存储 机器学习/深度学习 运维
提升数据中心能效:现代运维策略与实践
【5月更文挑战第6天】 在数字化时代,数据中心作为信息处理的核心设施,其能源消耗和环境影响成为业界关注的焦点。本文将探讨如何通过现代运维策略和技术手段提升数据中心的能效,同时保证系统的可靠性和服务的连续性。文章将详细分析数据中心能耗的主要来源,介绍先进的能效优化措施,并通过案例分析展示这些措施的实际效果,为数据中心管理者提供实用的能效改进建议。
|
人工智能 运维 新能源
阿里云数据中心绿色低碳实践项目入选“2022全国十大碳中和示范典型案例”
阿里云数据中心绿色低碳实践项目入选“2022全国十大碳中和示范典型案例”
阿里云数据中心绿色低碳实践项目入选“2022全国十大碳中和示范典型案例”
|
人工智能 边缘计算 算法
AI开发者大会之计算机视觉技术实践与应用:2020年7月3日《RPA+AI助力政企实现智能时代的人机协同》、《5G风口到来,边缘计算引领数据中心变革》、《数字化时代金融市场与AI算法如何结合?》
AI开发者大会之计算机视觉技术实践与应用:2020年7月3日《RPA+AI助力政企实现智能时代的人机协同》、《5G风口到来,边缘计算引领数据中心变革》、《数字化时代金融市场与AI算法如何结合?》
AI开发者大会之计算机视觉技术实践与应用:2020年7月3日《RPA+AI助力政企实现智能时代的人机协同》、《5G风口到来,边缘计算引领数据中心变革》、《数字化时代金融市场与AI算法如何结合?》
|
数据中心 存储
数据中心微模块是否适合企业?
什么是微模块?怎么下定义
1020 0