2022云栖精选—小米大数据运维管理体系的建设与实践

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 刘志杰小米大数据运维负责人

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.png

一、  大数据运维数字化转型

image.png

小米业务架构主要分为三层。

第一层,IaaS层。包含IDC、公有云、网络等。

第二层,PaaS层。大数据作为PaaS层核心,向下对接基础资源,向上承接业务需求,帮助业务沉淀数据资产、提升数据效率。

第三层,SaaS层。包含手机、IOT、汽车等数百个核心业务。

image.png

小米大数据服务架构立足于X86ECS之上,自下而上分为四个层级。

数据采集层:主要采用自研Talos实现。

数据存储层:包含各类自研及开源主体,如文件存储的HDFSKV存储的PegasusHbase、对象存储FDS等等。

数据计算层:使用YARN作为统一资源管理服务器,并基于YARN提供多种批处理和流处理引擎。此外OLAP引擎进一步满足数据检索和机器查询的需求。

数据平台层:又称数据工厂,提供一站式的数据开发和数据管理功能。

随着小米业务的不断发展,目前小米大数据服务涵盖国内外20多家的机房区域,达到了千家集群、数万节点的规模。数据总量接近EB存储,每日计算作业约30万。

image.png

小米的运维转型面临了诸多挑战。

第一,传统运维管理方式和服务快速发展之间的矛盾日益突增,具体表现在服务的质量、成本、效率各个方面。

第二,大数据服务场景多,差异化极大,运维复杂度持续增加。

第三,数据孤岛导致数据难以被高效利用,数据分析、决策、执行效率低。

第四,运营单核心发展导致标准化流程落地难,局部出现了“多人多面”的现象。

image.png

轻舟是小米大数据中长期规划战略的代称,其主线是通过建设全能的基线能力,打造极致的承运能力,以实现全生命周期的管理。

轻舟架构包含两层。

一是基线能力层,包含数据集市和发布中心两部分。

二是垂域能力层,完整覆盖服务生命周期,包括服务的创建、运营和消亡。

image.png

轻舟一体化数据集市主要用于解决实践中的数据孤岛问题,在数据源和数据使用方之间搭建数据集市。在数据集市上制定了数据管理规范,并对数据进行分层次处理,通过一条调度同时实现数据的存储和使用。

该方案具有以下两个优点:

第一,统一数据运维体系。解决数据孤岛问题的同时,降低了数据使用门槛。目前,该数据方案应用于所有的大数据运维服务中。

第二,数据场景闭环。历史数据方案以人为中心,最新的数据方案则是以数据场景为中心,降低了计算复杂度。

image.png

轻舟发布中心通过调度编排加低代码的模式,实现了工作流的灵活定义。依托于模板实现SOP固化和沉淀,完成去人工化。

如图所示,该方案针对各种执行底层以及自定义脚本进行统一池化管理,在各个面板上定义了多种区域,如循环区、单次执行区等等。

目前该方案已经推广到所有的大数据服务中,发布效率提升30%以上。

image.png

轻舟运营中心结合数据和AutoOps理念,重点解决了管理过程中经验化程度高的问题。目前已经覆盖了95%上的大数据服务,大幅降低管理成本。

该方案在一定程度上实现了对数据的进一步分析及全场景的容量检测。除此之外,该方案还配有巡检、配置等多个模块。


二、  大数据技术架构实践

image.png

小米核心数据链路以Talos为核心。原始数据通过Hive或其他形式统一进入到Talos中,后端转储模块实时处理Talos中的数据,并将数据接入到其他数据集中,以供进一步分析和使用。

目前,该数据方案已经广泛推广,小米业务中超过50%的数据都是通过该方案进行处理。

image.png

小米最新的数仓架构是由IcebergSparkFlink构成的一套离线实时数仓。原始数据通过核心链路到达离线湖仓中,并在湖中不同数仓层级之间完成FlinkSpark建设。

同时,小米OLAP引擎提供直接查询核心数据功能。

目前,该数仓方案能够达到分钟级延迟。相比KappaLamdba,架构复杂度明显下降,数据存储能力提升明显。

image.png

HDFS实践中一般使用机械盘、固态盘等存储方式进行数据耦合和数据区分。小米为了压缩数据成本,提升数据性价比,使用HDFS Tering网络数据分类架构来实现冷热数据分层。

如图,后台Mover程序读取冷数据,存储在阿里云OSS上,同时更新Mover云数据。

目前,该方案已经完整用于线上,冷数据量超过200P,冷数据成本降低80%

image.png

为支撑小米IOT战略,满足业务海量数据检索的需求,小米研发了SDS。然而,该方案存在以下三个方面的问题。

第一,随着小米业务不断发展,数据规模持续扩张,内部架构问题逐渐暴露。

第二,数据链路较长,排查问题困难,开发维护成本高。

第三,SDS支持物联网持续数据的场景能力较差,开发功能不完善。

image.png

Lindorm兼容开源系统协议,满足架构需求。同时,Lindorm 过程存储以及 SLA协议可以彻底解决系统内历史回流问题。

Lindorm在小米内部测试结果出色,符合业务需求。

image.png

完成选型和测试后,以低成本实现SDSLindorm的转换需要以下三个步骤。

第一步,打通IDC数据链路,完成SDS Lindorm的双向流通。

第二步,保持SDSLindorm数据同步更新,提供了SDS定制Proxy以最小化运营成本。

第三步,将流量和SDS切换到Lindorm上。

目前,整套方案在持续的运营当中。

image.png

小米团队在过去参与了许多大数据事件,如云原生存储建设、跨机房改造等。

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3天前
|
运维 Prometheus 监控
运维之眼:监控的艺术与实践
在信息技术飞速发展的今天,运维监控已成为保障系统稳定运行的关键。本文将探讨运维监控的重要性,介绍常用的监控工具和方法,并通过实际案例分析,展示如何有效地实施监控策略,以确保系统的高可用性和性能。
|
2天前
|
运维 自然语言处理 开发者
作为一名运维人员,使用通义灵码个人版处理日常工作中的代码相关任务,极大地提升了我的工作效率。以下是我使用通义灵码的具体实践场景、效果和心得,以及相应的截图。
作为一名运维人员,我使用通义灵码处理日常工作中的代码任务,效率提升了30%。通义灵码帮助我快速理解复杂代码、生成准确的代码注释,并能从自然语言生成代码示例,大幅减少了代码编写和理解的时间。
17 2
|
4天前
|
运维 监控 安全
高效运维管理:提升系统稳定性的策略与实践
【10月更文挑战第13天】 本文探讨了高效运维管理的关键策略和实践,旨在帮助运维团队提升系统的稳定性。通过分析常见问题,提出具体的解决方案,包括监控与告警、自动化工具的应用、故障排查与恢复、性能优化以及安全防护等方面。通过这些策略和实践,可以帮助企业构建一个稳定、可靠且高效的IT系统。
27 1
|
8天前
|
运维 监控 测试技术
构建高效运维体系:从监控到自动化的实践之路
【10月更文挑战第9天】 在当今信息技术飞速发展的时代,运维作为保障系统稳定性与效率的关键角色,正面临前所未有的挑战。本文将探讨如何通过构建一个高效的运维体系来应对这些挑战,包括监控系统的搭建、自动化工具的应用以及故障应急处理机制的制定。我们将结合具体案例,分析这些措施如何帮助提升系统的可靠性和运维团队的工作效率。
24 1
|
10天前
|
存储 运维 监控
高效运维管理:从基础架构优化到自动化实践
在当今数字化时代,高效运维管理已成为企业IT部门的重要任务。本文将探讨如何通过基础架构优化和自动化实践来提升运维效率,确保系统的稳定性和可靠性。我们将从服务器选型、存储优化、网络配置等方面入手,逐步引导读者了解运维管理的核心内容。同时,我们还将介绍自动化工具的使用,帮助运维人员提高工作效率,降低人为错误的发生。通过本文的学习,您将掌握高效运维管理的关键技巧,为企业的发展提供有力支持。
|
10天前
|
运维 监控 安全
构建高效运维体系的策略与实践
【10月更文挑战第7天】 本文旨在探讨如何构建高效的运维体系。从明确定义目标、优化流程、引入自动化工具、建立监控机制到提升团队能力,我们将全面解析高效运维体系的构建步骤和关键要素。通过具体策略和成功案例的分享,帮助运维团队提升工作效率、减少故障发生,并持续改进运维质量。
16 0
|
13天前
|
SQL 消息中间件 分布式计算
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
43 0
|
13天前
|
SQL 大数据
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
38 0
|
13天前
|
SQL 消息中间件 分布式计算
大数据-130 - Flink CEP 详解 - CEP开发流程 与 案例实践:恶意登录检测实现
大数据-130 - Flink CEP 详解 - CEP开发流程 与 案例实践:恶意登录检测实现
27 0
|
10天前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
32 4

热门文章

最新文章