2022云栖精选—小米大数据运维管理体系的建设与实践

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 刘志杰小米大数据运维负责人

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.png

一、  大数据运维数字化转型

image.png

小米业务架构主要分为三层。

第一层,IaaS层。包含IDC、公有云、网络等。

第二层,PaaS层。大数据作为PaaS层核心,向下对接基础资源,向上承接业务需求,帮助业务沉淀数据资产、提升数据效率。

第三层,SaaS层。包含手机、IOT、汽车等数百个核心业务。

image.png

小米大数据服务架构立足于X86ECS之上,自下而上分为四个层级。

数据采集层:主要采用自研Talos实现。

数据存储层:包含各类自研及开源主体,如文件存储的HDFSKV存储的PegasusHbase、对象存储FDS等等。

数据计算层:使用YARN作为统一资源管理服务器,并基于YARN提供多种批处理和流处理引擎。此外OLAP引擎进一步满足数据检索和机器查询的需求。

数据平台层:又称数据工厂,提供一站式的数据开发和数据管理功能。

随着小米业务的不断发展,目前小米大数据服务涵盖国内外20多家的机房区域,达到了千家集群、数万节点的规模。数据总量接近EB存储,每日计算作业约30万。

image.png

小米的运维转型面临了诸多挑战。

第一,传统运维管理方式和服务快速发展之间的矛盾日益突增,具体表现在服务的质量、成本、效率各个方面。

第二,大数据服务场景多,差异化极大,运维复杂度持续增加。

第三,数据孤岛导致数据难以被高效利用,数据分析、决策、执行效率低。

第四,运营单核心发展导致标准化流程落地难,局部出现了“多人多面”的现象。

image.png

轻舟是小米大数据中长期规划战略的代称,其主线是通过建设全能的基线能力,打造极致的承运能力,以实现全生命周期的管理。

轻舟架构包含两层。

一是基线能力层,包含数据集市和发布中心两部分。

二是垂域能力层,完整覆盖服务生命周期,包括服务的创建、运营和消亡。

image.png

轻舟一体化数据集市主要用于解决实践中的数据孤岛问题,在数据源和数据使用方之间搭建数据集市。在数据集市上制定了数据管理规范,并对数据进行分层次处理,通过一条调度同时实现数据的存储和使用。

该方案具有以下两个优点:

第一,统一数据运维体系。解决数据孤岛问题的同时,降低了数据使用门槛。目前,该数据方案应用于所有的大数据运维服务中。

第二,数据场景闭环。历史数据方案以人为中心,最新的数据方案则是以数据场景为中心,降低了计算复杂度。

image.png

轻舟发布中心通过调度编排加低代码的模式,实现了工作流的灵活定义。依托于模板实现SOP固化和沉淀,完成去人工化。

如图所示,该方案针对各种执行底层以及自定义脚本进行统一池化管理,在各个面板上定义了多种区域,如循环区、单次执行区等等。

目前该方案已经推广到所有的大数据服务中,发布效率提升30%以上。

image.png

轻舟运营中心结合数据和AutoOps理念,重点解决了管理过程中经验化程度高的问题。目前已经覆盖了95%上的大数据服务,大幅降低管理成本。

该方案在一定程度上实现了对数据的进一步分析及全场景的容量检测。除此之外,该方案还配有巡检、配置等多个模块。


二、  大数据技术架构实践

image.png

小米核心数据链路以Talos为核心。原始数据通过Hive或其他形式统一进入到Talos中,后端转储模块实时处理Talos中的数据,并将数据接入到其他数据集中,以供进一步分析和使用。

目前,该数据方案已经广泛推广,小米业务中超过50%的数据都是通过该方案进行处理。

image.png

小米最新的数仓架构是由IcebergSparkFlink构成的一套离线实时数仓。原始数据通过核心链路到达离线湖仓中,并在湖中不同数仓层级之间完成FlinkSpark建设。

同时,小米OLAP引擎提供直接查询核心数据功能。

目前,该数仓方案能够达到分钟级延迟。相比KappaLamdba,架构复杂度明显下降,数据存储能力提升明显。

image.png

HDFS实践中一般使用机械盘、固态盘等存储方式进行数据耦合和数据区分。小米为了压缩数据成本,提升数据性价比,使用HDFS Tering网络数据分类架构来实现冷热数据分层。

如图,后台Mover程序读取冷数据,存储在阿里云OSS上,同时更新Mover云数据。

目前,该方案已经完整用于线上,冷数据量超过200P,冷数据成本降低80%

image.png

为支撑小米IOT战略,满足业务海量数据检索的需求,小米研发了SDS。然而,该方案存在以下三个方面的问题。

第一,随着小米业务不断发展,数据规模持续扩张,内部架构问题逐渐暴露。

第二,数据链路较长,排查问题困难,开发维护成本高。

第三,SDS支持物联网持续数据的场景能力较差,开发功能不完善。

image.png

Lindorm兼容开源系统协议,满足架构需求。同时,Lindorm 过程存储以及 SLA协议可以彻底解决系统内历史回流问题。

Lindorm在小米内部测试结果出色,符合业务需求。

image.png

完成选型和测试后,以低成本实现SDSLindorm的转换需要以下三个步骤。

第一步,打通IDC数据链路,完成SDS Lindorm的双向流通。

第二步,保持SDSLindorm数据同步更新,提供了SDS定制Proxy以最小化运营成本。

第三步,将流量和SDS切换到Lindorm上。

目前,整套方案在持续的运营当中。

image.png

小米团队在过去参与了许多大数据事件,如云原生存储建设、跨机房改造等。

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4天前
|
运维 监控
构建高效运维体系:从理论到实践
在当今快速发展的信息化时代,高效的运维体系是保障企业信息系统稳定运行的关键。本文旨在探讨如何构建一个高效、可靠的运维体系,通过分析当前运维面临的挑战,提出相应的解决策略,并结合实际案例,展示这些策略的实施效果。文章首先介绍了高效运维的重要性,接着分析了运维过程中常见的问题,然后详细阐述了构建高效运维体系的策略和步骤,最后通过一个实际案例来验证这些策略的有效性。
|
4天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
12天前
|
人工智能 运维 监控
构建高效运维体系:理论与实践的深度融合####
本文旨在探讨高效IT运维体系的构建策略,通过理论框架与实际案例并重的方式,深入剖析了现代企业面临的运维挑战。文章开篇概述了当前运维领域的新趋势,包括自动化、智能化及DevOps文化的兴起,随后详细阐述了如何将这些先进理念融入日常运维管理中,形成一套既灵活又稳定的运维机制。特别地,文中强调了数据驱动决策的重要性,以及在快速迭代的技术环境中保持持续学习与适应的必要性。最终,通过对比分析几个典型企业的运维转型实例,提炼出可复制的成功模式,为读者提供具有实操性的指导建议。 ####
|
14天前
|
机器学习/深度学习 人工智能 运维
智能运维:AIOps在大型系统运维中的实践与挑战
【10月更文挑战第28天】随着云计算、大数据和人工智能的发展,AIOps(人工智能运维)应运而生,旨在通过算法和机器学习提高运维效率和质量。本文探讨了AIOps在大型系统运维中的实践与挑战,包括数据质量、模型选择和团队协作等方面,并通过一个异常检测案例展示了其应用。尽管面临挑战,AIOps仍有望成为未来运维的重要方向。
46 5
|
11天前
|
运维 负载均衡 Ubuntu
自动化运维的利器:Ansible入门与实践
【10月更文挑战第31天】在当今快速发展的信息技术时代,高效的运维管理成为企业稳定运行的关键。本文将引导读者了解自动化运维工具Ansible的基础概念、安装步骤、基本使用,以及如何通过实际案例掌握其核心功能,从而提升工作效率和系统稳定性。
|
12天前
|
运维 资源调度 监控
提升运维效率的关键技术与实践
在当今快速发展的信息技术时代,运维工作面临着前所未有的挑战和机遇。本文旨在探讨如何通过采用先进的技术和实施最佳实践来提高IT运维的效率和效果。我们将深入分析自动化工具、监控策略、灾难恢复计划以及持续集成/持续部署(CI/CD)等关键领域,展示它们如何协同工作以优化运维流程。此外,文章还将提供一些实际案例研究,帮助读者更好地理解这些概念的应用。无论是对于初创公司还是大型企业,掌握这些技术都将是提升竞争力的关键。
|
15天前
|
边缘计算 人工智能 搜索推荐
大数据与零售业:精准营销的实践
【10月更文挑战第31天】在信息化社会,大数据技术正成为推动零售业革新的重要驱动力。本文探讨了大数据在零售业中的应用,包括客户细分、个性化推荐、动态定价、营销自动化、预测性分析、忠诚度管理和社交网络洞察等方面,通过实际案例展示了大数据如何帮助商家洞悉消费者行为,优化决策,实现精准营销。同时,文章也讨论了大数据面临的挑战和未来展望。
|
20天前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
73 10
|
21天前
|
运维 应用服务中间件 持续交付
自动化运维的利器:Ansible入门与实践
【10月更文挑战第21天】在现代IT基础设施的管理中,自动化运维已成为提升效率、降低错误率的关键。Ansible,作为一种简单而强大的自动化工具,正被广泛应用于配置管理、应用部署和任务自动化等领域。本文将引导你了解Ansible的基本概念,通过实际案例展示如何利用Ansible简化日常运维工作,并探讨其在现代IT运维中的应用价值。无论你是新手还是有经验的系统管理员,这篇文章都将为你开启Ansible的高效之旅提供指导。
|
24天前
|
运维 监控 jenkins
运维自动化实践:利用Jenkins实现高效CI/CD流程
【10月更文挑战第18天】运维自动化实践:利用Jenkins实现高效CI/CD流程

热门文章

最新文章