2022云栖精选—小米大数据运维管理体系的建设与实践

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 刘志杰小米大数据运维负责人

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.png

一、  大数据运维数字化转型

image.png

小米业务架构主要分为三层。

第一层,IaaS层。包含IDC、公有云、网络等。

第二层,PaaS层。大数据作为PaaS层核心,向下对接基础资源,向上承接业务需求,帮助业务沉淀数据资产、提升数据效率。

第三层,SaaS层。包含手机、IOT、汽车等数百个核心业务。

image.png

小米大数据服务架构立足于X86ECS之上,自下而上分为四个层级。

数据采集层:主要采用自研Talos实现。

数据存储层:包含各类自研及开源主体,如文件存储的HDFSKV存储的PegasusHbase、对象存储FDS等等。

数据计算层:使用YARN作为统一资源管理服务器,并基于YARN提供多种批处理和流处理引擎。此外OLAP引擎进一步满足数据检索和机器查询的需求。

数据平台层:又称数据工厂,提供一站式的数据开发和数据管理功能。

随着小米业务的不断发展,目前小米大数据服务涵盖国内外20多家的机房区域,达到了千家集群、数万节点的规模。数据总量接近EB存储,每日计算作业约30万。

image.png

小米的运维转型面临了诸多挑战。

第一,传统运维管理方式和服务快速发展之间的矛盾日益突增,具体表现在服务的质量、成本、效率各个方面。

第二,大数据服务场景多,差异化极大,运维复杂度持续增加。

第三,数据孤岛导致数据难以被高效利用,数据分析、决策、执行效率低。

第四,运营单核心发展导致标准化流程落地难,局部出现了“多人多面”的现象。

image.png

轻舟是小米大数据中长期规划战略的代称,其主线是通过建设全能的基线能力,打造极致的承运能力,以实现全生命周期的管理。

轻舟架构包含两层。

一是基线能力层,包含数据集市和发布中心两部分。

二是垂域能力层,完整覆盖服务生命周期,包括服务的创建、运营和消亡。

image.png

轻舟一体化数据集市主要用于解决实践中的数据孤岛问题,在数据源和数据使用方之间搭建数据集市。在数据集市上制定了数据管理规范,并对数据进行分层次处理,通过一条调度同时实现数据的存储和使用。

该方案具有以下两个优点:

第一,统一数据运维体系。解决数据孤岛问题的同时,降低了数据使用门槛。目前,该数据方案应用于所有的大数据运维服务中。

第二,数据场景闭环。历史数据方案以人为中心,最新的数据方案则是以数据场景为中心,降低了计算复杂度。

image.png

轻舟发布中心通过调度编排加低代码的模式,实现了工作流的灵活定义。依托于模板实现SOP固化和沉淀,完成去人工化。

如图所示,该方案针对各种执行底层以及自定义脚本进行统一池化管理,在各个面板上定义了多种区域,如循环区、单次执行区等等。

目前该方案已经推广到所有的大数据服务中,发布效率提升30%以上。

image.png

轻舟运营中心结合数据和AutoOps理念,重点解决了管理过程中经验化程度高的问题。目前已经覆盖了95%上的大数据服务,大幅降低管理成本。

该方案在一定程度上实现了对数据的进一步分析及全场景的容量检测。除此之外,该方案还配有巡检、配置等多个模块。


二、  大数据技术架构实践

image.png

小米核心数据链路以Talos为核心。原始数据通过Hive或其他形式统一进入到Talos中,后端转储模块实时处理Talos中的数据,并将数据接入到其他数据集中,以供进一步分析和使用。

目前,该数据方案已经广泛推广,小米业务中超过50%的数据都是通过该方案进行处理。

image.png

小米最新的数仓架构是由IcebergSparkFlink构成的一套离线实时数仓。原始数据通过核心链路到达离线湖仓中,并在湖中不同数仓层级之间完成FlinkSpark建设。

同时,小米OLAP引擎提供直接查询核心数据功能。

目前,该数仓方案能够达到分钟级延迟。相比KappaLamdba,架构复杂度明显下降,数据存储能力提升明显。

image.png

HDFS实践中一般使用机械盘、固态盘等存储方式进行数据耦合和数据区分。小米为了压缩数据成本,提升数据性价比,使用HDFS Tering网络数据分类架构来实现冷热数据分层。

如图,后台Mover程序读取冷数据,存储在阿里云OSS上,同时更新Mover云数据。

目前,该方案已经完整用于线上,冷数据量超过200P,冷数据成本降低80%

image.png

为支撑小米IOT战略,满足业务海量数据检索的需求,小米研发了SDS。然而,该方案存在以下三个方面的问题。

第一,随着小米业务不断发展,数据规模持续扩张,内部架构问题逐渐暴露。

第二,数据链路较长,排查问题困难,开发维护成本高。

第三,SDS支持物联网持续数据的场景能力较差,开发功能不完善。

image.png

Lindorm兼容开源系统协议,满足架构需求。同时,Lindorm 过程存储以及 SLA协议可以彻底解决系统内历史回流问题。

Lindorm在小米内部测试结果出色,符合业务需求。

image.png

完成选型和测试后,以低成本实现SDSLindorm的转换需要以下三个步骤。

第一步,打通IDC数据链路,完成SDS Lindorm的双向流通。

第二步,保持SDSLindorm数据同步更新,提供了SDS定制Proxy以最小化运营成本。

第三步,将流量和SDS切换到Lindorm上。

目前,整套方案在持续的运营当中。

image.png

小米团队在过去参与了许多大数据事件,如云原生存储建设、跨机房改造等。

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
打赏
0
0
0
0
12357
分享
相关文章
智能运维在IT管理中的实践与探索
【10月更文挑战第21天】 本文深入探讨了智能运维(AIOps)技术在现代IT管理中的应用,通过分析其核心组件、实施策略及面临的挑战,揭示了智能运维如何助力企业实现自动化监控、故障预测与快速响应,从而提升整体运维效率与系统稳定性。文章还结合具体案例,展示了智能运维在实际环境中的显著成效。
80 26
基于进程热点分析与系统资源优化的智能运维实践
智能服务器管理平台提供直观的可视化界面,助力高效操作系统管理。核心功能包括运维监控、智能助手和扩展插件管理,支持系统健康监控、故障诊断等,确保集群稳定运行。首次使用需激活服务并安装管控组件。平台还提供进程热点追踪、性能观测与优化建议,帮助开发人员快速识别和解决性能瓶颈。定期分析和多维度监控可提前预警潜在问题,保障系统长期稳定运行。
62 17
云栖实录 | 大模型在大数据智能运维的应用实践
云栖实录 | 大模型在大数据智能运维的应用实践
104 2
云栖实录 | 智能运维:云原生大规模集群GitOps实践
云栖实录 | 智能运维:云原生大规模集群GitOps实践
云栖实录 | 智能运维年度重磅发布及大模型实践解读
云栖实录 | 智能运维年度重磅发布及大模型实践解读
111 0
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
122 4
HTTPS 证书自动化运维:https证书管理系统- 自动化监控
本文介绍如何设置和查看域名或证书监控。步骤1:根据证书状态选择新增域名或证书监控,线上部署推荐域名监控,未部署选择证书监控。步骤2:查询监控记录详情。步骤3:在详情页查看每日定时检测结果或手动测试。
HTTPS 证书自动化运维:https证书管理系统- 自动化监控
HTTPS 证书自动化运维:https证书管理系统-自动化部署
本指南介绍如何部署Linux服务器节点。首先复制生成的Linux脚本命令,然后将其粘贴到目标服务器上运行。接着刷新页面查看节点记录,并点击“配置证书”选择证书以自动部署。最后,节点部署完成,后续将自动调度,无需人工干预。
HTTPS 证书自动化运维:https证书管理系统-自动化部署
HTTPS 证书自动化运维:https证书管理系统之自动化签发
通过访问【https://www.lingyanspace.com】注册账户,进入证书服务菜单并新增证书。填写域名(单域名、多域名或泛域名),创建订单后添加云解析DNS记录进行质检。确认完成后可下载证书,并支持后续查看、更新和定时更新功能。证书过期前15天自动更新,需配置邮箱接收通知。
HTTPS 证书自动化运维:https证书管理系统之自动化签发
AI辅助的运维流程自动化:实现智能化管理的新篇章
AI辅助的运维流程自动化:实现智能化管理的新篇章
733 22

热门文章

最新文章