关于运维,阿里云、字节、华科的专家如是说

本文涉及的产品
对象存储 OSS,20GB 3个月
阿里云盘企业版 CDE,企业版用户数5人 500GB空间
日志服务 SLS,月写入数据量 50GB 1个月
简介: “欲善新基建,必先利运维”。随着业务走上云端,运维也逐步“云化”。

只有今天周密的筹帷幄,才有将来持续的护稳定。不久前,阿里云联合中国计算机行业协会信息存储与安全专业委员会,邀请到了来自阿里云、字节跳动、华中科技大学的多位专家,共同探讨数字经济时代存储系统的运维之道。

1560_986直播封面.jpg

一、降低延迟,避免系统性能急剧变化

 

运维的本质是对网络、服务器、服务的生命周期各个阶段的运营与维护,在成本、稳定性、效率上达成一致可接受的状态。在 ICT 行业里,运维人常常调侃运维是对应用的承诺,不离不弃一辈子。他们就像是数据中心和公司里IT资源的管家、保安、救火员。

 

阿里云智能资深技术专家、对象存储研发负责人罗庆超对此深有体会。他回忆起了阿里云大客户请求延时抖动保障的过往,指出云存储服务请求的延时抖动厉害的时候,应用整体性能会产生过山车式的变化。

 

而云上的请求延时包含网络延时和存储延时,云服务的网络非常复杂,包含BGPBorder Gateway Protocol)和静态的公网以及数据中心内的网络。找出影响延时的拥塞点和合理调度,对避免造成拥堵至关重要。

 

存储服务还要处理好介质访问的延迟问题,机械/固态盘也是个复杂的系统,压力越大延迟越高。特别是在分布式存储系统中,还会带来病毒式的传染效应。对象存储OSS为了降低延时的抖动,从快速监控、准确告警、根因分析、优化调度入手,将延时抖动控制在合理的方差范围内,保证了良好的客户体验。

 

华中科技大学研究员、博士生导师吴非笑言,由于自己来自高校,并未亲身感受到运维人的压力,但能理解堪比永动机的7*24待命之不易。当前云存储的可靠性要求是119,固态硬盘和传统机械硬盘是云存储中最基础的数据存储单元,维护起来并不简单。前者的存储介质由闪存构成,从原理上讲,闪存就像一道门,每开一次就有一次磨损,在使用过程中不可避免会出现老化,逐渐吱呀作响,故障也接踵而至;后者像机械机器一样不停摆动,但终有停转之时。在由成千上万的固态盘或硬盘所构成的存储系统里,要保证如此高的可靠性,运维人的压力可见一斑。

 

二、因时而变,智能化运维大势所趋

 

“欲善新基建,必先利运维”。在企业数字化进程中,运维则是浓墨重彩的一笔。

三位嘉宾.png

字节跳动数据库存储技术负责人张雷表示,从传统的手动运维,到DevOps的自动化运维,再到AIOps的智能化运维,运维技术在近十几年实现了跨越式发展。字节云数据库云存储整个运维体系的发展历程,也大致分为三个阶段。

 

第一个阶段在2016年以前,整体的数据库和存储的体量都不是特别大,团队运维还处于“刀工石斧”的状态,也就是基本上靠人工就能搞定。

 

第二个阶段是20172021年,业务的规模飞速发展,云存储的系统也达到了EB量级,数据库的规模都是几千甚至上万套库,人工运维天花板已显现,因此运维团队转而构建一些自动化的运维平台,依托这些平台去搞定运营问题。

 

第三个阶段是自2021年年中,依托AI等技术的第三代运维体系开始构建。将运维人员的知识和运维经验与大数据、机器学习技术相结合,融入到运维系统中代替人力,从而解决更大规模上的运营效率问题。

 

在这三个阶段中,整个业务体系的发展,呈现出两方面的能力跃迁:一方面是运维的文化、组织、能力的提升,通俗的理解就是大家摸黑前行,从做个体运维到成体系、成建制地构建了专职的运维的SRE的团队去运维;另一方面,整个运维体系和服务化的一些技术体系也都在前进,比如从最早期的管理几十台服务器到现在管理几十万台服务器,就是技术体系不断演进去支持的。总而言之,运维的文化和组织、以及运维的技术体系,这两条路是齐头并进的。

 

三、快速定位,诊断问题根因所在

 

随着业务走上云端,运维也逐步“云化”。资源监控、终端管控、安全支持等运维服务转化为云端应用,企业可以根据需求实现订阅。  

 

张雷表示通常会关注服务的黄金指标,尤其是跟稳定性相关的一些黄金指标,因为对于大型在线服务而言,稳定性可能是第一位的。此外,他更关注长期的所依赖服务的一些技术演进路径,以便未雨绸缪,保证在技术或者产品形态上发生巨变时,运维/运营体系不会掉队。

 

罗庆超指出阿里云对象存储OSS作为服务的提供商,要做到服务承诺的SLA(服务级别协议)和 SLO(服务级别目标)这两个关键指标。细而言之,OSS官网承诺了可用性的SLA为业界领先的99.995%,那作为服务商就一定会按指标准来度量请求的成功率,想尽千方百计来保证该指标。SLO则是更详细的服务项承诺,例如保障客户的请求整体的带宽要能够达到稳定的Tbps级量级,同时一些典型的请求时延能够保证在100ms这个量级,不能有太大的波动。

 

近期阿里云还会发布一个可观测服务CloudLens,会为客户提供主流云产品的运维知识。CloudLens为对象存储OSS提供了用量分析、性能监控、安全分析、数据保护、异常检测、访问情况分析等功能,从而在成本、性能、安全、数据保护、稳定性、访问分析6大维度支撑客户的管理能力。

 

吴非认为,为了支撑应用的快速发展,存储技术也在不断演进。从传统的磁盘阵列到集中式存储,再到现在系统里可能有几十或者上万台服务器的分布式存储。在技术上首先需要考虑怎样保证成千上万台服务器能够可靠运行。从运维的角度看,就是要不出故障或者少出故障,或者快速检测出故障,达到快速修复、快速恢复、快速检测等指标。

 

近年来AI发展得如火如荼,高校科研人员也在做用AI提前预测系统故障的相关研究,希望在系统故障发生前完成数据迁移,从而有效减轻运维的压力。

 

四、产学研用,打造成长共同体

 

运维为业务系统提供的保障,既离不开阿里云这样的服务提供商的布局,又离不开字节这样的产品使用方的努力。而高校及科研院所作为基础理论技术与前沿技术研究的主体,在较多关键前沿技术方面拥有深厚的基础技术储备和丰富的理论研究基础。因此,产学研合作创新是产业发展需要重视的一个板块。

 

吴非表示,用“共同成长体”去定义这样的合作关系较为妥帖,这个链条包含了创新链、产业链以及用户链。正是因为有这样的联盟将用户方、研发方链接在一起,促进彼此的发展。用通俗的说法就是产、学、研、用为一体,各方共同成长、促进技术的发展与落地。

 

比如高校研究云存储的可靠性问题时,提出一种新算法,在推进算法落地应用过程中,可能需要跟字节跳动、阿里云等企业合作,在实际系统上部署算法,推动产业发展。

 

吴非还提到,在产学研界跨界创新也成为高校专家学者自身职业发展规划中的重要一环。不少专家学者在产业界致力于推动技术落地之后再次选择回归学术界,这个叫做“学术休假”。她相信,未来学术界和产业界之间会进一步深入融合。

 

张雷认为,产学研一体化是技术从诞生到广泛应用的重要背后推手。最近几年,云存储系统的一些技术已然固化,他首先希望学术界、研究界能够在基础设施领域里带来更多突破:无论是存储的介质、还是整个云存储体系结构的突破,亦或是一些体系、运维思路、方法上的突破,都可以为行业带来新生机。其次,产业界也要精益求精,大胆尝试新技术、新方法、新思想,并将其融入到合适的场景中。因为产业界的大型企业如字节跳动,整个技术体量、服务器、数量存储量规模都比较大,其实有一个非常好的技术杠杆效应。即使看起来一个非常小的一个技术优化,但放到体量大的场景下就能产生非常大的价值。所以,产学研各方的互相支撑是十分必要的。

 

罗庆超指出,阿里云作为服务供应商,共同成长核心有两点:一是为共同的运维能力提供底座的服务,二是吸收客户和业界、学界提供的一些输入以及先进思想,从而帮助底座成长。

 

针对两位嘉宾提到的产学研结合,罗庆超表示,在共同成长的演进上有两个阶段可能会非常重要。第一个阶段中,CCIA这样组织提供了一个共同成长的土壤和生态,把这个CCIA运作好,可以为运维、技术的共同成长打下坚实的基础。第二阶段,共同成长体一定要结出成果,比如通过CCIA这个组织,搭建交流桥梁,孵化出一些在业界颇具影响力的标准白皮书或者技术上的创新点子。

 

结语:随着高校功能从人才培育、科学研究延伸到社会服务,企业、协会与高校合作将进一步深化,这无疑有利于形成良性发展的循环圈,推动存储科技成果加速市场化,而在这个过程中,不管是用户还是厂商都将受益匪浅。

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
1月前
|
运维 Kubernetes 网络协议
运维之道:从新手到专家的成长之路
【10月更文挑战第21天】 本文旨在探讨运维领域的成长路径,通过分享个人经历和行业见解,为读者提供一条从入门到精通的清晰路线图。我们将从基础技能的学习开始,逐步深入到高级技巧的应用,最终达到专业水平的提升。文章强调了持续学习和实践的重要性,并鼓励读者在面对挑战时保持积极态度,不断探索未知领域。
34 6
|
1月前
|
运维 Kubernetes 网络协议
运维之道:从新手到专家的成长路径
【10月更文挑战第22天】 本文将探讨运维领域内,个人如何从一名初学者成长为行业专家的过程。通过分析学习路线、必备技能、实践经验积累以及持续学习的重要性,旨在为那些渴望在IT运维领域取得成就的人提供指导和启发。
|
2月前
|
存储 运维 Cloud Native
阿里云国际CloudOps的优势和云上运维的特点
阿里云国际CloudOps的优势和云上运维的特点
|
1月前
|
机器学习/深度学习 运维 Kubernetes
运维之道:从新手到专家的转变
【10月更文挑战第24天】 本文旨在探讨运维人员如何从初学者成长为领域专家,通过分析运维行业的现状、面临的挑战以及必备技能,提供一系列实用的建议和策略。文章强调了持续学习、实践经验积累和技术趋势把握的重要性,并结合具体案例,展示了运维专家的成长路径。
|
1月前
|
运维 Prometheus 监控
运维之道:从新手到专家的旅程
【10月更文挑战第24天】 在数字化时代,运维工作如同一座桥梁,连接着技术与业务,确保系统的稳定运行。本文将带你踏上一段从运维新手成长为专家的旅程,探索运维的核心价值、技能提升路径以及面对挑战时的应对策略。通过深入浅出的语言和生动的案例,让你领略运维世界的奥秘与魅力。
20 0
|
2月前
|
运维 监控 网络协议
运维的艺术:从新手到专家的旅程
在数字化时代,运维(Operation)是确保技术系统稳定运行的关键角色。本文将探讨运维的核心职责、面临的挑战以及如何通过持续学习和实践成长为一名出色的运维专家。我们将深入了解自动化工具的应用、故障排查技巧和性能优化策略,这些都是运维人员必须掌握的技能。此外,文章还将讨论软技能的重要性,如沟通协调能力和团队合作精神,这些对于处理紧急情况和提升工作效率至关重要。最后,我们将分享一些实用的资源和建议,帮助读者在运维领域取得成功。
|
3月前
|
存储 弹性计算 运维
阿里云日常运维-购买服务器
这篇文章是关于如何在阿里云购买和配置云服务器ECS的教程。
86 6
阿里云日常运维-购买服务器
|
5月前
|
数据采集 运维 Cloud Native
Flink+Paimon在阿里云大数据云原生运维数仓的实践
构建实时云原生运维数仓以提升大数据集群的运维能力,采用 Flink+Paimon 方案,解决资源审计、拓扑及趋势分析需求。
18527 54
Flink+Paimon在阿里云大数据云原生运维数仓的实践
|
5月前
|
人工智能 运维 Cloud Native
实战基于阿里云的AIGC在运维领域的探索
传统运维模式已难以应对日益复杂的海量数据和业务需求,效率低下,故障难解。而人工智能的崛起,特别是AIGC技术的出现,为运维领域带来了新的机遇。AIGC能够自动生成运维脚本、分析海量数据,预测潜在故障,甚至提供解决方案,为运维工作注入智能化力量,推动运维向更高效、更智能的方向发展。
16617 19
实战基于阿里云的AIGC在运维领域的探索
|
3月前
|
域名解析 运维
阿里云日常运维-购买域名
这篇文章是关于如何在阿里云进行日常运维,包括购买域名的详细步骤和一些推荐阅读资源。
111 4