关于运维,阿里云、字节、华科的专家如是说

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: “欲善新基建,必先利运维”。随着业务走上云端,运维也逐步“云化”。

只有今天周密的筹帷幄,才有将来持续的护稳定。不久前,阿里云联合中国计算机行业协会信息存储与安全专业委员会,邀请到了来自阿里云、字节跳动、华中科技大学的多位专家,共同探讨数字经济时代存储系统的运维之道。

1560_986直播封面.jpg

一、降低延迟,避免系统性能急剧变化

 

运维的本质是对网络、服务器、服务的生命周期各个阶段的运营与维护,在成本、稳定性、效率上达成一致可接受的状态。在 ICT 行业里,运维人常常调侃运维是对应用的承诺,不离不弃一辈子。他们就像是数据中心和公司里IT资源的管家、保安、救火员。

 

阿里云智能资深技术专家、对象存储研发负责人罗庆超对此深有体会。他回忆起了阿里云大客户请求延时抖动保障的过往,指出云存储服务请求的延时抖动厉害的时候,应用整体性能会产生过山车式的变化。

 

而云上的请求延时包含网络延时和存储延时,云服务的网络非常复杂,包含BGPBorder Gateway Protocol)和静态的公网以及数据中心内的网络。找出影响延时的拥塞点和合理调度,对避免造成拥堵至关重要。

 

存储服务还要处理好介质访问的延迟问题,机械/固态盘也是个复杂的系统,压力越大延迟越高。特别是在分布式存储系统中,还会带来病毒式的传染效应。对象存储OSS为了降低延时的抖动,从快速监控、准确告警、根因分析、优化调度入手,将延时抖动控制在合理的方差范围内,保证了良好的客户体验。

 

华中科技大学研究员、博士生导师吴非笑言,由于自己来自高校,并未亲身感受到运维人的压力,但能理解堪比永动机的7*24待命之不易。当前云存储的可靠性要求是119,固态硬盘和传统机械硬盘是云存储中最基础的数据存储单元,维护起来并不简单。前者的存储介质由闪存构成,从原理上讲,闪存就像一道门,每开一次就有一次磨损,在使用过程中不可避免会出现老化,逐渐吱呀作响,故障也接踵而至;后者像机械机器一样不停摆动,但终有停转之时。在由成千上万的固态盘或硬盘所构成的存储系统里,要保证如此高的可靠性,运维人的压力可见一斑。

 

二、因时而变,智能化运维大势所趋

 

“欲善新基建,必先利运维”。在企业数字化进程中,运维则是浓墨重彩的一笔。

三位嘉宾.png

字节跳动数据库存储技术负责人张雷表示,从传统的手动运维,到DevOps的自动化运维,再到AIOps的智能化运维,运维技术在近十几年实现了跨越式发展。字节云数据库云存储整个运维体系的发展历程,也大致分为三个阶段。

 

第一个阶段在2016年以前,整体的数据库和存储的体量都不是特别大,团队运维还处于“刀工石斧”的状态,也就是基本上靠人工就能搞定。

 

第二个阶段是20172021年,业务的规模飞速发展,云存储的系统也达到了EB量级,数据库的规模都是几千甚至上万套库,人工运维天花板已显现,因此运维团队转而构建一些自动化的运维平台,依托这些平台去搞定运营问题。

 

第三个阶段是自2021年年中,依托AI等技术的第三代运维体系开始构建。将运维人员的知识和运维经验与大数据、机器学习技术相结合,融入到运维系统中代替人力,从而解决更大规模上的运营效率问题。

 

在这三个阶段中,整个业务体系的发展,呈现出两方面的能力跃迁:一方面是运维的文化、组织、能力的提升,通俗的理解就是大家摸黑前行,从做个体运维到成体系、成建制地构建了专职的运维的SRE的团队去运维;另一方面,整个运维体系和服务化的一些技术体系也都在前进,比如从最早期的管理几十台服务器到现在管理几十万台服务器,就是技术体系不断演进去支持的。总而言之,运维的文化和组织、以及运维的技术体系,这两条路是齐头并进的。

 

三、快速定位,诊断问题根因所在

 

随着业务走上云端,运维也逐步“云化”。资源监控、终端管控、安全支持等运维服务转化为云端应用,企业可以根据需求实现订阅。  

 

张雷表示通常会关注服务的黄金指标,尤其是跟稳定性相关的一些黄金指标,因为对于大型在线服务而言,稳定性可能是第一位的。此外,他更关注长期的所依赖服务的一些技术演进路径,以便未雨绸缪,保证在技术或者产品形态上发生巨变时,运维/运营体系不会掉队。

 

罗庆超指出阿里云对象存储OSS作为服务的提供商,要做到服务承诺的SLA(服务级别协议)和 SLO(服务级别目标)这两个关键指标。细而言之,OSS官网承诺了可用性的SLA为业界领先的99.995%,那作为服务商就一定会按指标准来度量请求的成功率,想尽千方百计来保证该指标。SLO则是更详细的服务项承诺,例如保障客户的请求整体的带宽要能够达到稳定的Tbps级量级,同时一些典型的请求时延能够保证在100ms这个量级,不能有太大的波动。

 

近期阿里云还会发布一个可观测服务CloudLens,会为客户提供主流云产品的运维知识。CloudLens为对象存储OSS提供了用量分析、性能监控、安全分析、数据保护、异常检测、访问情况分析等功能,从而在成本、性能、安全、数据保护、稳定性、访问分析6大维度支撑客户的管理能力。

 

吴非认为,为了支撑应用的快速发展,存储技术也在不断演进。从传统的磁盘阵列到集中式存储,再到现在系统里可能有几十或者上万台服务器的分布式存储。在技术上首先需要考虑怎样保证成千上万台服务器能够可靠运行。从运维的角度看,就是要不出故障或者少出故障,或者快速检测出故障,达到快速修复、快速恢复、快速检测等指标。

 

近年来AI发展得如火如荼,高校科研人员也在做用AI提前预测系统故障的相关研究,希望在系统故障发生前完成数据迁移,从而有效减轻运维的压力。

 

四、产学研用,打造成长共同体

 

运维为业务系统提供的保障,既离不开阿里云这样的服务提供商的布局,又离不开字节这样的产品使用方的努力。而高校及科研院所作为基础理论技术与前沿技术研究的主体,在较多关键前沿技术方面拥有深厚的基础技术储备和丰富的理论研究基础。因此,产学研合作创新是产业发展需要重视的一个板块。

 

吴非表示,用“共同成长体”去定义这样的合作关系较为妥帖,这个链条包含了创新链、产业链以及用户链。正是因为有这样的联盟将用户方、研发方链接在一起,促进彼此的发展。用通俗的说法就是产、学、研、用为一体,各方共同成长、促进技术的发展与落地。

 

比如高校研究云存储的可靠性问题时,提出一种新算法,在推进算法落地应用过程中,可能需要跟字节跳动、阿里云等企业合作,在实际系统上部署算法,推动产业发展。

 

吴非还提到,在产学研界跨界创新也成为高校专家学者自身职业发展规划中的重要一环。不少专家学者在产业界致力于推动技术落地之后再次选择回归学术界,这个叫做“学术休假”。她相信,未来学术界和产业界之间会进一步深入融合。

 

张雷认为,产学研一体化是技术从诞生到广泛应用的重要背后推手。最近几年,云存储系统的一些技术已然固化,他首先希望学术界、研究界能够在基础设施领域里带来更多突破:无论是存储的介质、还是整个云存储体系结构的突破,亦或是一些体系、运维思路、方法上的突破,都可以为行业带来新生机。其次,产业界也要精益求精,大胆尝试新技术、新方法、新思想,并将其融入到合适的场景中。因为产业界的大型企业如字节跳动,整个技术体量、服务器、数量存储量规模都比较大,其实有一个非常好的技术杠杆效应。即使看起来一个非常小的一个技术优化,但放到体量大的场景下就能产生非常大的价值。所以,产学研各方的互相支撑是十分必要的。

 

罗庆超指出,阿里云作为服务供应商,共同成长核心有两点:一是为共同的运维能力提供底座的服务,二是吸收客户和业界、学界提供的一些输入以及先进思想,从而帮助底座成长。

 

针对两位嘉宾提到的产学研结合,罗庆超表示,在共同成长的演进上有两个阶段可能会非常重要。第一个阶段中,CCIA这样组织提供了一个共同成长的土壤和生态,把这个CCIA运作好,可以为运维、技术的共同成长打下坚实的基础。第二阶段,共同成长体一定要结出成果,比如通过CCIA这个组织,搭建交流桥梁,孵化出一些在业界颇具影响力的标准白皮书或者技术上的创新点子。

 

结语:随着高校功能从人才培育、科学研究延伸到社会服务,企业、协会与高校合作将进一步深化,这无疑有利于形成良性发展的循环圈,推动存储科技成果加速市场化,而在这个过程中,不管是用户还是厂商都将受益匪浅。

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
1月前
|
存储 弹性计算 运维
阿里云日常运维-购买服务器
这篇文章是关于如何在阿里云购买和配置云服务器ECS的教程。
60 6
阿里云日常运维-购买服务器
|
3月前
|
数据采集 运维 Cloud Native
Flink+Paimon在阿里云大数据云原生运维数仓的实践
构建实时云原生运维数仓以提升大数据集群的运维能力,采用 Flink+Paimon 方案,解决资源审计、拓扑及趋势分析需求。
18471 54
Flink+Paimon在阿里云大数据云原生运维数仓的实践
|
3月前
|
人工智能 运维 Cloud Native
实战基于阿里云的AIGC在运维领域的探索
传统运维模式已难以应对日益复杂的海量数据和业务需求,效率低下,故障难解。而人工智能的崛起,特别是AIGC技术的出现,为运维领域带来了新的机遇。AIGC能够自动生成运维脚本、分析海量数据,预测潜在故障,甚至提供解决方案,为运维工作注入智能化力量,推动运维向更高效、更智能的方向发展。
16388 19
实战基于阿里云的AIGC在运维领域的探索
|
1月前
|
域名解析 运维
阿里云日常运维-购买域名
这篇文章是关于如何在阿里云进行日常运维,包括购买域名的详细步骤和一些推荐阅读资源。
58 4
|
2月前
|
机器学习/深度学习 人工智能 运维
"颠覆传统运维!揭秘阿里云AIGC如何化身运维界超级大脑,让故障预警、智能告警不再是梦,运维大神之路从此开启!"
【8月更文挑战第14天】随着AI技术的发展,AIGC正革新依赖人工经验的传统运维行业。阿里云凭借其领先的云计算能力和AI服务生态,为运维智能化提供了坚实基础。通过分析历史数据和系统日志,AIGC能自动发现并预测故障,大幅提升运维效率。例如,结合阿里云SLS和PAI,可构建智能告警系统,实现异常检测和实时预警。随着AIGC技术的进步,运维领域将迎来全面智能化转型,开启运维新时代。
86 3
|
2月前
|
运维 安全 网络安全
运维笔记:基于阿里云跨地域服务器通信
运维笔记:基于阿里云跨地域服务器通信
79 1
|
2月前
|
存储 运维 Cloud Native
"Flink+Paimon:阿里云大数据云原生运维数仓的创新实践,引领实时数据处理新纪元"
【8月更文挑战第2天】Flink+Paimon在阿里云大数据云原生运维数仓的实践
237 3
|
3月前
|
弹性计算 运维 Linux
运维工程师必备的摸鱼神器:阿里云智能助手OS Copilot
OS Copilot 概述与体验评测摘要 阿里云的OS Copilot是一款基于大模型的智能操作系统助手,作为高级运维工程师,体验者发现它在系统诊断和性能优化上尤其有用,简化了如重置ECS密码和安全组配置等任务,提升了工作效率。 OS Copilot的易用性和安全性得到肯定,操作手册详细且交互性强,减少了用户在不同页面间切换的需要。在辅助编程方面,它能帮助非专业开发者编写和理解代码,对运维工作中的开发技能补充有很大帮助。与GitHub Copilot等产品相比,OS Copilot的独特之处在于结合了Linux操作的支持。
192 3
运维工程师必备的摸鱼神器:阿里云智能助手OS Copilot
|
2月前
|
弹性计算 运维 监控
通过阿里云OOS“快速设置”快速配置多地域运维任务
阿里云OOS的快速设置功能助力用户简便配置多地域运维任务,如云监控安装、配置收集与补丁扫描,定时开关机,周期性带宽升级,实现自动化管理,确保配置一致性,提升运维效率。
|
4月前
|
人工智能 弹性计算 运维
开启运维新纪元!阿里云OS Copilot深度评测 & 体验分享
OS Copilot是Alibaba Cloud为Linux推出的一款基于大模型的智能助手,它能理解自然语言、辅助命令执行和系统运维。目前仅支持Alibaba Cloud Linux 3的x86_64架构。安装过程涉及线上和本地体验,包括申请试用、配置环境变量、安装组件等步骤。OS Copilot提供命令行和多轮交互模式,能进行代码生成和摘要,辅助开发和运维工作。产品体验评测中,OS Copilot因其自然语言理解和高效辅助得到高度评价,尤其对运维人员来说,能大幅提升工作效率。然而,目前仅限于特定操作系统,是其局限性。未来有望扩展更多功能和支持更多平台。
133439 25
下一篇
无影云桌面