从运维到运维大神,只需要一个正确的选择

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储OSS,敏感数据保护2.0 200GB 1年
简介: 对于运维工作来说,想要在黑天鹅横飞,灰犀牛直撞的当下,既能独善其身,又能兼济天下,那么选择一款靠谱的存储产品,是至关重要的。

储留香.jpg

马上就是7月24日听群里的朋友说,7和24这两个数字是运维工作的最佳体现——7X24小时待命,所以咱们IT人将这一天自定义为“运维日”


对于运维工作来说,想要在黑天鹅横飞,灰犀牛直撞的当下,既能独善其身,又能兼济天下,那么选择一款靠谱的存储产品,是至关重要的。


今天,我们就来聊一聊“选择”这个话题。


一、那个男人和他的定律


时间是1949年,地点是美国爱德华兹空军基地。一名工程师半开玩笑的提出了一个后来以自己的名字命名的定律——墨菲定律,这个定律指出:

墨菲定律.png

翻译翻译!

就是如果事情有变坏的可能,不管可能性有多小,它总会发生。就是这个定律,让很多IT人从此过上了提心吊胆的日子。


你说我全防出去了!但不好意思,很多时候,甚至都不知道发生了啥,问题就来了。

数据翻转.png

在咱们IT宇宙,Bug超多样,坑你没商量。比如,硬件系统中,数据翻转(包括内存/网络/磁盘的位翻转)不仅时有发生,而且反手就是一个数据丢失。再比如,CPU的静默数据错误,由于它不可被检测,堪比无色无味的十香软筋散,处理起来更是棘手。


除了硬件错误,软件Bug也会导致数据丢失,特别是元数据一旦受到影响,则可能从一台机器扩散到一个集群,甚至被数据复制功能扩展到全球整个服务。防不胜防啊!


那么,倔犟的对象存储是如何应对的呢?


二、OSS的应对之道


1、深淘滩,低作堰:打造“数据护盾体系”


如果把数据比作孙悟空,那么既不能让它逃出五指山,丢了也不能让它变为六耳猕猴,错了

孙悟空直播.png

一种数据保护思路就是使用冗余技术,那效果简直不要太好!

副本和纠删码(Erasure Coding,EC)是分布式存储系统中常用的两种数据冗余保护策略。


很多小朋友要问了:这两种策略要如何选择呢?

  • 对性能要求高的业务(比如数据库)用副本
  • 对预算成本敏感的业务(比如视频、影像等海量数据存储)用纠删码


小朋友才做选择题,咱们IT人,当然全都要!


对于盘古这样excellent的分布式存储系统来说,已经实现了副本和纠删码二者的兼得。做到副本和EC起飞,安全共成本一色!

大树盘古.png

基于盘古的阿里云对象存储OSS采用的纠删码配比是N+M(将原始数据分为N份,计算M份冗余,N和M均可调整),将数据存储在不同的存储介质,实现数据分层存储,已写入的数据还可以通过改变N和M的比例,转储为指定存储类型,完成数据的生命周期管理。


当然,一味地节省成本并不是万全之策!


狡兔三窟的成语告诉我们一个道理:别把鸡蛋放在同一个篮子里。听人劝,吃饱饭的OSS将数据分散存放在同一地域(Region)的3个可用区,在某个可用区不可用时,依然可以保证数据可以正常访问。

OSS多可用区.png

依靠纠删码和多可用区冗余,OSS的可用性SLA提升到99.995%,也就是每5分钟内10万请求最多只错5个。理论上的出错的概率,差不多等于双色球三等奖的中奖概率。


但这世上,又有几人中过三等奖呢?


2、背靠大树好乘凉,打造“分层容错体系”


表面上看,市面上的对象存储没差啊,都带个object,但其实能力千差万别。


数十万的客户共享海量资源池,做好租户之间的资源隔离,让马奔大道、虎奔山就显得尤为重要。OSS的方式是通过采取不同租户的带宽和QPS流控、异常流量全网秒级告警等手段,避免过大的访问压力造成用户互相挤占,保证系统正常运行。横向对比一下,这技术天花板,那高得真的不是一星半点!


针对误操作,OSS还提供了一剂后悔药——OSS版本控制功能,开启这个功能之后,针对数据的覆盖和删除操作将会以历史版本的形式保存下来,可以轻松将Bucket中存储的Object恢复至任意时刻的历史版本。失而复得的快乐,你值得拥有!


除了内因,外因也不得不防。


IT世界光怪陆离,黑客们早已升级,他们不杀人放火,他们敲诈勒索。平时遭遇点DDoS攻击,那是老板的大度,但要是被病毒勒索了,宕机了,那就等着老板的超度吧。


但,别怕!所谓魔高一尺,道高一尺一,OSS引入了防篡改能力,不仅清热解“毒”,而且还能强身健体。此外,OSS还与阿里云安全产品联手推出高防能力,构建金刚伏魔圈,同时使用移形换影大法,将攻击流量牵引至高防集群进行清洗。无惧DDoS冷箭。

无惧冷箭.png

OSS还有多个技术细节,轻松应对网络灰产,比如堪比“芙蓉金针”的的探针系统,可准确检测灰产,并快速实现IP隔离。什么叫专业,其实就是细节!


超长待机的IT人贼拉多,每位都有故事,而每个故事的背后,其实都是一次历练,不白折腾!


多少次午夜梦回,IT人或许会梦到那个拯救了公司业务系统的运维大神,那是公司的至暗时刻,却是他的高光时刻,几个简单操作,就让老板的目光变得如流水般温柔,笑容变得如夏花般绚烂。


其实,从运维到运维大神的距离,说短不短,说长也不长,只需要在一开始就做出那个最正确的选择。现在,聪明的你,知道怎么选了吗?


彩蛋:

7月24日晚7:24分,阿里云联合中国计算机行业协会信息存储与安全专业委员会,邀请到了来自阿里云、字节跳动、华中科技大学的多位专家,共同探讨数字经济时代存储系统的运维之道。点击这里,预约直播,我们不见不散!

打造共同体人物海报副本.jpg

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
相关文章
|
10月前
|
存储 架构师 容灾
阿里云基础设施高可用最佳实践沙龙深圳站圆满举办!
2024年11月28日,阿里云在深圳东海朗廷酒店举办了“构建云上高可用数据中心:从原子能力到场景架构的实战之旅”高可用最佳实践沙龙。活动邀请了多位阿里云专家,分享了高可用数据中心的构建方法、应用场景及最佳实践,吸引了众多企业CTO、架构师和技术从业者参与。通过互动交流,与会者深入了解了阿里云的高可用解决方案,并期待未来合作。
|
10月前
|
缓存 Kubernetes 容灾
如何基于服务网格构建高可用架构
分享如何利用服务网格构建更强更全面的高可用架构
|
存储 人工智能 大数据
面向 AI 的存储基础设施升级
AI 与大数据融合化是大势所趋,企业可以通过大数据技术收集和存储大量数据,进行一站式计算分析和数据治理,以便安全、精确、高效、智能地应用数据。在这个话题中,我们将会介绍阿里云全栈存储数据基础设施如何支撑 AI 场景的创新与实践,并带来全新一代存储产品的重磅发布,帮助企业高效数字创新。
546 0
|
存储 容灾 数据库
Regional ESSD重磅发布
阿里云重磅发布Regional ESSD,这是一种专为提升关键系统业务连续性的块存储解决方案,降低了容灾部署的门槛并解决了数据不一致问题。ESSD系列自2019年以来不断进化,提供高性能和全闪存选项。2024年的Regional ESSD引入多AZ冗余,实现数据容灾的新标准,保证数据零丢失和快速恢复,达到灾难恢复能力等级6级,简化管理并优化成本。阿里云是国内云厂商中首家提供Regional ESSD产品能力的云厂商,助力企业云上业务高可用。
1012 16
Regional ESSD重磅发布
|
存储 缓存 Kubernetes
在K8S中,集群节点宕机,可能由哪些原因造成?
在K8S中,集群节点宕机,可能由哪些原因造成?
|
存储 人工智能 文件存储
阿里云吴结生:面向大规模数据智能的阿里云存储创新
近年来,越来越多人意识到,我们正处在一个数据爆炸式增长的时代。IDC 预测 2027 年全球产生的数据量将达到 291 ZB,与 2022 年相比,增长了近 2 倍。其中 75% 的数据来自企业,每一个现代化的企业都是一家数据公司。
1259 10
阿里云吴结生:面向大规模数据智能的阿里云存储创新
|
存储 自然语言处理 算法
动态规划:解决复杂问题的利器(上)
动态规划:解决复杂问题的利器(上)
动态规划:解决复杂问题的利器(上)
|
存储 运维 监控
关于运维那点事
运维,这里指互联网运维,通常属于技术部门,与研发、测试、系统管理同为互联网产品技术支撑的4大部门,这个划分在国内和国外以及大小公司间都会多少有一些不同。
关于运维那点事
|
监控 Linux 网络安全
linux centos7 rsync+sersync实现数据实时同步
linux centos7 rsync+sersync实现数据实时同步
349 0
|
Kubernetes Cloud Native Java
云原生|kubernetes|ingress-nginx插件部署(kubernetes-1.23和最新版controller-1.6.4)
云原生|kubernetes|ingress-nginx插件部署(kubernetes-1.23和最新版controller-1.6.4)
2254 0