从运维到运维大神,只需要一个正确的选择

本文涉及的产品
对象存储 OSS,20GB 3个月
阿里云盘企业版 CDE,企业版用户数5人 500GB空间
云备份 Cloud Backup,100GB 3个月
简介: 对于运维工作来说,想要在黑天鹅横飞,灰犀牛直撞的当下,既能独善其身,又能兼济天下,那么选择一款靠谱的存储产品,是至关重要的。

储留香.jpg

马上就是7月24日听群里的朋友说,7和24这两个数字是运维工作的最佳体现——7X24小时待命,所以咱们IT人将这一天自定义为“运维日”


对于运维工作来说,想要在黑天鹅横飞,灰犀牛直撞的当下,既能独善其身,又能兼济天下,那么选择一款靠谱的存储产品,是至关重要的。


今天,我们就来聊一聊“选择”这个话题。


一、那个男人和他的定律


时间是1949年,地点是美国爱德华兹空军基地。一名工程师半开玩笑的提出了一个后来以自己的名字命名的定律——墨菲定律,这个定律指出:

墨菲定律.png

翻译翻译!

就是如果事情有变坏的可能,不管可能性有多小,它总会发生。就是这个定律,让很多IT人从此过上了提心吊胆的日子。


你说我全防出去了!但不好意思,很多时候,甚至都不知道发生了啥,问题就来了。

数据翻转.png

在咱们IT宇宙,Bug超多样,坑你没商量。比如,硬件系统中,数据翻转(包括内存/网络/磁盘的位翻转)不仅时有发生,而且反手就是一个数据丢失。再比如,CPU的静默数据错误,由于它不可被检测,堪比无色无味的十香软筋散,处理起来更是棘手。


除了硬件错误,软件Bug也会导致数据丢失,特别是元数据一旦受到影响,则可能从一台机器扩散到一个集群,甚至被数据复制功能扩展到全球整个服务。防不胜防啊!


那么,倔犟的对象存储是如何应对的呢?


二、OSS的应对之道


1、深淘滩,低作堰:打造“数据护盾体系”


如果把数据比作孙悟空,那么既不能让它逃出五指山,丢了也不能让它变为六耳猕猴,错了

孙悟空直播.png

一种数据保护思路就是使用冗余技术,那效果简直不要太好!

副本和纠删码(Erasure Coding,EC)是分布式存储系统中常用的两种数据冗余保护策略。


很多小朋友要问了:这两种策略要如何选择呢?

  • 对性能要求高的业务(比如数据库)用副本
  • 对预算成本敏感的业务(比如视频、影像等海量数据存储)用纠删码


小朋友才做选择题,咱们IT人,当然全都要!


对于盘古这样excellent的分布式存储系统来说,已经实现了副本和纠删码二者的兼得。做到副本和EC起飞,安全共成本一色!

大树盘古.png

基于盘古的阿里云对象存储OSS采用的纠删码配比是N+M(将原始数据分为N份,计算M份冗余,N和M均可调整),将数据存储在不同的存储介质,实现数据分层存储,已写入的数据还可以通过改变N和M的比例,转储为指定存储类型,完成数据的生命周期管理。


当然,一味地节省成本并不是万全之策!


狡兔三窟的成语告诉我们一个道理:别把鸡蛋放在同一个篮子里。听人劝,吃饱饭的OSS将数据分散存放在同一地域(Region)的3个可用区,在某个可用区不可用时,依然可以保证数据可以正常访问。

OSS多可用区.png

依靠纠删码和多可用区冗余,OSS的可用性SLA提升到99.995%,也就是每5分钟内10万请求最多只错5个。理论上的出错的概率,差不多等于双色球三等奖的中奖概率。


但这世上,又有几人中过三等奖呢?


2、背靠大树好乘凉,打造“分层容错体系”


表面上看,市面上的对象存储没差啊,都带个object,但其实能力千差万别。


数十万的客户共享海量资源池,做好租户之间的资源隔离,让马奔大道、虎奔山就显得尤为重要。OSS的方式是通过采取不同租户的带宽和QPS流控、异常流量全网秒级告警等手段,避免过大的访问压力造成用户互相挤占,保证系统正常运行。横向对比一下,这技术天花板,那高得真的不是一星半点!


针对误操作,OSS还提供了一剂后悔药——OSS版本控制功能,开启这个功能之后,针对数据的覆盖和删除操作将会以历史版本的形式保存下来,可以轻松将Bucket中存储的Object恢复至任意时刻的历史版本。失而复得的快乐,你值得拥有!


除了内因,外因也不得不防。


IT世界光怪陆离,黑客们早已升级,他们不杀人放火,他们敲诈勒索。平时遭遇点DDoS攻击,那是老板的大度,但要是被病毒勒索了,宕机了,那就等着老板的超度吧。


但,别怕!所谓魔高一尺,道高一尺一,OSS引入了防篡改能力,不仅清热解“毒”,而且还能强身健体。此外,OSS还与阿里云安全产品联手推出高防能力,构建金刚伏魔圈,同时使用移形换影大法,将攻击流量牵引至高防集群进行清洗。无惧DDoS冷箭。

无惧冷箭.png

OSS还有多个技术细节,轻松应对网络灰产,比如堪比“芙蓉金针”的的探针系统,可准确检测灰产,并快速实现IP隔离。什么叫专业,其实就是细节!


超长待机的IT人贼拉多,每位都有故事,而每个故事的背后,其实都是一次历练,不白折腾!


多少次午夜梦回,IT人或许会梦到那个拯救了公司业务系统的运维大神,那是公司的至暗时刻,却是他的高光时刻,几个简单操作,就让老板的目光变得如流水般温柔,笑容变得如夏花般绚烂。


其实,从运维到运维大神的距离,说短不短,说长也不长,只需要在一开始就做出那个最正确的选择。现在,聪明的你,知道怎么选了吗?


彩蛋:

7月24日晚7:24分,阿里云联合中国计算机行业协会信息存储与安全专业委员会,邀请到了来自阿里云、字节跳动、华中科技大学的多位专家,共同探讨数字经济时代存储系统的运维之道。点击这里,预约直播,我们不见不散!

打造共同体人物海报副本.jpg

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
运维
为运维人写的打油诗:
为运维人写的打油诗:
209 1
|
运维 监控 安全
|
人工智能 运维 监控
运维,也挺好的嘛
运维,也挺好的嘛
74 0
|
消息中间件 运维 大数据
畅意抒怀,以诗会友,写下你的运维打油诗!
看过《长安三万里》,是不是勾起了你想要赋诗一首的欲望。对于咱们IT人来说,也许不能作出工整、押韵的绝句,但来一首打油诗还不是手到擒来嘛; 7月24日是一个专属于 IT人的日子,寓意是7×24小时待命电脑不离手、保障业务7×24小时高效可用。他们运筹“维”幄,有紧急情况发生,他们会坚守在机房直到问题解决;他们“时来运转”,每逢重大节日、重大活动,就能看见运维人忙碌的身影像陀螺一样运转。致敬所有it运维工程师;
570 1
|
存储 运维 监控
关于运维那点事
运维,这里指互联网运维,通常属于技术部门,与研发、测试、系统管理同为互联网产品技术支撑的4大部门,这个划分在国内和国外以及大小公司间都会多少有一些不同。
关于运维那点事
|
运维 监控 安全
什么是运维?
什么是运维?
241 0
|
运维 网络架构 安全
IT运维存在问题及改进
IT运维管理存在的问题 1.1 IT运维机制不完善,流程操作层面缺乏统一 没有建立起稳定、规范的IT运维机制。现有的IT运维流程的操作层面缺乏统一。如事件单提交之后,事件预判和优先级的设定缺少统一、规范的指导文档,仅以人员的主观经验或约定俗成的方式指导事件的处理过程。
|
运维 关系型数据库 Shell
|
运维 安全 数据库