【云和恩墨大讲堂电子期刊】挑战者:Google成功的背后

简介:

致亲爱的读者:

在商业竞争中,进攻常常也是最好的防守。Google从小到大一直贯彻这个原则。Google在规模很小的时候,受到很多比自己大的公司的围攻,死守是没有出路的。因此它把自己放在一个挑战者的位置,不断挑战对手,也挑战自己。在商业竞争中,Google常常是两眼盯着前方向前冲,而不左顾右盼它的对手。

这段话摘自《浪潮之巅》,也是我认为对于Google成功的背后最好的阐释。Google公司从一开始就以挑战者的身份出现在人们的视野中,它不仅在技术和商业上挑战比自己更大更强的公司,而且在理念上挑战传统。它的成功在于

它并不应对竞争,而是在引领行业的发展。


最近我们分享了很多关于Google的案例,通过这些案例我们看到一个成功的企业自信从容的姿态,也看到了作为挑战者的它强大的灵魂。


我相信很多人看到也感知着Google的成功。成功的因素有很多,也许有英雄逢时的缘故,有浪潮的推动,但我一直相信,没有任何人和企业的成功是偶然的,如果有不确定的因素会存在,我想那便是越努力越幸运。


Google所拥有的成功,在表面上是各种英明的商业决策和智慧的l领导者的综合因素,事实上,远远不只是这样。接下来我们将结合Google运维的核心思想剖析Google背后成功的原因。


一、安全意识与防范

一切都有可能而且将会发生故障。Google在这一点上,绝对不是说说而已。

愿望不是一个策略”,这是Google  SRE 的口号,很好地总结了他们对灾难预案与演习的态度。SRE 的文化是永远保持警惕,不停地提出疑问:什么可能出现故障?在故障导致服务停止或者数据丢失之前我们如何避免?


这样的安全意识在行动上最主要的表现是:

1、细节的设计与关注:

Jeff Stevenson回忆起在美国海军的任职经历,所有人对某些小任务执行过程中出现的粗心情况可能会导致大型潜艇事故的情况非常了解(例如,润滑油的及时补充)。

非常小的一个错误都可能产生极为严重的后果。


系统相互连接紧密,所以一个区域的事故可能会导致多个相关系统出现故障。核动力海军对日常常规维护非常重视,以确保小问题不 会发展成大事故。


在我们多年的运维经验上,我们也意识到很多重大的问题或是故障往往来源于细节的设计不合理或是对看似无关紧要的小问题的疏忽。在eygle写的防范攻击 加强管控 - 数据库安全的16条军规一文中提出了很多在运维中药时刻谨记的事项,事实上这些问题可能是众所周知的,但常常得不到DBA们的重视。


2、灾难的预案与演习

Google 的灾难恢复团队在模拟与线上灾难演习方面与其他行业的关注点非常类似。

利用某种灾难情景可能导致的故障的严重程度来决定是使用模拟方式,还是线上方式进行演习。

这些情景会制造得非常逼真,救生员一般无法区分真实和虚构的紧急事故。


我们经常强调,备份重于一切。而在今年年初发生了很多事故,除了少数的没有备份之外,大部分都是有做备份的,大家可能还记得GitLab五重备份无一有效的事件,这听起来不大真实,但我这样的事情并不是绝无仅有,事实上很多企业认为只要做了备份,似乎就万无一失了,很少有人做有下行校验,更谈不上针对可能会发生的故障做预案演习。参考:讲真,你该做备份有效性的校验了


二、自动化运维及工作负载的管理

Google SRE本质上还是软件工程师,他们对重复性的、被动性的工作十分反感。在他们的文化中强调避免反复执行一项重复性的工作。


事实上自动化和智能化运维是当下不可避免的趋势。只有将DBA和系统运维者从繁冗重复的工作中解救出来,才能在更有价值的事情上发挥价值。


在过去几十年的运维发展的历程中,有很多有经验的老运维,他们就像是运维工作中的数据库,熟悉大部分的故障场景和处理方案,但新运维仍要不断重复地去摸索,这就是资源的浪费。通过自动化运维工具的实现,能够将前人的经验凝聚起来,不仅有利于工作更好的完成,对于新人来说,他们则能够站在前人的肩膀上做更创新和向前的事情。


云和恩墨推出的白求恩智能诊断平台、Z3SQL审核工具、ZONE数据库性能监控及分析工具,都是通过将专家的智慧和经验凝聚成产品,让运维工作更轻松。


三、事后总结与优化

大家可能还记得Google在一次误操作中删除了1.5PB的数据的事件,影响到几乎2.1万的用户。当故障发生以后,外界都在揣测,这个锅将由谁来背。而Google Music团队则是重新设计了该流水线任务,彻底消除了这种数据竞争问题出现的可能性。


对待故障对事不对人,解决方案比问责更重要。这也是Google不断前进的重要原因之一。


Google的严谨、睿智、英明和果断,体现在每一个方面。如果成功可以复制,你做到这些了吗?


引领而非应对竞争,这才是面对竞争最好的姿态。


文章转自数据和云公众号,原文链接

相关文章
|
4月前
|
人工智能 供应链 安全
|
9月前
|
云安全 供应链 安全
三大亮点剧透!2023首届SecGo云和软件安全大会即将召开
聚焦前沿技术发展趋势 发布云和软件安全系列评估成果
120 0
三大亮点剧透!2023首届SecGo云和软件安全大会即将召开
|
机器学习/深度学习 自然语言处理 算法
国际顶会OSDI首度收录淘宝系统论文,端云协同智能获大会主旨演讲推荐
大淘宝技术团队论文入选计算机系统领域顶级国际学术会议OSDI,这是淘宝系统论文首次入选该国际顶会,论文详解了阿里历经四年、自主研发的首个端到端、通用型、规模化产业应用的端云协同机器学习系统“瓦力”——Walle。OSDI特别邀请到的David Tennenhouse在大会主旨演讲中专门推荐了Walle系统,对其技术先进性和应用落地效果赞誉有加。目前,Walle 作为阿里机器学习的基础设施支持 30+APP上 的300+个算法任务。
433 0
国际顶会OSDI首度收录淘宝系统论文,端云协同智能获大会主旨演讲推荐
|
机器学习/深度学习 人工智能 编解码
CVPR 2017国内外亮点论文汇集:史上最盛大会议,华人占据半壁江山
深度学习界的「春晚」CVPR 2017 已在夏威夷火奴鲁鲁 Hawaii Convention Center 开幕,在本次大会接收的众多论文当中,有华人参与的接近半数。这七百余篇论文中有哪些亮点?众多参会的中国研究机构又贡献了多少?我们为你整理了一篇观看指南。
262 0
CVPR 2017国内外亮点论文汇集:史上最盛大会议,华人占据半壁江山
|
Cloud Native NoSQL 关系型数据库
对话李飞飞,揭秘国际体育赛事风“云”背后的黑科技
众所周知,在重大体育赛事中,如何提高运动员的成绩,如何改善观众的参与体验,是体育组织越来越重视的问题。那么阿里云技术是如何帮助解决这个问题的呢? 今天,我们有幸邀请到阿里巴巴集团副总裁、阿里云智能数据库产品事业部负责人、ACM杰出科学家李飞飞为我们揭秘国际体育赛事风“云”背后的黑科技。
948 0
对话李飞飞,揭秘国际体育赛事风“云”背后的黑科技
|
SQL 安全 NoSQL
阿里云新品发布会周刊第67期 丨 阿里研究员谷朴:警惕软件复杂度困局!
新产品、新版本、新技术、新功能、价格调整,评论在下方,下期更新!关注更多新品发布会!
824 0
阿里云新品发布会周刊第67期 丨  阿里研究员谷朴:警惕软件复杂度困局!
阿里云创新中心发布创企生态战“疫”图谱
抗击疫情,阿里云创新中心携手创企们正在利用“黑科技”,推出了一个又一个硬核产品和解决方案,与各地政府及机构合作,冲在了抗击疫情的最前线。
阿里云创新中心发布创企生态战“疫”图谱
|
机器学习/深度学习 新零售 人工智能
【云周刊】第192期:阿里系统软件技术2018中国开源年度报告发布,阿里系独占鳌头
阿里云英国大区开服,覆盖美英德日中五大市场,数据中心日均 CPU 利用率 45% 的运行之道--阿里巴巴规模化混部技术演进,飞天技术汇第33期:阿里云开发者工具新品发布会...更多精彩内容,尽在云周刊!
4140 0
|
机器学习/深度学习 人工智能 物联网