我在百度运维的成长经历 之四

简介:
我在百度运维的成长经历 之四
 

 古今之成大事业、大学问者,必经过三种之境界。“昨夜西风凋碧树,独上高楼,望尽天涯路”,此第一境也;“衣带渐宽终不悔,为伊消得人憔悴”,此第二境也;“众里寻他千百度,回头蓦见,那人正在灯火阑珊处”,此第三境也。此等语皆非大词人不能道。然遽以此意解释诸词,恐晏、欧诸公所不许也。”    —王国维《人间词话》


2010413日这一天我在上地百度大厦入职,20119月我成长为一名高级运维工程师。此刻,回忆这1年零5个月的时光,我脑海中闪过的是:“简单可依赖”的百度文化、一个个真实的“百度论语”小故事、身边各种大牛对我的悉心指导和帮助、运维部强大的自动化运维平台“诺亚”、各种技术培训、交流讨论和部门building活动,以及那些让我成长的极负挑战的项目….。如果把百度运维部比作一幅中国山水画,那接下来,且听我是如何认识这幅山水画以及迷恋上她的。

1看山是山,看水是水

我是浙大一名生物医学工程专业的硕士,主要研究脑神经科学,业余喜欢捣鼓下Linux和嵌入式系统,当时我自己是很难想象毕业后会加入到百度这样的互联网公司从事系统运维相关工作,那时感觉即兴奋又忐忑,毕竟在我们专业能加入百度是一个很不错的选择。我能胜任百度运维工作么?这是我留给自己的问题。

【看山是山】——还没有入职之前,就有运维部门的高级工程师悉心地给予我基础知识的指导(推荐了很多基础知识和搜索引擎相关的书籍进行系统学习)以及工作内容的详细说明,我了解到在百度运维工程师的地位和研发、测试工程师是相同的。百度的网页搜索、社区产品、知识搜索、商务搜索、阿拉丁、框计算、“一人一世界”的新首页等都离不开运维工程师的智慧和耕耘,从机房、网络、程序的部署方案到自动化部署平台,从监控到基于ITIL的流程管理,从数据安全到备份预案,从数据库到分布式系统,从数据库到海量数据处理平台的维护,从系统稳定性保证到架构设计优化,这些都是运维工程师的职责。

【看水是水】——正式入职进入运维部门,深刻的体会到百度服务稳定性对网名的重要性,“有网民不能上百度则怀疑是自己的电脑中病毒,重装系统”这样的故事已经不止一次听到。运维工程师每天要做系统基本服务的检查、程序模块的上线操作、监控部署、自动化运维工具的开发、备份和预案等等,这些我刚开始看起来是相对简单的,或者会认为没有太多的技术含量,但是不积跬步无以至千里,正式我在一开始在指导人的教导下认真对待了这些基本技能,才在后面的重要项目中快速成才。在百度运维部,任何一个工程师都是你的指导人,无论在何时何种情况,只要你有疑惑,都可以咨询了解情况的任何人,即使他有事情也会及时告知你可以进行沟通的时间。我和我的指导人会每天固定时间进行沟通,反馈工作中遇到的困难比及时解决,作为一个新人,知道每件事情的意义和按时产出是很有必要的,我快速的从运维工程师身上学到了各种优秀的百度文化,小到如何写一封让人看得明白的邮件,大到对一个大项目的严格进度把握和时间管理。这段时间,还有运维部专门的技术培训和公司的百度学院培训,也让自己在技术能力和软素质能力上有了很大提升。正所谓“户枢不蠹,流水不腐”,百度运维部就好像百度各个产品线的血液,无时无刻为百度服务提供生命力。

2看山不是山,看水不是水

        我的第一个正式项目是网页抓取后台的一个大项目,原系统在架构设计上存在一些致命的缺陷,不利于扩展和维护,新系统采用分布式框架进行。在这个系统上线中,我仔细和百度抓取服务部门的研发小组、分布式平台研发部分进行有效地沟通,在很短的时间内快速学习了分布式系统以及抓取服务的相关知识,周围身边很多人给予了我耐心的指导,虽然有时候在会议上也会争论(即使是新人,只要想法合理,都可以提出质疑),3个月时间,这个新系统顺利上线服务,我也因此获得了部门季度和公司年度的最佳新人之一,拿到了印有Robin签名的奖励。经过这个项目,我对运维的认识,有点“看山不是山,看水不是水了”,运维不是孤立存在的,要关注内核、平台和应用各个方面,不仅在运维技术上要独挡一面,还要对其他内容也善于学习,最高境界也许就是那“会当凌绝顶,一览纵山小”。

        这段时间,我还总结了一些在百度运维部门成长体会分享给了部门其他新同学,大家互相交流学习,气氛相当融洽。

3看山还是山,看水还是水

        在第一个正式项目完成之后,已经可以对网页抓取服务独挡一面,我开始思考如何更好的提高运维效率和服务稳定性,建立起一套完整的运维方法学。这个时候,更大的挑战就过来了,这次是一个跨产品线的项目,项目初始曾得到很多高级工程师的质疑,主要针对项目的方案风险和实施困难这2个方面。“不唯上”和“用数据说话”,这是百度论语中的2条,经理和同事都鼓励我和另一名同事一起去完成,给出数据说明,严格的测试方案和论证,最终在数据和实际结果下,项目顺利开展起来并完成,我也因此成长为一名高级运维工程师。

        “看山还是山,看水还是水”,百度运维最终是要回归本源的,即使是最简单的方法和技术,只要对网民和服务有益,有数据和事实,你都可以去发挥自己的想象力和闯劲,在百度,没有各种条条框框,只要你有能力,就可以“人生可以走直线”。

        限于篇幅,我在运维部的故事就这么简单,仅仅是运维部新同学中的普通一员的故事,这里有大量优秀的年青人,期待在百度大厦看到正在看我的故事的你。


 















本文转自百度技术51CTO博客,原文链接:http://blog.51cto.com/baidutech/747973,如需转载请自行联系原作者

相关文章
|
机器学习/深度学习 人工智能 运维
运维一路走来,经历了什么?
随着AIOps应用不断的深入,智能运维将会在纵向和横向不断延伸。横向上,智能运维应用场景将会从ITOM向ITOA、ITSM和ITBM发展,覆盖更多的运维领域。
216 0
运维一路走来,经历了什么?
|
运维 监控 小程序
2022 企业应用运维管理指标体系白皮书发布:企业 IT 运维正在经历从“后台”向“中台”的转变
InfoQ 获悉,近日,博睿数据联合艾瑞咨询共同发布了《2022企业应用运维管理指标体系白皮书》(以下简称《白皮书》)。 《白皮书》从企业 IT 运维的内涵以及在当前数字经济发展的大环境下企业 IT 运维工作在技术、战略、组织架构等方面面临的变化和问题做了详细说明,并展示了一种以业务和应用为着眼点的企业应用运维管理指标体系,对该体系的原理、设计和实践进行了详细说明。
1685 0
2022 企业应用运维管理指标体系白皮书发布:企业 IT 运维正在经历从“后台”向“中台”的转变
|
2月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
63 4
|
19天前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
19天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
45 1
|
1月前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
1月前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
58 4