浅谈IT运维

简介:

 我们处在信息爆炸的时代,每天都会发生许多新鲜的事物,产生宝贵的数据,因而时代需要一群维护数据的专业人才,主要包括SA和DBA;曾经有个同学告诉我,在未来运维将是最吃香的行业。我一直不以为然!从08年到现在,一直从事的都是运维方面的工作,曾经一度认为运维就是简单的运行和维护,所以在运维方面我成长的比较慢,因为从觉悟上我领悟的就不够!

 时下我和别人介绍自己的时候,一般都说自己是打杂的,也许是我的领悟不够,也或许是我的级别不够,但我的的确确做的都是杂事。下面就来谈谈我所知道的运维吧!

一:企业运维的工作职责
1:运维的首要职责是参与确定公司的整体IT框架,当然这也不完全是运维的事;框架这词本身就比较笼统。框架大概包括服务器的系统,程序使用何种语言,配合什么数据库,使用何种容器来发布内容,需要多少服务器,如何分配资源等。

决定使用什么操作系统也是件很重要的事,用windows,linux,aix还是freebSD,将来如何升级都对企业的运维产生着深远的影响,一般来讲运维人员会建议管理层使用自己所熟练的操作系统,笔者就一直力建RHEL。程序使用何种语言就和企业本身的业务息息相关,例如银行都首推java,一般的门户网站,论坛都用php,asp.net等,程序语言对使用何种数据库和web容器起着决定性的作用,如果是php,那一般是lamp,lnmp之类的经典模型,如果是java,那选择面相对比较广些,容器部分可以选择weblogic,websphere,jboss,tomcat等等;数据库可以选择oracle,db2, sysbase等,在这个时候,企业的经济实力也起着至关重要的作用!

2:保证应用能在服务器上正常的运行
坦白说,这个标准更加的笼统,怎么样才能算正常的运行呢?笔者在工作中,经常遇到用户抱怨说论坛卡,服务器慢,网站打不开之类的问题,让对方ping下服务器,4个包丢了3个,不卡才怪呢。这个过程中出问题的有可能是服务器,也可能是用户端或者就是中间的网络传输问题,在中国最典型的就是南北互通的问题,曾有戏言:世界上最远的距离是中国电信到中国联通之间的距离!因为这种问题很难判断,所以一般管理者会要求运维每年的故障时间不能超过一定的值,说7*24*365服务不间断运行,那是扯淡!总会有各种各样的问题,无论你用了什么负载均衡,故障转移技术,服务临时中断也是避免不了的,运维的价值在于在缩短服务中断后的MTTR时间,可见运维的压力是很大的!


3:根据业务需要,及时调整服务器各项设定
这个工作是笔者工作中的重头戏,程序今天需要部署个memcache,明天需要个中文分词系统,后天需要加个虚拟主机…… 这种事情一般是怎么做都做不完的,只能来一样做一样。但这种工作最能让你的运维水平得到提高。运维人员在做这类工作的时候不能像应付任务那样,但求过关即可,否则日积月累下来,服务器会出现意想不到的情况。在处理这类工作上运维人员应当做到规范和文档记录,长期做下来,不但自己的运维专业水平会提高,对于后期的维护也会起到良性循环作用

4:备份关键数据,及时处理各种故障,保证服务器安全
备份是为了恢复,一般想到或者用到备份的时候,都是出现麻烦的时候,所以平常工作中对备份一定要足够的重视,尤其是数据库,在某些时候,看起来N年前的备份可能会给你的恢复工作带来意想不到的作用;服务器的安全部分又是个拎不清的概念,因为安全本身就是相对的,而且安全和性能,用户体验之间是成反比的,运维在很多时候都是牺牲安全来换取性能和更好的用户体验,等将来安全上出现问题的时候再调整,例如关闭服务器的selinux,关闭服务器内网间的防火墙,允许任意IP进行FTP连接等等

5:记录服务器维护日志和技术文档
这点都是在处理完问题后记录下,方便加快日后处理同类问题的速度和效率;至于技术文档,身为运维人员一定要认真编写,写的很糟糕的文档会给人误导作用,internet上这类文章不在少数,本身IT这个行业就是很浮躁的,如果不能静下心来好好整理知识,总有一天会被淘汰的;对于过去整理的文档要定期的去温习,有错的要及时更正。所谓温故而知新,孔夫子的教诲还是要听的,否则等你有天在搜索引擎搜到自己的文章的时候,怎么想也想不明白当初为什么要这样做。笔者一直倡导和internet的朋友分享自己的知识,这样有利于自己和他人的共同进步

二:企业运维的主要难题
1: IDC服务商的选择
服务器多了,自然要找好的IDC运营商;这点很重要,差的IDC会把你服务器装错,会无缘无故把你的域名白名单取消,机柜的带宽流量无法实时监控,CDN效果不佳,服务器出问题的不是先想着如何处理问题,而是找各种各样的借口,什么机房网络被攻击,电源跳闸之类的,各种悲剧!唯一的优势可能是收费相对比较便宜,呵呵!

2:服务器提供商和型号的选择
这个也很重要,笔者先前遇到一批DELL R410固件问题,每当服务器高流量的时候,服务器网卡会自动断流,需要手动重启网卡,这个问题悲剧了许久,到最后也未能完全解决;之前还遇到过内存,主板故障等问题,服务器的硬件一旦出现问题,就意味着停机检修,服务自然要中断。所以在服务器的选择上也要慎重,而不是只考虑价格问题

3:负载均衡和故障转移
流量大了,或者业务重要性高,就要求最大可能提供服务器的高可用性和数据容灾,自然要部署负载均衡和故障转移;是采用硬件F5,cisco还是软件lvs,keepalvie,heartbeat,nginx方式实现,效果如何?都需要去考量

4:运维团队和人才的培养
千金易得,一将难求。对于企业来讲,运维人才的流失是比较可惜的,如何去留住一批优秀的运维人才也是企业需要考虑的问题。其实不只运维,企业要想有长远的发展都应当想方设法留住人才,控制公司的人员流失率,要让员工有归属感和荣誉感,而不是只有赤裸裸的雇佣关系;企业应该着重培养一支高素质,高凝聚力的运维团队,而不是只当运维是业务部门和程序部门间的夹心饼,里外不是人,这样的环境和团队是留不住人才的。

三:运维人员的职业发展和出路
运维是个年轻人行业,做运维的需要梦想和激情,随着岁月的增长和学习能力,熬夜能力的衰退;运维人员要面临转型的问题,一般可以选择转向做管理或者架构,或者专攻DBA,又或者自己创业,写书,去培训中心做教员,选择的路还是很多的。离开运维岗位是每个运维人员迟早要面对的问题,如何在有限的运维时间内为自己和企业创造更多的价值是运维工作者需要考虑的问题,人的时间和精力都是有限的,利用更短的时间取的更高的效率就是一种成功,当成功来的太晚的时候,幸福感会荡然无存,一切的问题都是时间问题!

废话了许多,也差不多该收尾了,洗洗睡觉了!


谨以此文献给曾经的运维组成员:陈东海同学,徐鸿鹄同学,胡双峰同学,祝愿他们工作顺利,生活愉快! 

 本文转自斩月博客51CTO博客,原文链接http://blog.51cto.com/ylw6006/652403如需转载请自行联系原作者


ylw6006

相关文章
|
15天前
|
人工智能 运维 监控
智能化运维:AI在IT管理中的角色与挑战
随着科技的不断进步,人工智能(AI)已经渗透到我们生活的方方面面,其中包括IT运维领域。本文将探讨AI如何改变传统运维模式,提高效率和准确性,并分析在实施智能化运维时可能遇到的挑战。
|
15天前
|
机器学习/深度学习 人工智能 运维
智能化运维:未来IT管理的新篇章
在数字化时代的浪潮中,智能化运维(AIOps)正成为IT管理领域的革命性力量。通过整合大数据、机器学习和自动化技术,AIOps不仅提升了运维效率,还在预测性维护、异常检测等方面展现出巨大潜力。本文将探讨AIOps的核心概念、实施策略以及面临的挑战与机遇,为读者揭示这一创新实践如何重塑IT运维的未来。
25 2
|
15天前
|
运维 Prometheus 监控
自动化运维:打造高效IT基础设施的秘诀
【9月更文挑战第11天】在信息技术日新月异的今天,高效的IT基础设施是企业竞争力的关键。本文将探讨如何通过自动化运维来提升效率,减少人为错误,并保持系统的稳定性和安全性。我们将从基础概念入手,逐步深入到具体的工具和策略,最终实现运维工作的自动化。无论你是运维新手还是资深专家,这篇文章都将为你提供宝贵的见解和实用的技巧。
|
18天前
|
机器学习/深度学习 运维 监控
智能运维:未来IT管理的革新之路
在数字化浪潮汹涌的今天,智能运维成为企业提升竞争力的关键。本文将深入浅出地探索智能运维的核心概念、技术应用以及它如何重塑IT管理的未来。通过具体案例,我们将一窥智能运维如何实现故障预测、自动化处理和持续优化,最终引领企业走向高效、稳定、创新的未来。
36 2
|
22天前
|
机器学习/深度学习 人工智能 运维
智能化运维:未来IT管理的革命之路
在数字化浪潮的推动下,企业对IT系统的稳定性和效率要求日益增高。传统的运维模式已难以满足现代业务的需求,智能化运维应运而生。本文将探讨智能化运维的概念、优势以及实施策略,旨在为企业提供一条提升IT管理效能的清晰路径。
58 3
|
22天前
|
运维 负载均衡 监控
运维之光:打造高效、稳定的IT环境
在数字化浪潮中,企业对IT系统的依赖日益加深。本文将深入探讨如何通过高效的运维管理,构建一个稳定可靠的IT环境,确保业务连续性和数据安全。我们将从基础架构的优化、自动化工具的应用、团队协作与沟通的重要性,到持续学习与创新的必要性等方面进行详细阐述。无论你是初入运维领域的新手,还是希望提升现有系统性能的资深专家,这篇文章都将为你提供宝贵的见解和实用的策略。
40 1
|
24天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI技术在IT管理中的创新应用
本文将探讨如何运用人工智能技术优化IT运维流程,提升效率并减少人为错误。我们将从智能监控、自动化响应到预测性维护等方面,分析AI在现代IT运维中的角色和价值。文章旨在为读者提供一种全新的视角,理解AI技术如何成为IT部门的强大盟友,并指出实施这些技术时可能遇到的挑战及应对策略。
|
30天前
|
机器学习/深度学习 缓存 运维
智能化运维:机器学习在IT管理中的革命性应用
【8月更文挑战第28天】 随着技术的飞速发展,传统的IT运维方式已不能满足现代企业的需求。智能化运维,通过整合机器学习技术,正在重塑我们对IT基础设施的管理方法。本文将探讨智能化运维的概念、实施步骤及其带来的变革,同时分享一些成功案例,以期为读者提供一种全新的视角和思考路径。
47 6
|
13天前
|
运维 监控 数据可视化
高效运维的秘密武器:自动化工具链的构建与实践在当今数字化时代,IT系统的复杂性和规模不断增加,使得传统的手动运维方式难以应对日益增长的业务需求。因此,构建一套高效的自动化工具链成为现代运维的重要任务。本文将深入探讨如何通过自动化工具链提升IT运维效率,确保系统稳定运行,并实现快速响应和故障恢复。
随着企业IT架构的不断扩展和复杂化,传统的手动运维已无法满足业务需求。自动化工具链的构建成为解决这一问题的关键。本文介绍了自动化工具链的核心概念、常用工具及其选择依据,并通过实际案例展示了自动化工具链在提升运维效率、减少人为错误、优化资源配置等方面的显著效果。从监控系统到自动化运维平台,再到持续集成/持续部署(CI/CD)的流程,我们将一步步揭示如何成功实施自动化工具链,助力企业实现高效、稳定、可靠的IT运维管理。
|
28天前
|
运维 应用服务中间件 网络安全
自动化运维的新篇章:Ansible在现代IT架构中的应用与实践
【8月更文挑战第30天】随着信息技术的飞速发展,企业对运维效率和可靠性的要求日益增高。传统的手动运维方式已难以应对复杂多变的IT环境,自动化运维因此成为行业新宠。本文将深入探讨Ansible这一流行的自动化工具,如何通过其简洁的配置管理和强大的多节点部署能力,助力现代IT架构实现高效、可靠的运维管理。我们将从Ansible的核心概念入手,逐步解析其在配置管理、任务执行、应用部署等方面的实战应用,并结合代码示例,展示如何利用Ansible简化日常运维工作,提升运维质量和效率。无论你是运维新手还是资深专家,这篇文章都将为你提供宝贵的洞见和实操技巧。