具备哪些素质的人才能成为运维人员？

运维管理是需要人去做的，如何才能管理好一个数据中心，才能充分发挥数据中心的作用，使之能更好地为云计算提供强大的支持能力运维人员应具备什么样的素质才能做到这一点呢？一般说需具备以下三个方面的条件（1）深厚的理论基础。

运维管理知识来源于学习和不断地研究，比如看书和培训有了这样的理论基础也就减少了对问题分析的盲目性否则碰到问题就不知所措，无从下手如图1是某数据中心供配电结构原理图图中，两台120kVAUPS并联后送到两个配电柜，每个配电柜各有35个16A的微型断路器。

一天夜里1#配电柜突然有八个输出断路器跳闸后来检查结果是一个IT电源输入短路，两个IT电源输入保险丝烧断这就提出了如下的问题： ①为什么三个电源故障导致八个断路器跳闸？ ②为什么一个电源短路导致八个断路器跳闸？

③为什么跳闸都发生在1#配电柜，而2#配电柜没有任何反应？以上的几个问题如何解释？这里面包含了理论、经验和对电路与器件的了解又如，某化工单位在定期为240kVAUPS电池放电时，由于负载太小，只好将电池组取下来用假负载放电。

放电后又将电池组接回原处，合闸后机器突然爆炸起火专家检查后，发现电池的极性连接正确，但所有逆变器功率器件和整流器后面的所有电解电容器统统烧毁！于是专家作出了是“机器质量问题”的结论结果代理商赔了一台新机器。

是机器本身的质量问题吗？为什么电池放电前机器一直运行正常，而放电后就起火爆炸呢？就算是质量问题也不会在同一时间所有这些器件都达到报废的程度！这又如何解释？如此等等，如果不站在理论的高度上去分析，单凭经验和直观视觉就一头雾水，就不能做出公允的判断。

“机器质量问题”的结论肯定是错的，错在哪里？错在不懂UPS的结构原理又如，某机关数据中心购置了4台200kVAUPS做 2（1+1）连接，如图2所示机器安装后在考机期间，为了检测在市电转换时的输出不间断功能，就在转换开关ZB1由市电1向市电2切换瞬间，分路断路器ZB2和ZB3跳闸，两路并联UPS1和UPS2各坏了1台，检查发现都是可控硅整流器烧毁和控制电路板受损。

按道理说由市电1切到市电2是一个很普通的操作，即是UPS最普通的功能之一，为什么会出现如此情况？而且修好后不到一年又一次市电停电时，UPS转为电池供电模式，待市电恢复后UPS的输入电压就不能投入了，一直是逆变器供电。

为什么？为了工作再不受影响，用户只好将其淘汰!为什么会这样？调查得知，该机器是打着进口品牌的国产品，而且该生产者是一个国内不知名的小厂在用户购置该UPS的时候，国内知名的几家UPS制造商也刚刚达到生产该容量的水平，且大都是仿制。

不用说这一家也是仿制问题是为什么的仿制就会出现如此多的问题呢？技术分析留待后面，这里只分析产品和知名厂家的不同，其不同就是仿制技术水平的差别（这可从UPS故障后两个月才修复看出技术水平不佳）、生产平台的差别（机内布线和控制电路板外观粗燥）、元器件等级的差别（更换故障部件不是一次成功）、检测手段的差别（出厂产品做市电切换是常规手段，这次故障说明产品出厂时连最常规的实验都没做）等。

由于用户缺乏这方面的知识，没有向厂家提出采取相应的应对措施，才会很快又出现第二次故障（2）丰富的实践经验理论来自学习，但必须和实践经验相结合一般说经验多数来自教训，所谓失败是成功之母就是这个道理这里所说的经验是经过反复实践证明的，是经得住考验的。

往往好多所谓经验并不是真正的经验而是经历比如不少人认为零地电压干扰负载，并能举出一些实际例子加以证明比如举例者说：一次，机器系统工作异常，经查找发现零地电压大于1V，于是就将电源的零线和地线短接，结果异常消除了。

当问及是否又将零地短接线断开时，其回答是：“既然工作正常了还断开做什么？”首先这个经验是不完全，只做了一半一个完整的经验应该是：零线和地线短接后异常消除，接着再将零地短接线断开，如果此时系统工作又出现异常，就说明是零地电压干扰系统；如果将零地短接线断开后系统仍正常工作，就不能说明零地电压干扰系统。

这里的误区是当事者听信了传说‘零地电压干扰负载’的影响，在他的心目中已有这个印象，这次的经历正好迎合了这种心理，所以就错误地认为这就是经验大都有这样的经历：显像管老式电视机，看的时间长了就会出现影像突然消失，一般的做法是拍打几下电视机外壳，大都是影像出现了。

有了这一次的经验，以后只要影像没有了就去拍打外壳可说是有了多次‘经验’难道就可以说这个电视机所以经常出现黑屏就是因为‘欠打’吗？很明显这是误解总有一天将电视机拍打的彻底黑屏为止，或烧掉（3）很强的责任心

这一点尤为重要，技术好并不代表责任心强比如某金融数据中心一位技术很好的运维工程师，开始的确是严格按照机房守则每两小时抄一次UPS显示屏上的数据，几个月下来显示屏上的数据总也不变，他都背熟了从此机房就再也不去了，按照记忆每两小时填一次表。

突然一天半夜机房内市电故障停电，UPS转为电池模式继续为机房IT系统供电，这位工程师早晨上班后仍按习惯没有去机房巡视，就直接将记忆中的数据填入表中，几小时后由于电池的储能枯竭致使UPS输出停电，机房设备全部停止运行。

可惜的是后备发电机控制屏的开机旋钮指在“手动”位置上，本来可以避免的故障就这样出现了，给单位造成了严重损失再者，责任心强如果制度定得不合适也会导致故障如在前面“深厚的理论基础”中提到的例子，这位工程师责任心是很强，做到了定时为电池放电保养，但由于制度定的不细，使得只有一个人的情况下单独操作，结果由于误操作而导致故障。

在对待高压（不论是直流还是交流）情况下应该是两人在场，一个人操作一个人‘监督’结束语数据中心作为信息与信息系统的物理载体，目前主要用于与IT相关的主机、网络、存储等设备和资源的存放、管理只有运维管理好一个数据中心，才能发挥数据中心的作用，使之能更好地为云计算提供强大的支持能力。

通过有效实施云计算数据中心运维管理，降低人员工作量的同时提高运维人员工作效率，保障业务人员的工作效率，提高业务系统运行状况，进而的提高企业整体管理效益，同时提高客户满意度，实现云计算数据中心的价值最大化。

具备哪些素质的人才能成为运维人员？

作者: 3182235786a

发表回复取消回复

作者: 3182235786a

初级程序员应该了解的Linux命令

运维跟开发一定有仇吗？

为您推荐

linux文件命令

linux的命令

linux 命令

linux命令tar

linux压缩命令

发表回复 取消回复

发表回复取消回复