数据中心网络运维一指禅,大型数据中心运维管理

数据中心网络运维一指禅

数据中心网络如何高效运维?这个问题经常困扰着数据中心的运维技术人员,运维技术人员疲于处理各种网络故障、变更、检查等事物,没有时间学习新技术,网络运维技术人员的工作往往做得非常辛苦,经常加班加点处理,然而问题似乎越是解决反而越多,陷于一个恶性循环,运维的人员不停地加班,问题不断出现,不断被解决,似乎永远都有处理不完的事情。实际上,网络运维也是一门学问,已经演化成为一门技术学科。有些人整天忙于处理这样那样的问题,但是数据中心网络依然问题不断,而有的人似乎整天也没有很多事情,数据中心业务有条不紊地进行着,而两个数据中心的设备组成几乎一样,这显然就是运维的问题。并不是整天加班处理各种网络问题的运维技术人员就值得表扬,要深入考虑下其运维的效率是否出了问题,怎么会有这样无穷尽的问题,一点得不到收敛,所以高效运维的技术关注效果而不是过程,过程再辛苦没有好的结果也是徒劳,高效的运维就是用最少的工作量换取最佳的网络稳定运行,本文将谈谈如何进行网络运维。

关于网络运维的书籍也不少,有的从技术方面阐述,给出各种常用网络设备的使用方法、维护技巧;而有的则侧重从管理方面入手,强调对人、对设备的管理,通过完善的管理制度达到提升运维效率的目的。本文将根据这两个方面,并结合多年亲身的网络运维经验,给出一些网络运维的思路,篇幅有限,本文不对具体技能做讲述,而是提供一种运维的思想,希望可以对数据中心网络运维技术人员的工作起到画龙点睛的作用。首先,在做数据中心网络运维前要做大量的准备工作。不管是新手还是老手,都需要对数据中心的网络构成、业务走向、设备互连关系等了如指掌,这些数据要熟记于心。平时多看多记,将这些数据通过表格整理好,便于随时查找,对于任何一次网络变更都要做记录,并及时更新这些数据,确保这些数据是准确的。常用的网络操作命令要反复记忆,不同设备的命令千差万别,无任何规律可言,没有太好的办法,只能死记硬背。如果遇到了突发故障,或者领导要求紧急变更一下网络,这时还需要去查找各种网络资料,对应用配置不熟练,这不是很好的运维技术人员。这一点说白了就是需要运维技术人员要能吃苦,要耐心,对数据中心网络环境相当熟悉。我们知道领兵打仗就要对地形非常熟悉,网络运维也是如此,要对整个数据中心网络环境非常熟悉,将整张网络都印到了脑海里,否则掌握再好的网络技术也无的放失;其次,网络技术是一个大染缸,仅网络协议就有数百种,再加上不同网络设备实现上的差异,一个人要掌握全部协议根本不可能。所以网络运维技术人员一定要懂得抓“重点”,纵然有很多网络协议,但是因为要适应各种各样的场景,在一个特定的数据中心里一般只要两三种网络协议就够了,所以只要将自己数据中心需要的网络技术吃透、玩精通足矣。比如早期的数据中心网络基本靠OSPF、BGP、VRRP、LACP几大网络协议运转,掌握这几种协议就可以吃遍天下的数据中心。如今,数据中心技术也在不断发展,VXLAN、TRILL、虚拟化等技术都涌现出来,掌握了这些新技术依然可以让数据中心充满活力,所以数据中心网络技术人员一定要以自己的数据中心为基础,吃透自己数据中心所用到的各种网络协议技术,不管哪种协议出了问题,都能按照自己的理解去排查问题,有一套应对的措施,而不是乱做一团,不知所措;第三,数据中心与网络设备商关系非常重要,数据中心运维技术人员对网络技术再精通,也无法了解到网络设备内部的实现,很多时候都需要设备商来分析问题,给出答案,所以要善于与网络设备商打交道。作为甲方,运维技术人员有权力向网络设备商获取关于设备内部各种功能实现、配置手册、操作手册等资料,有了设备和资料,一定要认真学习,有疑问的地方及时向设备商人员咨询。当然设备商也会考虑自己的利益,服务也是要占用成本支出的,为了能获得更好的服务,数据中心也应该适当地购买一些服务,比如设备巡检服务、维保服务、原厂工程师驻地服务等,购买这些服务的好处就是可以得到及时的技术交流。在出现一些重大网络问题时,可以得到设备原厂工程师的积极响应,并帮助数据中心迅速恢复业务;最后,数据中心网络不是静止的,一成不变的,网络技术也在不断地更新与发展。现在的网络设备和电脑一样,过不了三年就面临着淘汰,所以数据中心要想不断进步,就需要掌握新技术,学习新知识。作为网络技术人员,要有全球化的视野,掌握世界最新数据中心网络技术动态,每一个数据中心都有着自己这样那样的问题,很多问题都要未来的新技术来解决。为了提升数据中心的竞争力,引入新的网络技术是一个重要手段,所以网络技术人员应该多出去走走,向周围优秀的数据中心学习,与数据中心运维技术人员进行多交流,虽然可能不是同一个数据中心的,但时常也会面临相同的问题。现在每年都有数据中心论坛、数据中心各种技术研讨会、数据中心联盟等各种会议,经常参加这样的会议,可以扩大自己的视野,也可以在这里找到解决自己数据中心问题的方案。总之,数据中心运维技术人员要多看、多学。

数据中心网络运维一指禅,对如何进行高效运维给了几点思路,这里并没有详细地去告诉您具体维护的知识,只是给了学习的方向。不过有了正确的方向是最为关键的,因为一旦走错了方向,那之后再努力也是徒劳的。

数据中心网络如何高效运维?这个问题经常困扰着数据中心的运维技术人员,运维技术人员疲于处理各种网络故障…

如何安装配置Collectd和Collectd-Web监控服务器资源?(1)

Collectd-web是一款基于RRDtool(轮循数据库工具)的Web前端监控工具,它能够解读并以图形化方式输出由Linux系统上的Collectd服务收集的数据。

Collectd服务在默认情况下随带一大批可用插件,这些插件接入其默认的配置文件;一旦你安装了软件包,其中一些插件在默认情况下已经被激活。

Collectd-web CGI脚本可解读并生成图形化的html页面统计信息,用Apache
CGI网关即可执行,Apache Web服务器端只需要极少的配置。

然而,附有所生成统计信息的图形化Web界面也可以由Python
CGIHTTPServer脚本提供的独立式Web服务器来执行,该脚本随主Git软件库预先安装。

本教程将介绍Collectd服务和Collectd-web界面在基于RHEL/CentOS/Fedora和Ubuntu/Debian的系统上的安装过程,只需要进行极少的配置,就可以运行服务,并启用Collectd服务插件。

第1步:安装Collectd服务

1.
基本上来说,Collectd守护程序的任务就是在它所运行的系统上收集并存储数据统计信息。Collectd程序包可以从默认的基于Debian的发行版软件库下载和安装,只要执行下面这个命令:

在Ubuntu/Debian上:

# apt-get install collectd [On Debian based Systems]

图片 1

将Collectd安装到Debian/Ubuntu上

在RHEL/CentOS 6.x/5.x上:

在基于红帽的较旧系统(比如CentOS/Fedora)上,你先需要启用系统下的epel软件库,然后你才能从epel软件库安装collectd程序包。

# yum install collectd

在RHEL/CentOS 7.x上:

在最新版本的RHEL/CentOS
7.x上,你可以从默认的yum软件库安装和启用epel软件库,如下所示。

# yum install epel-release
# yum install collectd

图片 2

将Collectd安装到CentOS/RHEL/Fedora上

注意:对Fedora用户而言,不需要启用任何第三方软件库,只要运行yum命令,即可从默认的yum软件库获得collectd程序包。

  1. 一旦程序包安装到了你的系统上,运行下面这个命令,以便启动服务。

    # service collectd start  [On Debian based Systems]
    # service collectd start [On RHEL/CentOS 6.x/5.x Systems]
    # systemctl start collectd.service [On RHEL/CentOS 7.x Systems]


图片 3


)
Collectd-web是一款基于RRDtool(轮循数据库工具)的Web前端监控工具,它能够解读并以图形化方…

大型数据中心运维管理“智”关重要

从这些数据中可以看出,如何保障数据中心IT基础设施运维管理的可靠和安全,已经成为数据中心运营管理者最为关注也是最棘手的问题。在看来,高品质的数据中心运维管理“智”关重要。

复杂多变的市场环境,快速发展的业务,促使数据中心管理者对IT运维管理提出更高需求,传统的“重建设,轻管理”的IT思维禁锢着数据中心IT系统的价值发挥和潜力发掘。

在后信息时代,管理服务的价值愈发凸显,激发着数据中心管理者对于如何提升管理质量和效率的思考和探索。

宁波是国内最早提出建设智慧城市并启动实施的城市之一。近年来,宁波依托发达的临港产业、制造业基地和外向型经济等优势,为智慧城市建设提供了广阔的发展空间。A数据中心是宁波市规模较大的数据中心,总建筑面积超过8000平方米,拥有逾1000台机柜,参照五星级机房标准进行建设。该数据中心承担着华东地区多个行业多家重量级企业的IT系统入驻、应用和管理维护。

对于如此规模的数据中心,需要一套完整、规范、切合需求的运维管理体系和一支具备丰富运维管理经验和极强的运维管理能力的运维管理团队协助其实现高效运维管理。

整合先进的数据中心运维管理经验和技术,将IT运维管理流程与A数据中心的需求和发展进行科学匹配,建立了一套完善的运维服务管理体系,按照ITSS科学的方法论实现“人员、流程、技术、资源”四大要素的整合,将规划、运维及管理以规范化的IT运维管理方式贯穿整个运维管理过程,制定了专业而全面的维护流程、制度、预案以确保优质的服务水平。

运用科学的管理思路,为该用户解决IT基础设施的管理难题。为保证电源无间断故障产生,采用部署两路市电常供、柴油发电备用的安全方案,双管齐下保证电源环境常年无间断。通过对各种应用系统采用“事前监控预警、事后及时响应”的备战策略,一方面通过先进的监控预警平台,防患于未然,大大降低故障产生率;另一方面对已发生的故障快速响应,积极“灭火”,最大程度地降低了故障损失。

在服务团队及A数据中心管理团队的通力配合下,该数据中心建立了完善的IT系统维护流程、规范的操作制度、详尽的应急预案,并定期进行多种类别的应急演练,保障业务开通和故障处理及时率达99%以上,电源供电可用率99.99%。通过建立安全运维机制,实现7×24电信级集中监控以及7×24小时现场维护值守,对数据中心的网络、动力、环境、消防等系统进行集中监控和预警,现场值守人员进行日常巡检和维护作业,并进行现场处置。其中,现场维护按专业分为IT维护组和动力维护组,并设置动力支持、网络支持、客户服务经理、资源管理和质量分析等支持岗位。相应岗位人员具备专业资格和多年维护工作经验。

数据中心运维管理工作是一项长期的、具有累积效应的工作。以稳健、可靠的服务在历次考核中获得优秀成绩。而随着该数据中心的用户进一步增加、IT设备更加复杂多样,的运维服务管理能力也将面临更高的考验。


图片 4


从这些数据中可以看出,如何保障数据中心IT基础设施运维管理的可靠和安全,已经成为数据中心运营…

发表评论

电子邮件地址不会被公开。 必填项已用*标注