《IT运维支持和通讯服务项目项目管理制度.docx》由会员分享,可在线阅读,更多相关《IT运维支持和通讯服务项目项目管理制度.docx(33页珍藏版)》请在第一文库网上搜索。
1、IT运维支持和通讯服务项目项目管理制度1.1 事件管理1.1.1 总则1)各项目根据事件的影响和紧急程度确定事件处理优先级别,并基于优先级别确定解决事件的目标。其中应包括: 接收请求、记录、优先级分配、分类。 一线事件解决或转移。 考虑安全事件。 事件跟踪和生命周期管理。 事件验证和关闭。 一线客户联系。 事件升级原则及方式。 事件通知规则2)事件报告方式包括电话、拜访、传真或者电子邮件,所有事件应在服务台正式记录,并可检索和分析。3)二线人员对升级的事件提供解决方案,协助一线关闭事件。4)项目应建立事件知识库,以确保项目成员可访问经常更新的知识库。知识库中包括技术专家、以前事件、相关问题、已
2、知错误、配置管理数据库(CMDBX检查清单等有助于恢复服务的各种信息。5)应制定重大事件处理流程,确保重大事件能够得到迅速解决。6)应在证实事件已经解决并且服务已经恢复的时候,事件才能最终关闭。7)制定事件升级和通知规则,确保各种事件能够得到处理和告知相关干系人。8)在事件处理过程中,应将处理过程情况及时向本项目及客户及时进行告知、请示、确认。1.1.2 事件分类事件类别说明备注故障可能会影响到用户IT生产运行或产生负面影响的的现象UPS故障:影响数据中心生产运行的UPS故障的现象空调故障:影响数据中心生产运行的空调故障的现象消防设备:影响数据中心生产运行的消防设备故障的现象电池组:影响数据中
3、心生产运行的电池组故障的现象柴油机:影响数据中心生产运行的柴油机故障的现象监控系统:影响数据中心生产运行的监控系统故障的现象通信设备:影响数据中心生产运行的通信设备故障的现象智能配电柜:影响数据中心生产运行的智能配电柜故障的现象网络故障:所有可能会影响到用户网络连接的现象软化水装置:影响数据中心生产运行的软化水装置故障的现象变压器故障:影响叫中心生产运行的变压器故障的现象门禁系统:影响数据中心生产运行的门禁系统故障的现象操作系统:影响基础应用系统的操作系统故障的现象网络与安全:影响网络与安全的故障现象服务器:影响基础应用系统的服务器硬件故障的现象软件:影响软件的故障现象桌面:影响PC终端的故障
4、现象IP电话:影响IP电话的故障姆卫星:影响卫星通讯的故障现象视频会议:影响视频会议的故障现象服务请求从服务台接收到的业务处理信息、场地设备技术支持以及办公软硬件资料供应业务支持、信息咨询、辅助配合、文档需求安全事件包括非授权访问、信息泄密、拒绝服务、病毒攻击、恶意入侵、其他入侵保密协议、外来人员管理、门禁卡申请、设备移入移出、不安全操作、拒绝服务投诉与建议,非本部门其他工作范围发生的但对客备件入库、接受投诉及建议户造成影响的故障二级事件分类请参照附件BGPITCTSM-3JNC-OO1事件分类分级说明1.1.3事件分级1.13.1影响程度分类事件优先级别的判断通常要考虑事件影响程度和事件的紧
5、急程度,S1A的等级也应纳入考虑之中。对事件的影响程度分为四个等级:1级事件,级事件,III级事件和IV级事件。事件影响程度的划分主要考虑两个维度:事件的影响面积和事件的影响深度。1. I级事件:I级事件是指导致特别重大影响或破坏的事件,包括以下情况:a)造成业务大面积瘫痪,使其丧失业务处理能力,恢复业务正常运行和消除事件负面影响所需付出的代价十分巨大;b)产生的影响会波及到一个或多个区域的大部分地区,严重损害所有或大部分客户的利益。2. II级事件:级事件是指导致重大影响或破坏的事件,包括以下情况:a)造成业务长时间中断或局部瘫痪,关键业务无法进行,使其业务处理能力受到极大影响,恢复系统正常
6、运行和消除事件负面影响所需付出的代价巨大;b)产生的影响波及到一个或多个区域的大部分地区,损害到大部分客户的利益。3. III级事件:III级事件是指导致较大影响或者破坏的事件,包括以下情况:a)使关键业务造成较大的损失,即造成业务中断,影响业务处理能力,恢复系统正常运行和消除安全事件负面影响所需付出的代价较大;b)产生的影响波及到一个或多个区域的部分地区,影响到部分客户的利益。4. IV级事件:IV级事件是指导致较小影响或者破坏的事件,包括以下情况:a)造成业务短暂中断,影响业务处理能力,恢复业务正常运行和消除事件负面影响所需付出的代价较小;b)产生的影响波及到一个区域的部分区域,影响到部分
7、或个别客户的利益。1.1.3.2紧急度分类考虑到事件的相关要素,将事件的紧急度划分为特别紧急,紧急,一般。1 .特别紧急a)时效性极强,要求在很短时间内恢复的事件;b)要求服务台响应时限为5分钟,工程师解决时限为2小时。2 .紧急a)时效性强,要求在较短的时间内恢复的事件;b)要求服务台响应时限为10分钟,工程师解决时限为6小时。3 .一般a)时效性一般,对恢复时间要求不高;要求服务台响应时限为20分钟,工程师解决时限为48小时。根据事件影响程度和紧急度事件分级如下:事件级别优先级分类影响程度紧急度服务恢复时间是否为重大事件详细定义1级非非常I级特别紧急30-60分钟是*指导致特别重大影响或破
8、坏的事件,时效性极强,要求在很短时间内恢复的事件,包括以下情况:a)如电力系统故障要求在30分钟内进行处理.b)如设备多台故障,造成全部业务中断,使其丧失业务处理能力,恢复业务正常运行和消除事件负面影响所需付出的代价十分巨大c)产生的影响会波及到一个或多个区域的大部分地区,严重损害所有或大部分客户的利益。2级高级紧急120分钟否*指导致重大影响或破坏的事件,时效性强,要求在较短的时间内恢复的事件,包括以下情况:a)如设备故障造成客户设备长时间中断或局部瘫痪,关键业务无法进行,使其业务处理能力受到极大影响,恢复系统正常运行和消除事件负面影响所需付出的代价巨大;b)产生的影响波及到Y或多个区域的大
9、部分地区,损害到大部分客户的利益。3级中In级一般180分钟否*指导致较大影响或者破坏的事件,时效性一般,对恢复时间要求不高,包括以下情况:产生的影响波及到一个或多个区域的部分地区,影响到部分客户的利益。包括机房场地等方面,如门禁系统出现故障4级低IV级一般,H1X*十T16T2:业山由号由见0UM打甲力施年狗TESJ11.5h1M4Wf1.C3WHK!in大小”Ittgi1.1.6.2二级事件处理流程二级事件上报流程统一参考如下:入实人员ixaea*fi公司怠U出(;)U.1WRWIU.1-1ft*an*U.B1WMNK_J一u.1*上AMeJfeM*STJS-1X4卜U.1_.2j.RrY
10、sM1*YmU.SHUBnf1kf11WM9M11_11.6.3三级、四级事件处理流程三、四级事件上报流程统一参考如下:117事件升级流程如果事件未能及时按照预定的时间得以解决或技术能力不足,未能满足用户要求,或者需要管理层参与,以提供更多资源,则进行事件升级。1 .按照问题的解决时间进度设置升级的时间段,如果在预定时间段,问题没有解决,需要进行事件升级。在设定预定时间段时,应考虑留有足够的时间以进行管理升级采取必要措施(如引入第三方支持2 .在事件解决过程中,由于操作失误导致更高等级事件的发生时,需要将事件及时升级。3 .因为技能或经验的缺乏,需要寻求部门二线专家支持,可以通过服务台或支持工
11、程师进行人工要求进行事件升级。部门设立统一的二线支持电话:XXXXXXXX,当一线工程师无法处理事件需要寻求部门二级专家支持时,统一通过此支持电话申请。流程如下1.21.3 周期类服务现场工程师定期去伊拉克哈法亚机房巡检,巡检机房内的网络设备(路由器、交换机、防火墙等)和服务器。具体流程如下所示:12 )现场工程师每天对伊拉克哈法亚机房进行例行巡检。填写附录2.3运维检查表。3 )如果机房巡检一切正常,填写附录2.3运维检查表,关闭事件,完成巡检。4 )如果机房巡检出现异常,由伊拉克哈法亚现场工程师判断问题或事件是否属于重大事件。如果属于一般类事件则参见操作手册对事件进行处理。伊拉克哈法亚现场
12、工程师无法解决则升级到二线工程师共同解决。5 )如果属于重大问题或事件则需要制定重大事件解决方案,并告知甲方领导方案实施的事件、地点、风险和相应的应对方案,得到甲方领导书面确认后方可实施。实施完毕后工程师提交重大故障报告单并关闭事件。1.4 问题管理1.4.1 目的主动识别、处置对IT服务造成影响的因素或潜在原因以减少对IT服务运营的影响。1.4.2 总则D各项目应制定相应问题管理制度对问题原因的预先识别、分析、管理直至关闭,以减少对业务的影响。2)项目一线人员根据日常检查、测试、事故数量和类型的趋势分析等纠正措施,识别潜在问题。所有被识别的问题都应该得到记录。3)在问题得到解决后,应将相关信息应加入问题知识库,同时应升级所有相关文件,如用户指南和系统文件。4)记录对服务或问题管理流程的改进,完善已知错误数据集形成知识库,并作为服务改进计划的输入和为知识分享提供资料。1.4.3 术语D问题:引发一个或多个事件的未知因素。问题通常具有如下特