机房应急预案.docx

上传人:lao****ou 文档编号:498930 上传时间:2023-12-24 格式:DOCX 页数:20 大小:239.22KB
下载 相关 举报
机房应急预案.docx_第1页
第1页 / 共20页
机房应急预案.docx_第2页
第2页 / 共20页
机房应急预案.docx_第3页
第3页 / 共20页
机房应急预案.docx_第4页
第4页 / 共20页
机房应急预案.docx_第5页
第5页 / 共20页
亲,该文档总共20页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《机房应急预案.docx》由会员分享,可在线阅读,更多相关《机房应急预案.docx(20页珍藏版)》请在第一文库网上搜索。

1、机房应急预案-基础设施篇1概述11目的为了提高XX机房突发事件的应急处理能力,最大程度地预防和减少突发事件及其造成的伤害,保障设备正常运行,制定本预案。本预案参照国家相关规范或者行业规范,对机房空调、电力、消防、漏水以及网络系统五种突发情况制定具体的应急工作流程。1.2应急预案存放1)电子版本本应急预案电子版存放于单位共享服务器及所有项目组成员工作电脑中。2)纸质版本本应急预案纸质文档存放于XXX机房XXX室柜子内、XXX办公区办公室。1.3编制依据本应急预案编制依据单位安全管理规定及国家部份规范编写。1.4技术资料序号资料名称存放地点获取方式1UPS使用手册XXX机房XXX室柜子内、XXX办

2、公区办公室申请批复后2配电柜使用手册XXX机房XXX室柜子内、XXX办公区办公室申请批复后3机房专用空调操作维护指南XXX机房XXX室柜子内、XXX办公区办公室申请批复后4消防使用手册XXX机房XXX室柜子内、XXX办公区办公室申请批复后5各系统培训资料XXX机房XxX室柜子内、XXX办公区办公室申请批复后2合用范围及启动条件1)地域范围:本预案合用于本单位机房及网络运行中发生故障时使用。2)人员范围:本预案在执行中涉及的人员包括机房网络、基础设施运维人员,相关主管领导及机房内各系统负责人等。3)启动条件机房、网络运行中浮现的普通性突发事件和重大突发事件。普通性突发事件:是指机房、网络突发故障

3、,将影响机房提供正常服务及网络服务的能力且估计修复时间大于30分钟,此时应即将启动应急预案,主要包括:1)市电中断和UPS故障引起的电力供应中断。2)机房空调冷凝水或者上下水管道漏水。3)机房温度超过30o4)网络故障影响用户范围超过20%,估计修复时间在2小时以内。重大突发事件:是指普通性突发事件在特定的时间内无法修复或者发生特殊事件时,严重影响机房提供正常服务及网络服务的能力,并且修复时间大于2小时,此时除了立即启动应急预案外还应升级为重大事件,其中包括但不限定于以下分类:1)机房浮现火灾。2)市电中断和UPS故障引起的电力供应中断。3)机房温度超过40o4)网络故障造成全网中断,估计修复

4、时间超过2小时。3应急组织和职责机房应急组名单如下:表1应急小组名单部门/岗位职责姓名联系方式备注单位领导重大应急决策指挥部门主任应急决策指挥应急小组组长负责评估应急事件并协调处理应急预案操作岗启动应急预案并实施4应急响应流程4.1应急事件响应1、发生突发事件时,通过电话或者当面通知应急小组组长报告情况。2、必要时第一时间启动应急预案。3、应急小组组长根据实际情况启动应急预案,参照应急恢复步骤组织协调相关人员进行应急处理。4、电话通知机房内生产业务系统管理员做相应的应急措施。5、应急小组组长根据情况判定是否需要将事件升级为重大事件。6、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告

5、,上报部门主任和单位领导。4. 2应急事件升级在应急小组组长认定突发事件升级为重大事件时,应按以下步骤操作:1、即将通知部门主任。2、通知机房内生产业务系统管理员事件升级为严重,参照应急恢复步骤做相应的应急措施。3、根据应急决策领导的决策指令处理故障。4、事件处理完毕后,应急小组组长将事件处理详细经过形成书面报告,上报部门主任和单位领导。5应急执行流程4.1 影响程度的评估表2影响程度评估表序号故障类型影响程度及范围普通性突发事件重大突发事件1市电中断和UPS故障引起的电力供应中断。影响程度大,修复时间大于30分钟,小于2小时的电力供应中断,影响范围为机房内所有设备及系统。影响程度为重大,修复

6、时间2小时以上的电力供应中断,影响范围为机房内所有设备及系统。2机房漏水影响程度普通,机房浮现小摊积水,修复时间大于30分钟,小于2小时的机房漏水,影响范围为机房内所有设备及系统。影响程度重大,机房浮现大面积漏水,或者漏水修复时间2小时以上的机房漏水,影响范围为机房内所有设备及系统。3机房温度过高影响程度大,机房温度超过30度,修复时间大于30分钟,小于2小时的,影响范围为机房内所有设备及系统。影响程度重大,机房温度超过40度,修复时间2小时以上的空调故障,影响范围为机房内所有设备及系统。4机房火灾影响程度重大,影响范围为机房内所有设备、系统及用户。5. 2宣告启动应急应急小组组长宣告启动应急

7、预案,并通知应急预案操作岗所有成员参预预案的执行。重大事件时要向部门主任、单位领导汇报。6. 3应急恢复突发事件发生后,应急组长根据不同的启动条件执行应急预案进行应急恢复。序号启动条件恢复步骤操作人员备注1市电中断见步骤6.1应急小组组长、应急预案操作人员2UPS故障见步骤6.2应急小组组长、应急预案操作人员3网络系统故障见步骤6.3应急小组组长、应急预案操作人员4机房漏水见步骤6.4应急小组组长、应急预案操作人员5空调故障见步骤6.5应急小组组长、应急预案操作人员6机房火灾见步骤6.6应急小组组长、应急预案操作人员表37. 应急恢复步骤8. 4事后处理事后子细分析事件发生的原因,查找引起事件

8、发生的根本原因,力争杜绝类似问题的再次发生;总结每次应急处理的经验与不足,及时进行总结记录,作为知识储备,进行共享;重大事件处理完毕时,要向部门主任、单位领导及时汇报整个事件的处理过程,并提出预防措施建议。5. 5应急注意事项为了在突发事件发生时,能够及时顺畅地执行预案,应保证以下几点:&平时多做应急演练,对应急小组的组织和预案执行力进行检验和加强。&熟读应急预案,责任分工明确,应急流程掌握熟练。&加强技术能力和业务能力。忆通讯保持畅通,应急小组的人员要保持24小时手机开机。&处理应急突发事件时要认真做好应急处理记录,有利于进行问题回溯。6应急恢复步骤5.1 强电系统故障6. 1.1市电中断D

9、当发生市电中断或者同时收到UPS输入、电力测量表、空调及数据库读取异常等告警短信,即将到机房检查UPS工作状态。非工作时间发生电力中断时,电话联系保安人员进入机房确认是否停电,同时联系附近的紧急联系人协助处理,并直接跳到第三步;如确认恢复电力供应时间较长,则需检查柴油发机电情况;紧急联系人姓名联系电话备注(住所)2)检查UPS的负载量及电池的后备时间:具体详情可参照UPS操作说明或者培训资料中关于UPS操作中说明进行操作。3)检查柴油发机电油箱油位、机油油位、三滤情况、冷却液液位、发机电蓄电池电压、控制系统情况及各连接部位情况。4)即将拨打物.业电话,问询断电原因及断电估计恢复时间,同时通知应

10、急小组组长。5)当发生单路供电中断时,应即将通知物业切换至另一路供电,观察UPS状态是否供电正常,等待第一路供电恢复切回。6)如物业通知无法切换电路且30分钟内无法恢复供电,应即将按照顺序通知各主要负责业务系统管理人员进行系统备份并关闭系统。同时维护项目组关闭机房内负责的所有设备。7)向部门主任及单位领导汇报当前情况。8)确认所有服务器关闭后,直接手动拉下配电室对应开关,关闭网络设备。9)当机房温度超过40度时,为确保机房内服务器安全,经单位领导许可,维护组人员按顺序直接拉下位于配电柜01后面所有机柜输出开关,关闭机房内所有设备。11)按附表五中的清单分批次对系统服务器加电,通知相关人员进行测

11、试,并要求相关人员电话回复系统测试结果。12)如UPS故障造成的电力供应中断,手动重启UPS,查看UPS故障是否解除并恢复正常。(在UPS显示屏上点击“开机”,查看UPS是否正常启动)13)如UPS故障依旧,即将通知各生产业务系统切换备份系统。14)向部门主任和单位领导汇报当前情况,并联系厂商对UPS进行检修。15)待所有系统恢复正常后,提交处理报告,上报部门主任和单位领导。6.2UPS故障6.2.1UPS电池漏液、冒烟D发生机房电池漏液、冒烟或者监控组人员发现机房电池柜冒烟,即将到机房查看电池状态。2)如发现是电池漏液、冒烟导致,应按照下列处理方法操作。并密切观察UPS工作状态。3)关闭电池

12、供电时,先将机房手提式干冰灭火器放置电池柜附近。4)打开两组电池柜,手动关闭电池开关。开关位于电池柜的下方,此时应用力向左拨动电池开关,直至开关显示“OFF”状态。5)如电池浮现火情,使用事先准备的手提式干冰灭火器进行灭火。6)确认无火情后,查看UPS状态,供电情况,即将联系厂商工程师进行检修。注意:关闭电池开关不会影响机房的正常供电。7)向部门主任做口头汇报,电话上报单位领导。8)事件处理完毕后,将事故处理报告,单位领导。6.2.1电池火情无法控制导致机房火灾1)处理电池漏液、冒烟过程中,无法使用手提灭火器控制火情。2)打开电池柜,手动关闭电池开关。3)即将按照机房火灾处理步骤进行操作。4)

13、火灾处理完毕后,消除火灾报警,恢复市电,查看UPS运行状态,如无法恢复市电,即将通知物业切换备用电路,观察UPS状态是否正常供电。5)即将联系UPS厂商进行处理并向部门主任做口头汇报,电话上报单位领导。6)统计火灾造成损失,提交相关更换UPS电池的申请。7)事件处理完毕后,将事故处理报告,上报部门主任和单位领导。6. 6.2.3UPS故障处理流程7. 3网络系统故障局部楼层网络中断1 .如果是局部楼层断网,首先判断是否是交换机故障;2 .远程PING交换机管理地址(各楼层管理地址详见附表1)看是否可以正常PING通3 .如果可以PING通,证明交换机本身没有故障,网线没有故障。交由网络管理员处

14、理。4 .如果不能PING通,说明交换机主线断或者交换机宕机,应去弱机电房找到该楼层交换机上联端口和电源灯状态是否正常,如果上联端口不亮(光纤口),证明主线有问题,更换主线测试。5 .如果看到交换机电源灯不亮,证明交换机掉电,检查电源和电源线。6 .如果以上通过检查交换机和路线后故障现象仍然存在,由此判断可能交换机存在异常,按交换机故障进行处理。交换机故障1 .当确认是交换机浮现故障时,应首先从库房中找备用交换机进行更换;2 .若原有故障交换机有配置,应即将联系网络管理员对更换的交换机进行配置(网管应有所有交换机的配置备份)3 .配置完成后,测试是否正常;全网中断1首先测试网络的连通性,查看是

15、否可以PING通网关地址,如果可以PING通说明从PC到核心交换机之间的链路正常,如P1NG不通应检查接入交换机是否有故障、是否掉电或者交换机主线是否不通;如果确实不通,按照局部楼层网络中断中的第4条、第5条处理。4 .通过访问邮件、外网网站,判断是局域网问题还是广域网问题,如果局域网正常;无法访问互联网说明广域网中断,向运营商进行报修。5 .PING核心交换机到核心路由器的互联IP地址的连通性,如果可以PING通,说明路由器以下网络连通性正常;6 .用tracert命令tracert办公网网段的任意地址如果tracert结果可以从出去,但不能到达外部网络,说明有可能是核心路由器上联链路中断,向运营商进行报修。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 工作总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服