《云平台运维方案.docx》由会员分享,可在线阅读,更多相关《云平台运维方案.docx(45页珍藏版)》请在第一文库网上搜索。
1、云平台运维方案1 运维目标及对象42 运维工作内容43 工单及故障处理流程63.1. 工单处理臃63.2. 故障处理流程7第六章运维服务方案建议书81.1 运维支持人员81.1.1 驻场运维.81.1.2 二线运维.91.2 日常工作内容91.2.1 云平台运维.91.2.2 服务器存储运维.101.2.3 网络管理运维.111.2.4 桌面运维.111.2.5 .121.2.6 错误!未定义书签。1.2.7 错误!未定义书签。1.2.8 121.3 服务流程131.3.1 运维流程.131.3.1.1 事件管理131.3.1.2 变更管理171.3.1.3 配置管理241.3.2 运维服务电
2、话.291.3.3 管理流程接口及分工界面.291.3.4 双方工作职责.311.4 节假日运维保障321.5 服务承诺331.6 工作规范与考核331.7 提交文档361.8 项目验收385.应急处置预案401.9应急预案40431,应急方窠制定更新与演练.432、紧急故障应急预案制定及处理服务规范443、应急演练.451运维目标及对象云平台的运维工作以保障云平台的稳定性、各个云产品的可用性以及基础软件的可用性为目标,具体运维的产品列表如下:产品名称产品描述ECS弹性计算服务RDS关系型数据库服务OSS开放存储服务S1B负载均衡服务OTS开放结构化数据服务ODPS开放数据处理服务ADS分析数
3、据库服务BASE数据管理服务ERMS云产品管理控制台2运维工作内容云平台运维工作内容包括:D资源管理对云平台的物理资源及产品库存资源进行管理。随时掌握产品资源情况,为客户的各种资源需求提供参考和建议,如库存水位超限需及时发出预警。2)产品技术支持用户在云产品的开通、使用过程中相关问题的咨询、解答、解决。3)告警处理及监控优化及时发现和处理云平台的告警,对现有的监控项不断进行改进和优化。4)日常巡检对云平台进行巡检,掌握各类运行情况,提前发现隐患并跟进解决,避免引发故障。5)故障处理故障的发现、响应、到场排查、初步判定及解决。不能解决的情况,及时联系二线支持,在二线支持的指导下现场解决。故障后,
4、对问题进行review、总结和改进。6)问题收集及跟进云平台的全方位问题收集、反馈、并跟进解决,推进专有云产品的不断完善。3工单及故障处理流程3.1.工单处理流程流程关键节点说明工作内容简述主要关键节点说明:问题提交:用户有任何问题,通过工单平台以工单的形式提单到GOC。工单流转:用户在阿里官网通过工单系统提交工单会直接到GoC-监控中心团队。(注:GOC只处理阿里云平台和产品相关故障,不涉及应用层问题。)视问题需要,GoC将协调现场支持,现场支持人员可在4小时内到达现场。交付物工单处理记录3.2.故障处理流程眦&同步放潼信息故障处理流程如下:龙根依羽U09葡-Hs故漳瞬天关键点说明如下:流程
5、关键节点说明工作内容故障主要关键节点说明:故障来源有2类:监控发现和用户反馈故障需要确认。计划中的变更引起的异常,用户使用造成的问题等不判定为故障。报障信息:客户报障需要描述准确故障现象、业务影响、页面UR1、IP地址、问题发生时间、报错前操作截图和报错截图、Ping和tracert截图等,可引导客户提交工单来提供故障信息。(详情见故障信息提交模板)确认故障后5分钟内发送故障通告。如果故障处理超过2小时,故障支持每2小时更新进展。故障中如需现场支持,GOC将协调人员在4小时内到达现场。故障后将对问题进行跟踪,包括:问题原因、问题跟进责任人、改进措施、预计解决时间点、验收标准等。交付物故障通告、
6、故障报告4运维服务方案建议书1.1 运维支持人员运维支持包括驻场运维及二线运维,驻场运维可以通过电话/工单联系二线运维。1.1.1 驻场运维驻场运维人员的工作内容包括各类日常巡检、问题处理、监控优化等以保障平台稳定性及高效运行。同时,驻场运维工程师将视具体需求承担一定的场内运维工程师的技术咨询和培训。的驻场运维人员:付金龙,电话:185002100511.1.2二线运维对于云平台的二线运维,提供大客户技术经理、技术支持。的客户技术经理:电话。技术支持提供7*24服务,负责日常工单转派和紧急事务的协调。技术支持的后端支持团队包括平台运维、大数据运维、网络运维、数据库运维、技术支持。问题受理渠道工
7、单入口问题受理的官方正式渠道,任何I问题均需由场内运维服务提供人员提交工单。热线电话热线电话为故障的紧急申报渠道,以及问题处理过程中的辅助沟通渠道。紧急故障驻场运维服务提供人员电话申报后需立即补提工单。紧急问题处理过程,二线运维与驻场运维电话沟通。1.2 日常工作内容1.1.3 云平台运维驻场运维人员需要定时对云平台进行巡检工作,以保证专有云运行的安全性和稳定性,及时发现故障和问题,在第一时间进行处理,减少故障带来的损失、维修费用、人员成本和消耗,并提高云平台运行的经济性和完好率,掌握资源的使用情况,包括水位和性能,保证足量资源投入运行,保证投资效果云平台巡检工作内容请参见-附件21110项目
8、云平台巡检手册项目具体工作内容备注1.健备份、迁移类1、数据库、文件备份与恢复;2、应用程序备份与恢复;3、多台服务器间的数据库同步;4、应用程序迁移,包括配置、权限、站点文件、附件等迁移;5、数据库、文件迁移6、数据迁移;2.技术运维类1、系统、网站异常排查,日志维护、审计;2、系统账户维护、异常账户检直;3、系统各类服务、端口开启与关闭;4、系统、站点漏洞排查、漏洞修复、病毒及木马清理、防火墙策略、安全加固及调优;5、各类应用软件安装配置、参数配置、版本升级;6、磁盘分区、加载及清理空间;7、数据库配置、重装、升级,报错联调;8、实时监控系统运行状态检查,联调;9、系统、网络、数据库、站点
9、运行状况巡检,出具巡检报告;10、系统资源、应用程序、进程优化;11、木马、黑客攻击防范;12、系统、应用程序高可用配置;13、应用故障、报错排查;14、网站负载排查、网站配置文件修复、网站代码调试;15、站点故障排查(针对网站无法打开,访问慢等情况)3.环境安装&网站搭建类1、系统基础环境搭建(16、asp、.net、ApachexnginxsMySQ1、FTP等软件安装及参数调整)2、伪静态组件安装及调试;3、云平台安全环境配置;4、云平台状态监测;5、多机负载均衡配置;1.1.4 服务器存储运维项目具体工作内容备注PC服务器和操作系统维护1 .巡检频率:每周一次2 .检查CPU使用情况、
10、内存使用情况、磁盘状况、操作系统日志。3 .每周进行系统分析并提交报告;SAN网络维护1巡检频率:每周一次2 .检查系统配置情况、整理标签和线缆3 .每周进行系统分析并提交报告;备份系统1 .巡检频率:每周一次2 .检查备份作业、验证备份有效性、备份介质异地存放。3 .每周进行系统分析并提交报告;存储设备维护1巡检频率:每周一次2 .检查硬件状态灯、检查系统配置情况、检查系统日志3 .每周进行系统分析并提交报告;机房巡检1巡检频率:每周一次2 .检查机房环境温湿度、配电设备运行情况、空调运行状况等。3 .每周进行系统分析并提交报告;配合应用系统调整配置(大)1 .根据应用系统要求调整服务器、存
11、储配置;2 .较为复杂的,如排直故障。3 .按每套系统每年一次调整计算厂商进入机房,需陪站配合应用系统调整配置(小)1 .根据应用系统要求调整服务器、存储配置。2 .较为简单的,如更新程序。3 .按每套系统每半年一次调整计算厂商进入机房,需陪站1.1.5网络管理运维项目具体工作内容网络技术支持网络诊断解决,按每台设备每年发生1次网络故障计算网络链路物理问题修复维修内外网网点的故障,按每个物理点位每5年发生一次故障计算网络设备配置信息备份对网络设备的配置信息进行备份,以备设备故障时恢复。固定每半年1次,更改后立即备份。核心网络设备巡检核心设备状态检查,网络设备路由状态查看每周1次接入设备巡检网络
12、设备巡查1个月一次(包括内网和外网)内网机房巡检内网机房巡检每周一次。1.1.6桌面运维项目具体工作内容备注服务台1 .接听热线电话。2 .记录事件,尝试电话解决,一线解决率不低于50%3 .监督现场工程师工作,将事件处理结果反馈给用户。4 .每周分析报告,对于高频事件,升级为问题,交由二线解决。服务台是运维工作的总调度现场技术却(大)1、现场技术支持,按5年1次频率计算。2、复杂的,原因未知的故障,如软件冲突、硬件损坏更换。厂商现场维修需陪站,存储介质免回收3、包括PC机、打印机、读卡器等各种硬件设备和操作系统。现场技术支持(中)1、现场技术支持,按2年1次频率计算。2、较为复杂的,如重装系
13、统、重装软件、不能按照常规方法排错的。3、打印机故障,如卡纸、配件损坏。4、包括PC机、打印机、读卡器等各种硬件设备和操作系统。现场技术支持(小)1、现场技术支持,按1年2次频率计算2、较为简单的,如程序使用问题、简单硬件故障、软件调试配置等。3、包括PC机、打印机、读卡器等各种硬件设备和操作系统。客户端设备巡检1 .巡检频率:每季度一次2 .检查客户端工作是否正常、清理灰尘、整理线缆3 .检有会统配置和参数是否与文档一致。客户端配置调整1、根据应用系统需求或网络需求更改客户U而配置2、更改配置时应符合安全规定。3、按每年一次计算参与组织用户培训1 .参与组织新用户信息系统培训2 .会场准备、
14、设备调试、人员通知、人员考核3 .每季度一次,每次2场日常行政事务1 .设备发放、管理2 .传送公文、领用办公用品3 .其他办公室行政事务1.3服务流程1.1.7运维流程1.1.7.1事件管理事件管理的目标是尽快恢复客户正常的IT服务,将业务操作受到的负面影响降为最低,同时根据服务级别指标确保尽可能高的服务质量和可用性,最大程度上减小事件对客户业务的影响。运维工程师在日常工作中将及时响应设备的突发故障和其他服务请求,进行处理、协调、升级和记录等工作。以赢得用户高满意度,达到期望的服务质量。1.1.7.1.1 故障分类业务故障:由于信息系统硬件设备不能正常运行、应用软件错误、系统接口故障、人为差错等原因,造成信息系统相关功能无法正常使用。设备故障:信息系统的主备用设备由于各种原因不能正常运行,对业务正常的运行造成隐患,但尚未影响相关功能的正常使用。在业务故障和设备故障同时出现的情况下,定义为业务故障。1.1.7.1.2 事件管理流程目标准确记录所有事件并进行分类;以最快的速度帮助用户解决故障或进行故障升级,力求使故障对用户的影响最