自动化运维管理解决方案--白皮书.docx

上传人:lao****ou 文档编号:672112 上传时间:2024-03-30 格式:DOCX 页数:16 大小:35.84KB
下载 相关 举报
自动化运维管理解决方案--白皮书.docx_第1页
第1页 / 共16页
自动化运维管理解决方案--白皮书.docx_第2页
第2页 / 共16页
自动化运维管理解决方案--白皮书.docx_第3页
第3页 / 共16页
自动化运维管理解决方案--白皮书.docx_第4页
第4页 / 共16页
自动化运维管理解决方案--白皮书.docx_第5页
第5页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《自动化运维管理解决方案--白皮书.docx》由会员分享,可在线阅读,更多相关《自动化运维管理解决方案--白皮书.docx(16页珍藏版)》请在第一文库网上搜索。

1、自动化运维管理解决方案目录自动化运维管S决方案11 IT运维管理面临挑战42 应运而生的自动化解决方案53 自动化应用场景63.1 灾备切换自动化63.2 故障现场快照73.3 批量设备操作处理83.4 周期性作业调度93.5 应急处理流程103.6 重要配置备份、基线比对11运维脚本集中管理可视化流程配置引擎.作业流程人工干预作业执行验证/持续监控作业操作手册自动生成.作业执行结果展现.配置备份/基线库管理166运行环境.2应运而生的自动化解决方案53自动化应用场景63。2故障现场快照73.3 批量设备操作处理83.4 周期性作业调度93。5应急处理流程103.6 重要配置备份、基线比对11

2、4产品简介124。1运维脚本集中管理134。2可视化流程配置引擎134.3 作业流程人工干预134。4作业执行验证;持续监控144.5 作业操作手册自动生成144。7配置备份/基线库管理155产品优势15境166运行Irr运维管理面临挑战随着企业IT服务多样化发展JT应用的规模也越来越庞大、IT应用的结构也越来越复杂。随着不断变化的IT应用,需要越来越合理的模式,来保障IT服务能灵活便捷、安全稳定地持续保障,这种模式的保障因素就是IT运维管理。据国外某咨询机构2013年调研结果显示,在IT费用中大约有1/2用于系统运营期的渗隹T作。即使当前企业在IT运维管理方面投入大量时间及费用,但是在IT运

3、维管理方面仍存在诸多问题。主要表现为:A运维管理效率低、人工成本高: 经验未沉淀为实际运维工作,经验利用率、推广率低; 分散于各服务器上的运维脚本,存在管理风险,且耗费大量管理成本; 日常操作消耗大量人力资源,误操作风险较大,操作执行效率低;A操作过程可控度低,运维风险大: 操作与执行方案匹配度无法保证,实际操作过程可控度较低; 日常操作对人员水平要求高,人力资源风险大;A运维操作透明度低: 实际操作不便于监督,存在“黑盒操作风险; 日常工作与实际操作无法有效关联,不利于日后审计;2应运而生的自动化解决方案面对IT运维管理中的诸多问题,单靠人工已经无法满足在技术、业务等方面的要求,那么标准化、

4、自动化、架构优化、过程优化等降低IT服务成本的因素越来越被人们所重视。其中,IT运维自动化是指将IT运维中日常的、大量的重复性工作自动化才巴过去的手工执行转为自动化操作。自动化是IT运维工作的升华JT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。IT运维自动化从诞生发展至今,其重要属性之一已经不仅仅只是代替人工操作,更重要的是深层探知和全局分析,关注的是在当前条件下如何实现性能与服务最优化,同时保障投资收益最大化。自动化对IT运维的影响,已经不仅仅是人与设备之间的关系,已经发展到了面向客户服务驱动IT运维决策的层面。融海咨询借鉴IT运维自动化

5、发展趋势,结合多年IT服务经验中对用户需求的把控,自行研发自动化解决方案。自动化方案概述:通过自动化手段,实现IT运维管理操作的自动化调度、一键式”处理;通过异常处理的支持,对操作的结果进行验证,并持续监控作业执行结果;通过时间约束条件,对按照时间计划执行的运维作业进行管理;通过复杂的关系运算条件,处理复杂的作业流程的关系;通过UserTasks人工接口,方便运维人员对作业调度流程的参与;通过图形化的工作流定制平台,实现对业务活动进行整体规划;通过与其它平台的集成,实现了与报警、监控等运维系统的一体化管理。从而实现功能强大、简单易用、安全可靠的作业调度自动化。通过自动化解决方案,推动了企业IT

6、运维管理操作的指令化、标准化、流程化进程。自动化建设目标:3自动化应用场景3.1 灾备切换自动化随着IT设备数量持续增加,IT系统日益复杂,依靠手动方式进行系统灾备切换的传统模式遇到了一定瓶颈,主要表现:操作效率低:RTO(RecoveryTimeObjeCtive,复原时间目标)无法保证;A操作风险大:系统复杂度日益增高,操作复杂度也随之增强,操作失误的几率也随之增高;A过分依赖个人水平:在尽短的时间内完成整个切换流程,对操作员本人的技能水平、操作规程熟悉程度、环境熟悉程度有着非常高的要求。A操作过程不透明:灾备切换有相应的操作规程,但是切换过程中,每个环节执行状态、当前执行环节情况只有操作

7、员本人了解,旁人无从知晓。通过对灾备切换流程进行标准化配置,实现灾备切换管理的配置可视化、执行可视化、过程可视化、规程可视化。配置可视化:提供类似Visio配置方式,每个操作环节配置成为一个节点,然后通过拖拽、连线的方式配置整个切换流程,避免了代码编写工作,降低了系统使用门槛,增加了系统易用性;A执行可视化:提供图形界面方式,灾备切换流程无需通过繁琐命令行方式执行,管理员仅需在图形界面中选择相应流程并点击执行即可,执行前还可以在界面进行多人确认;A过程可视化:提供操作流程视图,所有人员在流程图中可以清晰了解灾备切换整体流程情况、当前执行环节,以及每个节点执行状态,为保证不同使用习惯,执行过程提

8、供流程视图、树状视图两种展现形态;下规程可视化:提供自动生成操作规程文档功能,管理员配置完某自动化流程时,系统能够自动生成该流程的操作规程文档,系统使用人员可以根据文档清晰了解到本自动化流程完整信息。3.2 故障现场快照传统IT监控系统在故障发生时能及时告警,但是运维人员、厂商、开发商仅仅获得一条告警信息,无法从监控平台获取更多的信息完成故障分析及预防。通过监控/监控集成、作业调度双重技术手段,在故障发生时,对故障现场的本机环境、跨服务器/跨设备环境进行全方位捕捉,对故障现场进行最大程度的保留,协助管理员、厂商、开发商进行事故后的详细分析,并设定相应预案。通过故障现场快照,可以完成:1故障现场

9、全方位场景获取,获取内容可以根据不同角色需求灵活定制;2、故障发生时系统自行完成场景捕获、保存,并将其分发给不同的角色进行联合会诊;3、根据预案内,通过定制化纳入到中,实现故障发生前的预警,并且提供及时处理,避免故障再次发生。33批量设备操作处理随着IT规模不断扩大,IT设备数量不断增多,原有简单的运维操作,也随之成倍增长,即增加了运维工作量,又使重复性操作过程中,由于人员注意力降低导致的操作失误次数成倍增长.例如:对设备批量程序更新、批量巡检等、批量密码修改等大批量、重复性操作。提供批量作业并行处理平台,实现多设备同时批处理操作.通过自动化流程把,将简单的操作在大批量设备上操作,并对作业执行

10、过程进行监控对执行结果进行检查。通过部署批量设备操作流程:1、批量设备并发执行,缩短批量操作执行时间,提高执行效率,并且提高系统升级一致性;2、减少批量操作过程中,由于实施过程中因操作人员操作疲劳、注意力降低导致的误操作,从而减少人工失误导致的生产系统故障;3、提高IT运维自动化水平,减少人工投入,降低运营成本;3.4 周期性作业调度随着IT应用系统不断上线,运维中周期性、重复性操作逐渐增多。此类操作即占用了运维人员大量日常工作时间,又存在人工误操作的风险.并且对于复杂作业流程,还需要运维人员有较高的技术水平及较高的系统熟练度,由此增加了因人员、岗位变动导致的而操作意外发生几率。例如:可以对每

11、日巡检、日终批量操作、事务数据收集、月结批处理、年结批处理等作业执行的自动化.提供统一应用运行操控平台,实现跨平台、跨作业段、跨设备的作业协同调度操作.平台将周期性、重复性批处理作业,以及庞大复杂的作业流程,固化为自动化作业流程,通过时间调度引擎,按照既定时间规则,在指定时间点进行调度。从而实现作业的周期性自动化调度,运维人员仅需查看相应的作业执行过程、执行成功与否、执行结果报告(截图、操作命令输出结果等操作结果信息)。通过自动化流程把成百上千的批处理作业组织起来,规范跑批作业,对作业执行过程进行监控对执行结果进行检查。通过周期性作业调度自动化:1、降低了关键岗位的技能要求:过去,必须由全面掌

12、握各业务系统的运维专家完成各类批处理作业的操作和判断;现在,普通运维人员即可使用自动化工具完成。2、消除故障隐患、保证作业效率:一方面,对关键数据的完整性、合规性进行校验;另一方面,在发生异常时快速定位故障数据源,以便排查。3、降低日常运维工作中人员的时间投入、精力投入,从而将运维人员解放出来,投入到更重要的IT运维工作中。3.5 应急处理流程IT系统发生严重故障发生时,时间就是金钱。一方面,如何缩短管理员接收通知到故障处理时间;另一方面,如何缩短故障处理过程花费的时间,并提高故障处理成功率,显得极其重要。例如:文件系统满,导致新的日志无法写入;数据库归档日志空间满;数据库表空间满,数据无法写

13、入;生产系统故障,需要紧急切换备份系统等.自动化处理与监控告警集成,第一时间发现,调用预定义的故障应急处理流程;故障处理后,系统会调用检查流程,对故障恢复情况进行检查。全部操作完毕后,系统会将故障发生现场镜像、故障处理结果、处理完毕检查确认结果,一并发送给管理员,由管理员确认整个流程执行无误。通过应急处理流程:1、极大缩短了从故障发生到故障响应的间隔,为系统恢复赢得了宝贵的时间,从而极大的减少了系统故障所产生的影响;2、管理员在应急故障处理过程中肩负着极大的压力,精神高度紧张,可能会产生处理流程J顺序颠倒或者忘记某一环节等现象,并且存在压力下导致操作失误的可能,由自动化平台应急处理,一方面提高

14、了故障处理过程中的操作效率,一方面提高了故障处理的成功率.3、系统自动将故障发生的现场镜像、故障处理过程、结果以及故障恢复后的检查结果,以报告形式保存下来,为今后审查、统计提供了依据。3.6 重要配置备份、基线比对IT系统中配置文件非常重要,因为误操作导致配置文件被删除、内容被修改,经常会导致非常严重的后果。日常运维工作中,管理员需要花费大量的时间,对系统中包括操作系统、数据库、中间件、应用系统及其他软件的重要配置文件进行周期性备份,并且配置文件被误修改、恶意篡改时,不容易被发现,只有当产生严重后果才会被人们注意。重要文件例如:Orade的initSID0ora,Iistenerora文件,s

15、q1netoora文件,tnsnames.ora文件,操作系统etcpasswd文件,以及Web1ogics应用系统等配置文件。通过基线保护模块,帮助企业建立信息系统的安全基线,并持续监控关键文件和系统的完整性和一致性。平台定期对企业中各层面、各级别配置文件进行周期性备份,并以此建立文件基线.平台会定期对系统中配置文件修改日期、大小、内容等进行扫描,并将扫描结果与基线版本进行比对,当发现两者不一致时,及时通知管理员进行审查,并在极端情况以基线版本为准则,对现有环境进行备份、更新。通过文件基线管理功能:1、系统自动对重要配置进行备份,极大减轻了管理员日常工作压力,并且减少了备份过程中的遗漏情况发生;2、系统通过自动扫描、对比,发现配置异常,改变原来配置文件修改不易发现的缺点;3、系统自动恢复被篡改的配置文件,从而完全避免了因配置文件修改导致的重大故障;4、保证两地三中心主备系统的配置信息一致性。4产品简介4.1 运维脚本集中管理日常运维工作中,管理员积累了丰富的运维知识,并将部分整理为运维脚本,方便日常运维管理工作。提供运维脚本集中管理功能,将日常大量零散的运维脚本集中管理、统一下发.既实现了日常运维脚本的集中存储、统一版本控制,也实现了自动下发、批

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 工作总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服