《服务水平管理和服务水平协议(SLA).docx》由会员分享,可在线阅读,更多相关《服务水平管理和服务水平协议(SLA).docx(40页珍藏版)》请在第一文库网上搜索。
1、服务水平管理和服务水平协议(S1A)本文描述面向高可用性网络的服务水平管理与服务水平协议(S1A).它包含服务水平管理的成功因素与帮您评估成功与否的性能指标。本文以一个国际性的网络全面描述遵从高可用性业务工作组确定的最佳方案指导原则的S1A0服务水平管理概述网络公司一直以来都通过构建坚实的网络基础设施及主动处理每个业务问题来满足不断扩展的网络要求。当业务特殊中断时,公司将构建新流程、管理功能或者基础设施来防止此类故障再次发生。然而,由于快速变更及日益增长的可用性要求,我们现在需要改进模式来预先防止意外故障并快速修复网络。许多服务供应商与企业一直都试图更好地定义服务水平以便实现商业目标。关键成功
2、因素S1A的关键成功因素用来定义支持成功构建可获得的服务水平及保护S1A的要紧要素。要成为合格的关键成功因素,流程或者流程步骤务必能够改进S1A质量并从整体上提高网络的可用性。关键成功因素还应具备可测量性,以便使企业能够推断:与定义的程序相比,它所取得的成功程度。性能指标性能指标提供了公司测量关键成功因素的机制。您通常需要每月审查一次,以确保服务水平定义或者S1A运行良好。网络运行小组及必要的工具组可实施下列测量标准。注意:关于没有S1A的公司,我们建议您同时实施服务水平定义、服务水平审核及测量标准。性能指标包含: 记录的服务水平定义或者S1A,包含可用性、性能、主动业务应答时间、排障目标及问
3、题升级等。 月度网络服务水平审核会议,审核对服务水平的执行情况并实施改进。 性能指标测量标准,包含可用性、性能、按优先级划分的业务应答时间、按优先级划分的排障时间与其他可测量的S1A参数。服务水平管理流程面向服务水平管理的高级别流程要紧包含两组:1 .定义网络服务水平2 .创建并保护S1A实施服务水平管理实施服务水平管理包含十六步,分为下列两个要紧范畴: 定义网络服务水平一步骤1-6 创建并保护S1A一步骤7-16定义网络服务水平网络管理人员需要定义支持、管理并测量网络的要紧规则。服务水平为所有网络人员提供目标并可用作整体业务质量的测量标准。您也可将服务水平定义用作网络资源预算工具与投资于更高
4、服务质量的证据。它们还提供评估供应商及运营商的表现的方法。假如没有服务水平定义与测量,公司不可能制定明确的目标.服务是否满意由用户决定,在应用、服务器/客户机运行或者网络支持方面并无明显差距。由于企业对最终结果没有把握,因此很难作预算。最终,网络公司在提高网络及支持模式方面都趋向于选择被动应答,而非主动预防的方式。我们建议采取卜.列步骤来构建并支持服务水平模式: 分析技术目标及限制因素。 确定可用性预算。 创建全面记录关键应用网络特征的应用资料库。 定义可用性、性能衡量标准及通用术语。 创建服务水平定义,包含可用性、性能、业务应答时间、排障平均时、故障检测、升级门限及上报途径。 收集测量标准并
5、监控服务水平定义。第1步:分析技术目标及限制因素开始分析技术目标与限制因素的最佳方式是集体讨论或者研究技术目标与要求。由于这些人都有特定的业务目标,因此有的时候这有助于要求其他IT技术人员参与讨论。技术目标包含可用性级别、吞吐量、抖动、延迟、应答时间、可用性要求、新特性的推出、新应用的推出、安全性、可管理性及成本等。随后,公司应研究限制因素,以便使用可用资源实现这些目标。您可为每个目标创建带有对限制因素解释的工作表。最初看似大多数目标都无法实现。随后划分目标的优先级或者降低对仍可满足商业要求的目标的期望值。比如,您制定的可用性级别可能是99.999%,或者每年5分钟的故障停机时间。实现这一目标
6、存在大量限制因素,如硬件的单点故障、远程位置中的故障硬件的平均修更时间(MnR)、运营商可靠性、预先故障检测、高变更率及当前网络容量限制等。因此,您需要将这个目标调节到更加易于实现的级别。下个章节中介绍的可用性模式可帮您制定现实的目标。您可能也考虑在限制因素相对较少的网络领域提供可用性。当网络公司公布业务的可用性标准时,公司中的各业务部门可能发现无法同意这个级别的可用性。这自然而然引发对S1A的讨论,或者为可满足商业要求的模式进行投资/做预算。确定所有限制因素或者风险的工作包含要实现技术目标。根据实现理想目标的最大风险或者影响方面划分限制因素的优先级。这可帮助公司确定网络改进计划的优先顺序,并
7、确定解决限制因素的难易程度。限制因素分三类: 网络技术、故障恢复能力与配置 生命周期方案,包含:规划、设计、实施与运行 当前的话务负载或者应用行为网络技术、故障恢复能力及配置限制因素是指与当前技术、硬件、链路、设计或者配置有关的任何限制因素或者风险。技术限制因素指技术本身造成的任何限制。比如,当前没有一种技术同意冗余网络环境中实现少于1秒的聚合时间,而这恰恰是维持整个网络上的话音连接的关键。另一个例子是数据通过地面链路时的原始速度,大约是IOO英里/亳秒。网络硬件故障恢复能力风险调查应集中在硬件拓扑、分级体系、模块化、冗余、MTBF及定义的路径这几方面。网络链路限制因素应强调企业网络链路及运行
8、商连接。链路限制因索可能包含链路冗余与多样性、媒介限制、布线基础设施、本地环路连接性与长距离连接性。设计限制因素与网络的物理或者逻辑设计有关,包含从为设备可用空间到路由协议实施的可扩展性等各个方面。您应在配置、可用性、可扩展性、性能及容量方面考虑所有协议与媒介设计。动态主机配置协议(DHCP),域名系统(DNS)、防火墙、协议转换及网络地址转换等网络业务限制因素也应列入考虑之列。生命周期方案定义用于实现解决方案的统一部署、检测与修复故障、防止容量或者性能问题与配置一致性与模块化的网络流程与管理.您需要认真考虑这个领域,由于专业技术与流程通常是导致不可用性的最大影响因素。网络生命周期指规划、设计
9、、实施与运行周期。在每个阶段中,您都务必熟悉性能管理、配置管理、故障管理及安全性等网络管理功能。思科NSA高可用性服务部(HAS)提供网络生命周期评估服务,确定与网络生命周期方案有关的当前网络可用性限制因素。当前的话务量或者应用限制因素只是指当前话务与应用的影响。不幸的是,许多应用都带有大量需要慎重管理的限制因素。当前应用的抖动、延迟、吞吐量及带宽要求通常带有许多限制因素。编写应用的方式也可能产生一些限制因素。汇编应用资料库可帮您更好地熟悉这些问题;下文将介绍这一特性。研究当前的可用性、话务、容量及性能还可帮助网络管理人员熟悉当前的服务水平目标及风险。这一工作常通过名为网络基准制定的流程来完成
10、,该流程可帮您定义规定时段内(通常是一个月)的平均网络性能、可用性或者容量。这些信息通常用于容量规划与趋势分析,但也可用来熟悉服务水平问题。下面的工作表使用了上述目标/限制因素方法来实现防止安全性攻击或者拒绝服务攻击(DoS)的目标。您也可使用该工作表来决定可最大限度地减少安全性攻击的业务范围。风险或者限制因素限制因素类型潜在影响可用的DOS检测工具无法检测出全部DoS攻击类型。技术/故障恢复能力高不具备对告警做出相应所需的人员与流程。生命周期方案高当前网络接入策略未加执行。生命周期方案通常假如利用带宽拥塞来发动攻击,则当前的低带宽互联网连H网络容量接成为限制因素。通常帮助防止攻击的当前安全性
11、配置不完善。技术/故障恢复能力通常第2步:确定可用性预算可用性预算是期望在定义的两点间出现的、理论上的网络可用性。准确的理论信息可在多个方面发挥作用: 公司可将其视为内部可用性目标,同时能够立刻定义偏离并进行补救。 网络规划人员可使用这些信息来确定系统的可用性,以确保设计满足商业要求。造成不可用性或者故障停机的因素包含软硬件故障、电源与环境问题、链路或者运营商故障、网络设计、人为错误或者缺乏流程等。在评估网络的整体可用性预算时,您务必严格评估上述的所有参数。假如公司目前正在测量可用性,则可能不需要可用性预算。用可用性测量标准作为基准来评估服务水平定义使用的当前服务水平。然而,您可将二者进行对比
12、,以便熟悉潜在的理论可用性与实际测量结果间的差距。可用性指产品或者业务在需要时投入运行的可能性。参见下列定义:a.可用性,1-(总的连接中断时间)/(总服务连接时间)-1-总与(业务中断期间受影响的连接数量X业务中断时间)/(运行的连接数量X运行时间)b.不可用性1-由下列因素造成的可用性或者总的连接中断时间:软硬件故障、电源与环境问题、链路与运营商故障、网络设计、用户错误及流程故障等。c.硬件可用性首先需要研究的领域是潜在硬件故障及其对不可用性的影响。要确定这方面的影响,公司应熟悉所有网络组件的MTBF与MTTR,以确定两点间的路径中所有设备的潜在硬件问题。假如网络使用模块化与分级体系结构,
13、则几乎任意两点间的硬件可用性都是相同的。MTBF信息可用于所有思科组件,同时可根据请求、向本地客户经理提供。CiSCONSAHAS项目还使用一种工具来帮助确定硬件可用性及网络路径,即使在系统中存在模块冗余、机底冗余及路径冗余时也能够使用这种工具。硬件可靠性的一个要紧因素是MnR。公司应评估它们修登故障硬件的速度。假如公司未制定备用方案,只依靠于标准CiSCoSMARTnet?协议,则潜在的评估硬件更换时间为24小时。在带有核心冗余但不带有接入。冗余的典型1AN环境中,适当的可用性是99.99%,平均修复时间是4-小时。d.软件可用性下一个需要研究的领域是软件故障。出于测量的目的,思科将软件故障
14、定义为由软件错误引发的设备冷启动。思科已经开发出许多流程来帮助熟悉软件的可用性;然而,更新的版本尚需一段时间进行测量,同时我们认为它的可用性不及通常的部署软件。IOS11.2版(18)等通常部署软件经测量,证明具备99.9999%的可用性。这个数字是基于修复时间为六分钟(路由重视新装载的时间)的思科路由器的实际冷启动次数来计算的。使用不一致版本的公司,可用性将随着复杂性的增加、互操作性的增强与排障时间的缩短略有降低。使用最新软件版本的公司,不可用性将有所提高。不可用性的分配也相当广泛,这意味着客户将感受到很高的不可用性或者接近通常部署版本的可用性。e.环境与电源的可用性您还务必考虑环境与电源的
15、可用性问题。环境问题,将设备保持在特定的运行温度范围内的冷却系统的故障有关。当温度大大超过技术指标时,许多思科设备只是停止运转,而不可能损害所有硬件。出于可用性预算的目的,您务必将电源考虑在内,由于它是造成本领域中不可用性的要紧原因。尽管电源故障是造成网络不可用性的重要原因,但对它的讨论还是受到限制,这是由于无法进行准确的、理论上的电源分析。企业务必基于所在地区的经验、电源备份功能与实施的流程,对其设备的电源可用性的大约测量结果进行评估,以确保为所有设备提供具备一致质量的电源。基于保守的估计,我们能够认为配备了备用发电机、不间断供电电源(UPS)系统并使用合格电源实施流程的企业,可实现高达六个
16、九(99.9999%)的可用性,而未配备这些系统的企业,其可用性仅为99.99%,或者者说每年有36分钟的故障停机时间。当然,您可根据公司的观察或者实际数据来调整这些数值,使其更真实地反映企业的具体情况,f.链路或者运营商故障链路与运营商故障是影响WAN环境中的可用性的要紧因素。切记:WAN环境只是同企业网络遭遇同样可用性问题的其他网络,包含:软硬件故障、用户错误及电源故障等。许多运营商网络都已经开始对系统进行可用性预算,但获得这些信息并不容易。切记,运营商的可用性保证级别很少基于或者根本不基于实际可用性预算。这些保证级别有的时候只是用来提高运营商知名度的营销与销售方法。在某些情况下,这些网络还公布看似相