《QC成果材料-缩短IT网络系统故障的定位时间.docx》由会员分享,可在线阅读,更多相关《QC成果材料-缩短IT网络系统故障的定位时间.docx(26页珍藏版)》请在第一文库网上搜索。
1、2015年度凯达QC小组活动成果缩短IT网络系统故障的定位时间发布部门:信息技术中心小组名称:凯达QC小组小组类型:现场型发布人:李树峰发布时间:2016年1月一、小组简介3二、选择课题3三、现状调查41、网络系统故障介绍42、现状调查5四、设定目标71、目标设定72、目标设定依据7五、原因分析7六、要因确认81、要因确认一:工程师欠缺网络知识92、要因确认二:采用了非主流厂商的交换机93、要因确认三:交换机运行参数不在正常范围104、要因确认四:人工排查方法不科学115、要因确认五:端口排除法不科学126、要因确认六:没有对交换机端口有效监控127、要因确认七:没有进行通信流量分析138、要
2、因确认八:网络技术架构不成熟149、要因确认九:网络综合布线不标准14七、制定对策151、对策实施一152、对策实施二16九、效果检查171、目标完成情况172、经济效益193、无形效益191、制定工作文档192、继续推广新的工作方法203、巩固期间核心交换机运行状态统计20卜一、总结打算20发生日期影响范围严重程度发生时间解决时间处理时间2015年1月26日华运大厦将近500名员工无法正常上网。高13:1117:454. 5小时2015年1月27日华运大厦近500名员工无法收发邮件。高14:5017:45约3小时2015年1月30日公司0A系统、IP电话系统无法正常运行。高15:1018:0
3、0约3小时制表人:李树峰 制表日期:2015. 6. 15(3)用户要求:网络系统故障发生时,影响了整个公司内部员工的正常办公,对关键业务运行也有较大影响,例如员工无法正常收发邮件、IP网络电话无法正常使用等。员工对此反应强烈,要求IT网络系统尽快回复正常运行。三、现状调查1、网络系统故障介绍网络系统故障是指由于硬件的问题、软件的漏洞、病毒的侵入等引起网络无法提供正常服务或降低服务质量的状态。网络系统故障会引起严重后果:如园区网网络瘫痪,重要业务系统如IP电话系统/0A系统/邮件系统无法正常运行。集团各个下属单位的网络系统拓扑结构为:集团各个下属单位的网络系统拓扑示意图特大规模二级单位具有服务
4、整群汇聚层接入层二级单位我颦得绘曲*位桌面用户臬面用户桌面用户由上图可知,集团内部单位的网络系统由集团广域网一核心层一汇聚层一接入层构成。我们处理网络系统故障的一般流程为:处理流程图2、现状调查本小组对2015年14月份网络系统故障进行统计:2015年14月份网络系统故障耗时统计表发生日期网络系统故障原因故障定位耗时平均耗时1月29日网络环路107分钟193分钟2月7日异常数据流量240分钟3月18日异常数据流量300分钟4月10日ARP攻击125分钟制表人:李树峰 制图日期:2015. 6. 13将定位网络故障时的各个步骤的耗费时间分析如下:各个步骤的耗费时间统计表1月29日2月7日3月18
5、日4月10日排查步骤故障点耗费时间耗费时间耗费时间耗费时间平均耗时步骤一广域网10分钟20分钟20分钟10分钟15分钟步骤二边界路由器10分钟10分钟10分钟10分钟10分钟步骤三核心交换机12分钟30分钟30分钟30分钟25. 5分钟步骤四接入交换机15分钟。分钟0分钟30分钟11.25分钟步骤五接入交换机端口60分钟180分钟240分钟30分钟127. 5分钟步骤六用户终端电脑0分钟0分钟0分钟15分钟3. 55分钟制表人:李树峰 制图日期:2015.6.13根据2015年14月网络系统故障统计,我们将各个故障点的耗时百分比统计如下:网络系统故障点统计表序号故障点平均耗时百分率累计百分比1
6、接入交换机端口127. 5分钟66. 06%66. 06%2核心交换机25. 5分钟13.21%79. 27%3广域网15分钟7. 77%87. 04%4接入交换机11.25分钟5. 82%92. 84%5边界路由器10分钟5. 18%98. 02%6用户终端电脑3. 55分钟1.98%100. 00%制表人:李树峰 制图日期:2015. 6. 15根据百分比统计表做出排列图:网络系统故障点耗时统计排列图制图人:李树峰 制图日期:2015.6.16由上图可知,在排查IT网络系统故障时,时间主要耗费在了定位接入交换机端口上(占总耗时66.06%),只要能将定位接入交换机端口的时间缩短,就能大大提
7、高排查网络系统故障的工作效率。四、设定目标1、目标设定经过小组成员评估和测算,我们将目标值设为:将IT网络系统故障的定位时间由活动前的193分钟,缩短至100分钟。QC活动目标柱状图制图人:李树峰 制图日期:2015. 6. 162、目标设定依据(1)历史最短定位时间为1月份的107分钟,小组有能力达到这个水平;(2)时间主要浪费在了定位接入交换机端口上,通过QC小组改进工作方法,可将此时间缩短3/4;(3)经测算,活动后的目标值为:定位时间=故障点1平均耗时“故障点2平均耗时+故障点5(定位接入交换机端口)平均耗时*3/4+故障点6平均耗时=97分钟五、原因分析主要症结是时间都浪费在了 “定
8、位接入交换机端口”上,小组通过“人机法环” 4各方面全面分析原因,做出如下系统树图。原因分析系统树图网络知识欠缺“定位接入交换机端II”时间长用L 网络设备采用/非上流厂商交换机交换机运行参数不再正常范惘内人匚排直法不科学端口排除法不科学没有对交换机端口有效监控没有对通信流址分析网络技术架构不成熟机房环境网络综合布线不标准制图人:李树峰 制图日期:2015. 6. 16通过树状图,小组找到了 9个末端原因。六、要因确认小组采用现场验证试验等方法,针对8个末端因素进行了逐一确认,并制定了要因确认表。要因确认表序号末端原因确认内容确认标准确认人确认时间1工程师欠缺网络知识检查工程师能力工程师能胜任
9、网络维护工作李小芬6月10日2接入交换机不是主流厂商交换机统计交换机型号应该采用主流厂商交换机李小芬6月15日3交换机运行参数不在正常范围查看交换机是否稳定运行交换机cpu占用率30%内存使用率W 70%李树峰6月15日4人工排查方法不科学测试人工排查的时间人工排查时间+定位接入交换机端口时间W50%李树峰6月16日5端口排除法不科学测试端口排除法的时间端口排除法时间+定位接入交换机端口时间W50%李小芬6月16日6没有对交换机端口有效监控做实验:安装监控软件对定位交换机端口的影响监控告警时间+定位接入交换机端口时间W50%王大众6月18日7没有对通信流量分析做实验:对通信流量进行分析通信流量
10、分析时间+定位接入交换机端口时间W50%李树峰7月10日8网络技术架构不成熟调查当前采用的网络技术架构企业网络架构标准:采用了成熟且业界主流的二层和三层网络技术。李树峰8月25日9网络综合布线不标准,难以排查查看机房环境符合国家标准。李小芬9月1日制表人:李树峰 制表日期:2015. 6. 201、要因确认一:工程师欠缺网络知识工程师简历表姓名学历工作年限职称资质认证项目经验李树峰本科10年工程师Cisco CCNACisco CCNP(1)姆河公司网络改造项目(2)克洲石油公司网络改造项目(3)委DC技术支持项目(4)东司网络系统运维项目制表人:李树峰制表时间:2015. 9. 1由上表可知
11、,工程师工作年限长,项目经验丰富,并取得了中级网络认证。因此,可以胜任网络运维工作。2、要因确认二:采用了非主流厂商的交换机凯达接入交换机通常采用48 口交换机,排查一台48个接口的交换机用时一般在10分钟以内,目前采用的都是主流厂商交换机。交换机品牌统计交换机品牌端口数量中兴48 口思科48 口H3C48 口华为48 口制表人:李树峰制表时间:2015. 9. 1结论:采用了主流厂商的交换机,采用了非主流厂商的交换机属于非要因。3、要因确认三:交换机运行参数不在正常范围工程师查看交换机的运行情况,发现交换机的CPU使用率都在30%以内、内存占用率都在5096以内。交换机CPU和内存使用率截图
12、PanelCPU(5s) CPU(lm) CPU(5m) Phywem BufferMP(M) I(14%)14%14%2560%CL 1L,LJunitlbusy status:(23% )nlast5seconds1125tzInlast1minuteIS% TnIn”Snrinufe,Unit 1System Available Memory(bytes): 32605056system used Memory(bytes): 15895200used Rate: 48%.locesses:PU utilization for five secondst 7%/0M one minute
13、: 7%; five minutes: 7%PID Runtime (ms)invoked5Sec iMin 5Min TTY Process10900.00%0.00% 0.00%0 Chunk Manager229622008415300.00%0.00% 0.00%0 Load Meter交换机CPI:和内存使用率都在正常范围内。我们随机抽查了几台接入交换机的运行状况,以下为统计表。交换机CPU/内存随机抽查表交换机品牌CPU使用率标准内存使用率标准中兴15%30%41.626%70%华三14%30%48%70%思科10%30%31%70%华为18%30%66%70%制表人:李树峰 制表时间:2015.9. 1结论:交换机运行参数不在正常范围是非要因。4、要因确认四:人工排查方法不科学人工排查方法是:当某个办公区的某个员工的网口出现网络环路时,会引起机房交换机A出现广播风暴,进而影响到交换机A下联所有48个交换机端口的运行。这时需要人工去所有48个员工的网口搜查。例如:当办公区