IBMAIX日常维护及故障处理汇总IBM小型机日常维护.docx

上传人:lao****ou 文档编号:501870 上传时间:2023-12-25 格式:DOCX 页数:12 大小:39.75KB
下载 相关 举报
IBMAIX日常维护及故障处理汇总IBM小型机日常维护.docx_第1页
第1页 / 共12页
IBMAIX日常维护及故障处理汇总IBM小型机日常维护.docx_第2页
第2页 / 共12页
IBMAIX日常维护及故障处理汇总IBM小型机日常维护.docx_第3页
第3页 / 共12页
IBMAIX日常维护及故障处理汇总IBM小型机日常维护.docx_第4页
第4页 / 共12页
IBMAIX日常维护及故障处理汇总IBM小型机日常维护.docx_第5页
第5页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《IBMAIX日常维护及故障处理汇总IBM小型机日常维护.docx》由会员分享,可在线阅读,更多相关《IBMAIX日常维护及故障处理汇总IBM小型机日常维护.docx(12页珍藏版)》请在第一文库网上搜索。

1、IBMAIX日常维护及故障处理汇总】IBM小型机日常维护!第一类、机房环境及物理检查一、机房内环境要求1 .温度与湿度:最佳工作温度:20-25摄氏度极限工作温度:10-40摄氏度湿度:8-80%(在23摄氏度条件下)如果不是工作在最佳温度,请注意改善机房环境2 .同时机房要保证清洁.机房应保持清洁,若空气灰尘过多,很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。二、电源要求电压:要求电压稳定,尖峰电压会损坏设备电压范围:220V+-10%,即200-240V,50-60Hz电源功率:视机器类型和系统配置而定电源线:标准的零,地,火三相电,其中零,地电压不得超过3.0V电源接驳:用符合电流

2、要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS,并建议配备发电机组;对于冗于电源的接入,建议采用两路单独输入.三、硬件检查1检杏服务器磁阵的安装、电源线、7133和主机接线符合要求。服务器状态检查:1 .当服务器处于启动和正常工作状态时,其前面板上的液晶显示屏上应无信息显示。2 .当液晶显示器上出现带数字和字母的信息时,说明有硬件告警。可以通过查询相关机型的SerViCeGUide查到相应告警原因,情况严重的,则要立即通知旧M技术专家进行问题排查。7133状态检查:磁阵前面板上有7133机柜的状态灯(与电源灯并排)和各硬盘的状态灯(一排小灯,与各硬盘位

3、置一一对应)。1 .当机柜的状态灯出现橙黄色时,说明有硬件告警,此时要检查磁柜的电源、接线、硬盘等。如果有硬件故障则立即进行更换和更正,如果查不出具体问题,则需要联系相关专家进一步诊断。2 .当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿也,如无读写,则绿灯一直亮,如该硬盘有读写操作,则绿灯会不规则闪烁,当硬盘损坏时或SSA环路出现问题时,则硬盘状态灯将熄灭,或者呈闪烁状态:以13秒的频率有规律地、不停地闪烁第二类、系统日常维护流程2.1 系统启动系统启动正常顺序如F:首先对外设(磁盘阵列、磁带库等)加电。待所有外设加电自检完成后,主机加电正常起机。主机加电后,系统进行自检,在液晶显示屏显示ok

4、”后,才能按白色POWER键起机.启动主机HACMP,启动后可用命令tai1-ftmphacmp.out来检查启动情况,在HACMP未完全启动前不要进行下一步。检查服务器的网络地址,路由表(可用netstat-i,netstat-rn等),检查文件系统,逻辑卷(可用mount,Isvg-0等)。检查各项应用是否工作正常。2.2 系统关闭停止HACMP(smittyc1stop)o查看HACMP的状态,检查服务器的网络地址,路由表(可用netstat-i,netstat-m等),检查文件系统,逻辑卷(可用mount,Isvg-o等)。在HACMP未完全停止前不要进行下一步。关闭主机(ShUtdO

5、Wn-F)。重启系统nJ以使用:shutdown-Fr如有必要的话,按磁盘阵列前方的白色按钮关闭磁盘阵列。2.3 查看系统的错误记录在系统运行时,一些系统错误会记录在err1og中,其中有些错误还会在终端上显示。检查错误日志可用以下命令:#errpt|more查看系统所有的记录IDENTIFIERTIMESTAMPTCRESOURCE_NAMEDESCRIPTIONE85C5C4C0426104399PSCFG1FTSOFTWAREPROGRAMERROR2BFA76F60426104099TSSYSPROCSYSTEMSHUTDOWNBYUSER9D4CF6E70426104399TOerr

6、demonERROR1OGGINGTURNEDON1E2AC07E0426103999TOerrdemonERROR1OGGINGTURNEDOFI1E5EER4T0423132999TOC1strmgrOPERATORNOTIFICATION其中IDENTIFIER为错误编号,当需要检态详细信息时常会用到。TIMESTAMP为时间标签,它记录的是出错时间,其格式:月月日日时时分分年年T为Type,它记录的是错误类型P:为永久错误,需引起注意T:为临时错误。C为CIaSS,它记录的是错误种类,如H:HardwareS:Software0:Err1ogercommandmessagesU:und

7、eterminedRESOURCE_NAME为错误来源DESCRIPTION为错误描述#errpt-aj查看系统详细记录内容其中IDENT1F1ER为错误编号,如#errpt-aj0426104399#errpt-dH查看系统所有的硬件出错记录2.4 系统与数据备粉有效及时的系统备份是系统萱理的非常重要的一环。当系统出现故障时,特别是文件系统被严重损坏或硬盘损坏时,常需要使用系统备份来恢复系统。在以下情况下应做系统备份:1、新装机。在硬件及系统班安装完成后,应做系统备份。2、软件改动。系统软件或应用软件有改动时,应做系统备份。3、定期备份。对系统进行定期备份,最好每两或三个月做一次备份备份注意

8、事项:进行系统备份无须停止业务,业务可以继续进行。建议客户进行定期的系统备份(使用命令SmittymkSySb)。客户也可根据需要利用SM1T对系统的特定的VG或FS进行备份。smittymksysb只备份rootvg中mount起来的文件系统,其它文件系统或数据并没有做备份,所以数据备份需要另外完成(建议客户使用TAR格式)在条件允许的情况卜.,最好有一盘以上备份带,以防止磁带损坏。系统备份过程中有时候会提示有些tmp目录下的文件无法备份,显示如卜丁Creating1istoffi1estobackup.Backingp34025fi1es1694of34025fi1es(4%)2733of

9、34025fi1es(8%)backup:0511-449Anerroroccurredaccessing./tmpsh34736.1:Afi1eordirectoryinthepathnamedoesnotexist.backup:0511-449Anerroroccurredaccessing.Ztmpsh34736.2:Afi1eordirectoryinthepathnamedoesnotexist.backup:0511-449Anerroroccurredaccessing.Ztmpsh34736.3:Afi1eordirectoryinthepathnamedoesnotexis

10、t.15458Of34025fi1es(45%)31920of34025fi1es(93%)0512-003mksysbmaynothavebeenab1etoarchivesomefi1es.Themessagesdisp1ayedontheStandardErrorcontainedadditiona1information.这是正常现象,备份成功。2.5 系统恢复当系统发生比较严重的故障以致采取一般性维护手段不能在短期内恢梵原系统,在与客户进行蹉商后,可将最近一次的系统备份带倒回机器内以全面恢复系统到最近一次做备份时的系统环境,然后可将当日的数据备份再倒回系统内。至此,系统可恢复正常运行

11、。此后,客户应当与旧M工程师再进行整个事件的全面分析与回顾,以期找到故障发生的原因,并采取相应措施以杜绝类似事件再次发生。2.6 DUMP当系统运行出现软件故障导致系统down机时,机器的液晶显示器会出现888102xxOcO(xx可能为700或其它),A1X常会将当时系统的运行情况记录下来,这就是DUMP0当DUMP产生后,请将磁带放入磁带机,用命令#snap-a-odevrmt将DUMP文件拷贝到磁带设备ZdevZrmtO中。注明磁带机的b1ocksize,DUMP产生的日期和机器的型号及序列号。同时,请用#errpt-atmperr.1og将error1og记在tmperr.1og中,并

12、将ZtmpZerrJog和tmphacmp.*拷贝到软盘或磁带上。将磁带和软盘交给旧M工程师。2.7 日常检查服务器状态的项目及其相关命令1运行Isdev命令配以各种参数,所列各种设备状态都应为Avai1ab1e.#列出系统中可用设备。列出系统中的所有CPU。列出系统中的所有内存。列出系统中的所有硬盘。nt列出系统中的所有网卡csi列出系统中的所有SCSI卡。Sa列出系统中的所有SSA卡。Isdev-C-H-Sa#1sdev-Ccprocessor#1sdev-Ccmemory歹H#1sdev-Ccdisk列#1sdev-Ccadaptergrepent#1sdev-Ccadaptergrep

13、scsi#1sdev-Ccadaptergrepssa#1spv显示系统中可用的PV2Ispv命令#1spvhdiskn显示hdiskn的具体信息。#1sdev-Ccpdisk显示磁盘阵列的硬盘的具体信息。对SSA硬盘的检测:在对主机进行工作之前可以先把磁盘阵列上电,等主机完全启动后,登录到主机上,运行以下命令Isdev-Ccpdisk,应该可以看到所有SSA硬盘,并且状态应为Avai1ab1e.3 ISattr命令#Isattr-E-Imemo列出系统中内存memo的大小,本项目中内存有4GB,4 Isvg命令# 1SVg列出系统中所有的vg。# 1svgrootvg歹IJ出rootvg的详

14、细信息。# 1SVg-0歹IJ出激活的Vg5 Os1eve1命令#os1eve1显示操作系统版本信息。6 netstat命令#netstat-in显示系统中各网卡的配置。可查看网卡的IP配置好了没有。7 #diag命令运行硬件诊断程序检测主机内所有硬件,检测结果为Notroub1efoUnd”显示各部分工作正常。8使用#diag命令(选择:TaSkSeIeCtiOn-SSAServiceAids)对SSA硬盘链路连接的校验,可以通过SSA工具里的1inkVerification来检测。如有必要,可以用CertNyDiSk运行硬盘诊断部分进行硬盘的表面分析测试,由1%至100%,检测结果显示主机

15、内置硬盘的所有扇区均读写正常。9Isps-a查看PAG1NGSPACE的使用情况,如果使用率超过70%,就需要采取措施。10Isvg-O|Isvg-Hgrep-ista1e查看有无Staie的Iv,如果输入该命令之后有输出结果,就需要采取措施11有否发给root用户的错误报告(mai1).12检查双机状态:ISSrC-gc1uster检查ha三个工作进程是否激活,usrsbinC1USteI7c1staa检查双机状态是否up,并检查hacmp.out日志,看是否有异常信息。13用VrnStat,topas,sar命令检查系统性能,检查CPWnemOyrVO,是否存在性能瓶颈。14检查能否顺利进入CDE界面,如果不能进入的话,要检行etchosts表中有否错误的项目。15用smittyssaraid查看磁盘阵列RAID盘的状态是否是GoOd。如果是degrade或其他状态表示RAID盘出现

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 工作总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服