
| 出版日期:1997-10-27 总期号:681 本年期号:41 |
|
ibmrs/6000r40系统维护四则
白华飞 故障现象一:主机(1号机)工作正常,当切换到备份机(2号机)上工作时,系统正常,但各营业网点均不能正常营业,中心结点机也不能与2号机通讯,用ping命令测试工作机“飘移地址”不通。 分析与排除:首先,检查2号机和中心路由器上的以太网连线、bnc头等,未发现异常现象。其次,查2号机的“网关”。在该机上以root用户注册,执行下列命令: #netstat-r 屏幕显示: routingtables destinationgatewayflaysrefsuseinterface netmasks: 255 255.255.255 routetreeforprotocolfamily2: default160.2.200.10ug01743enl 127loopbacku1112552lo0 160.2.1ny1-svcu47631en2 160.2.200ny2-stbu107885en1 从上述路由表可以看出:缺省网络号的网关(gateway)是“160.2.200.10”。第三,检查路由器本身的配置信息。在cisco7507路由器的主控终端上执行:“shrun”命令,发现路由器上配置的网关是“160.2.1.10”,而网关“160.2.200.10”根本不存在,故障原因就在于此,可按下列步骤来排除: 1、在2号机上,以root用户注册,执行命令:“smittcpip”后,再按照提示依次选择:“furtherconfiguration”、“staticroutes”、“removeastaticroute”,然后输入路由“default160.2.200.10”,把错误的静态路由删除。 2、在2号机的“smittcpip”菜单中,依次选择:“furtherconfiguration”、“staticroutes”、“addastaticroute”功能,再输入路由:“default160.2.1.10”,增加正确的静态路由。 3、退出“smit”菜单,关闭“hacmp”,再重新启机,2号机即可恢复正常。 故障现象二:某天早晨,一客户机在进入营业画面时显示:“结点机日期与系统日期不符”,不能开工营业,随后其它用户也有类似反映。 分析与排除:检查工作机的系统日期,发现与结点机日期完全相同,都是1996年12月6日早晨8点零几分。根据应用程序所使用的数据库是sybase这一点,再进一步检查sybase数据库中的日期,在工作机上以sybase用户注册,并依次输入下列命令: $isql-usa-p口令 1〉selectgetdate() 2Λgo 屏幕显示: ----------- dec5199620:12pm (1rowaffected) 由此可以看出,sybase数据库中的日期是1996年12月5日,显然与结点机和工作机本身的系统日期1996年12月6日不符,为什么会出现这种情况呢?原来在96年12月5日下午,发现小型机本身所用的时区为“pacificu.s.;yukon”,不符合我国的实际情况,就利用aix操作系统的“smit”菜单,根据屏幕提示依次选择:“systemenvironments”、“change/showdate,time,andtimezone”、“1yes”、“(taist-8taidt)taiwan(cut+8)”,把时区改为“taiwan”时区(因ibmaix操作系统上无“beijing”时区),并重新注册使设定的时区发挥作用。但这样修改后并没有改变sybase数据库本身的时区,因为sybase数据库的时区(时差)是在每次启动时,由当时操作系统的时区(时差)来确定的。也就是说,只要操作系统的时区发生改变,就必须重新启动sybase数据库,否则sybase仍将根据原来的时区(时差)来计算日期和时间,当然,若只修改操作系统的日期和时间而不改变时区,则不必重新启动sybase。对本例而言,操作系统的时区由“pacificu.s.;yukon”改为“taiwan”后,因没有重新启动sybase数据库,所以它仍将根据前者的时差(12个小时)来走时,以致出现日期不一致现象。解决方法是先关闭sybase数据库,然后再重新启 动。 故障现象三:ibmrs/6000r30小型机的cpu板由601升档到604、操作系统由aix4.1升级到4.1.4后,主机加电启动,在主控终端的“login”状态下,每隔40多秒出现一次下述信息,屏幕不断向上滚动,若键入回车后并登录进入系统一切正常,也不影响工作。 *********************** *resumingdesktoplogin...* *********************** *********************** *thex-servercannotbestartedondisplay:0..* *********************** *********************** *suspendingdesktoplogin...* *press[enter]foraloginprompt.* *login.desktoploginwillresumeshortlyafterfor logout.* *********************** 分析与排除:检查主控终端的设置,没有发现问题;以超级用户注册,进入“smit”菜单,依次选择:“systemenvironments”、“changesystemuserinterface”功能后,屏幕又提示:“selectsystemloginuserinterfaceaixwindowsdesktopenvΛ+”。从这里可以看出,本机的ibmaix操作系统版本升级后显示方式变为“aixwindows”,原因是在操作系统升级时把有关aixwindows的软件也安装上了,由于该终端不支持“图型”方式,所以出现上述故障。解决方法是把上述显示方式改为“命令行”方式,即在:“selectsystemloginuserinterfaceaixwindowsdesktopenvΛ+”下,按“f4”键,屏幕显示: selectsystemloginuserinterface movecursortodesireditemandpressenter. aixwindowsdesktopenvironment aixwindowsdesktopenvironment(withoutgraphicalboot) commandline 再移动光标至“commandline”并回车,然后退出“smit”菜单,键入“shutdown-fr”命令重新启机,即恢复正常。 故障现象四:某天,在工作机(1号机)的root用户下,执行“find/-name1-print”命令时,屏幕显示: /usr/bin/1 /usr/share/lib/terminfo/1 find:badstatus--/dev/.src-unix 执行“cd.src-unix”、“rmdir.src-unix”时,则显示: “i/oerror”。 启动“smit”菜单,并依次选择: “systemstoragemanagement(physical&logicalstorage)”、“filesystem”、“verifyafilesystem”,对文件系统进行检查,选根文件系统(/)时,检查结果为: “/dev/hd4(/):cannotread:block16384(notcleared)(terminated):problemswithrootfilesystem(notcontinued)(terminated)”;选sybase文件系统(/sybase)时,检查结果为: “/dev/lv00(/sybase):cannotread:block884736(notcleared)(terminated)” 同时“smit”程序一直处于“running”状态,好象死机一样,只好用“ΙctrlΛ-c”强行退出。 分析与排除:把工作机切换到备份机(2号机)上工作,然后按下列步骤逐步排除1号机的故障(以下命令均在root用户下进行): 1、在1号机上执行"smitclstop”命令,“hacmp”软件会自动把工作机上的任务交给2号机接管,但前提是2号机的“hacmp”已正常启动。 2、首先用“mksysb-i/dev/rmt0”命令对1号机的系统作全备份,然后再执行“smitclstart”命令重新启动“hacmp”,此时屏幕又出现如下错误信息: +rm-f/usr/sbin/cluster/.telinit +/usr/sbin/cluster/etc/harc.net clrefresh-src:deletinginetentriesfromsrcfailedwithrc:-9053. clrefresh-src:addinginetentriesfromsrcfailedwithrc:-9053. 0513-053thesystemresourcecontrollerisexperiencingproblemswithitssocketcommunications. +cl-echo 236/m/nerror:srcmstrisnotacceptingcomections/nerror:srcmstrisnotacceptingconnections "hacmp"启动失败。 3、对1号机shutdown,并把面板上的钥匙开关放到"service"模式,利用诊断盘重新启机进入检测方式进行检测,稍后从2号机上看到如下错误信息: an array controller switch failed on device dac0. if you have installed the software error logging and dump service errpt-a-1 4355 4457. if you problem persists run diagnostils on the device. 同时又发现ibm 7135 磁盘阵列机面板上的"黄色指示灯"亮。 4、把1号机面板上的钥匙开关放到"ok"模式,重新启动后执行"smit device"命令,并根据提示依次选择:"sesi adapter"、"change/show characteristics of a scsi adapter"后再选择"ascsi0"时,显示:"external sesi id[7]"、这说明1号机的"external sesi id"值为7。明明当初安装调试机器时已改为6,现在为什么又变成7呢?这是因为1号机运行在诊断模式时,会自动恢复到默认值7,与2号机的"external sesi id"值(当初已选默认值7)相同,两者发生冲突,把7135阵列控制卡由"acttve"状态变成"held & reset"状态,导致7135阵列机面板上的"黄色指示灯"亮,并使2号机显示上述错误信息。这里把1号机中有关阵列的"ascsi0"和"hdisk2"设备的"external sesi id"值改为6;当然为了今后安全起见,也可以把2号机中的"ascsi0"和"hdisk2"设备的"external sesi id"值改为5,避开默认值7。 5、在1号机上键入:"lsdev -cc disk"命令,屏幕显示: hdisk0 available 00-08-00-0,01,1gb scsi disk drive hdisk1 available 00-08-00-0,01,1.0gb scsi disk drive hdisk2 available 00-01-01-1,07135 diskarray device 注:hdisk2即为定义在磁盘阵列上的可用硬盘。 6、从上述显示结果可以看出hdisk2的状态为"defined",这说明hdisk2没有"加电",当然存在该盘止的信息也就无法读取,继而出现故障现象四,这就需用下列命令将磁盘设备hdisk2删除: #rmdev -dl hdisk2 7、执行下列命令,对1号机重新配置设备: #cfgmgr 8、在1号机上,启动"smit hacmp"菜单,并按照屏幕提示依次选择:"cluster configuration topology"、"cluster verification"、"verify"功能,检验并确认1、2号机的网络配置同步。 9、重新启机,一切恢复正常。 |
|||||||||||||||||