ccidnet????

出版日期:1997-10-27 总期号:681 本年期号:41

本期导读
综合要闻
网络通信
市场商情
国际文摘
技术专题
软件应用
ibmrs/6000r40系统维护四则

白华飞

  故障现象一:主机(1号机)工作正常,当切换到备份机(2号机)上工作时,系统正常,但各营业网点均不能正常营业,中心结点机也不能与2号机通讯,用ping命令测试工作机“飘移地址”不通。

  分析与排除:首先,检查2号机和中心路由器上的以太网连线、bnc头等,未发现异常现象。其次,查2号机的“网关”。在该机上以root用户注册,执行下列命令:

  #netstat-r

  屏幕显示:

  routingtables

  destinationgatewayflaysrefsuseinterface

  netmasks:

  255

  255.255.255

  routetreeforprotocolfamily2:

  default160.2.200.10ug01743enl

  127loopbacku1112552lo0

  160.2.1ny1-svcu47631en2

  160.2.200ny2-stbu107885en1

  从上述路由表可以看出:缺省网络号的网关(gateway)是“160.2.200.10”。第三,检查路由器本身的配置信息。在cisco7507路由器的主控终端上执行:“shrun”命令,发现路由器上配置的网关是“160.2.1.10”,而网关“160.2.200.10”根本不存在,故障原因就在于此,可按下列步骤来排除:

  1、在2号机上,以root用户注册,执行命令:“smittcpip”后,再按照提示依次选择:“furtherconfiguration”、“staticroutes”、“removeastaticroute”,然后输入路由“default160.2.200.10”,把错误的静态路由删除。

  2、在2号机的“smittcpip”菜单中,依次选择:“furtherconfiguration”、“staticroutes”、“addastaticroute”功能,再输入路由:“default160.2.1.10”,增加正确的静态路由。

  3、退出“smit”菜单,关闭“hacmp”,再重新启机,2号机即可恢复正常。



  故障现象二:某天早晨,一客户机在进入营业画面时显示:“结点机日期与系统日期不符”,不能开工营业,随后其它用户也有类似反映。

  分析与排除:检查工作机的系统日期,发现与结点机日期完全相同,都是1996年12月6日早晨8点零几分。根据应用程序所使用的数据库是sybase这一点,再进一步检查sybase数据库中的日期,在工作机上以sybase用户注册,并依次输入下列命令:

  $isql-usa-p口令

  1〉selectgetdate()

  2Λgo

  屏幕显示:

  -----------

  dec5199620:12pm

  (1rowaffected)

  由此可以看出,sybase数据库中的日期是1996年12月5日,显然与结点机和工作机本身的系统日期1996年12月6日不符,为什么会出现这种情况呢?原来在96年12月5日下午,发现小型机本身所用的时区为“pacificu.s.;yukon”,不符合我国的实际情况,就利用aix操作系统的“smit”菜单,根据屏幕提示依次选择:“systemenvironments”、“change/showdate,time,andtimezone”、“1yes”、“(taist-8taidt)taiwan(cut+8)”,把时区改为“taiwan”时区(因ibmaix操作系统上无“beijing”时区),并重新注册使设定的时区发挥作用。但这样修改后并没有改变sybase数据库本身的时区,因为sybase数据库的时区(时差)是在每次启动时,由当时操作系统的时区(时差)来确定的。也就是说,只要操作系统的时区发生改变,就必须重新启动sybase数据库,否则sybase仍将根据原来的时区(时差)来计算日期和时间,当然,若只修改操作系统的日期和时间而不改变时区,则不必重新启动sybase。对本例而言,操作系统的时区由“pacificu.s.;yukon”改为“taiwan”后,因没有重新启动sybase数据库,所以它仍将根据前者的时差(12个小时)来走时,以致出现日期不一致现象。解决方法是先关闭sybase数据库,然后再重新启 动。



  故障现象三:ibmrs/6000r30小型机的cpu板由601升档到604、操作系统由aix4.1升级到4.1.4后,主机加电启动,在主控终端的“login”状态下,每隔40多秒出现一次下述信息,屏幕不断向上滚动,若键入回车后并登录进入系统一切正常,也不影响工作。

  ***********************

  *resumingdesktoplogin...*

  ***********************

  ***********************

  *thex-servercannotbestartedondisplay:0..*

  ***********************

  ***********************

  *suspendingdesktoplogin...*

  *press[enter]foraloginprompt.*

  *login.desktoploginwillresumeshortlyafterfor

  logout.*

  ***********************

  分析与排除:检查主控终端的设置,没有发现问题;以超级用户注册,进入“smit”菜单,依次选择:“systemenvironments”、“changesystemuserinterface”功能后,屏幕又提示:“selectsystemloginuserinterfaceaixwindowsdesktopenvΛ+”。从这里可以看出,本机的ibmaix操作系统版本升级后显示方式变为“aixwindows”,原因是在操作系统升级时把有关aixwindows的软件也安装上了,由于该终端不支持“图型”方式,所以出现上述故障。解决方法是把上述显示方式改为“命令行”方式,即在:“selectsystemloginuserinterfaceaixwindowsdesktopenvΛ+”下,按“f4”键,屏幕显示:

  

  selectsystemloginuserinterface

  movecursortodesireditemandpressenter.

  aixwindowsdesktopenvironment

  aixwindowsdesktopenvironment(withoutgraphicalboot)

  commandline

  

  再移动光标至“commandline”并回车,然后退出“smit”菜单,键入“shutdown-fr”命令重新启机,即恢复正常。



  故障现象四:某天,在工作机(1号机)的root用户下,执行“find/-name1-print”命令时,屏幕显示:

  /usr/bin/1

  /usr/share/lib/terminfo/1

  find:badstatus--/dev/.src-unix

  执行“cd.src-unix”、“rmdir.src-unix”时,则显示:

  “i/oerror”。

  启动“smit”菜单,并依次选择:

  “systemstoragemanagement(physical&logicalstorage)”、“filesystem”、“verifyafilesystem”,对文件系统进行检查,选根文件系统(/)时,检查结果为:

  “/dev/hd4(/):cannotread:block16384(notcleared)(terminated):problemswithrootfilesystem(notcontinued)(terminated)”;选sybase文件系统(/sybase)时,检查结果为:

  “/dev/lv00(/sybase):cannotread:block884736(notcleared)(terminated)”

  同时“smit”程序一直处于“running”状态,好象死机一样,只好用“ΙctrlΛ-c”强行退出。

  分析与排除:把工作机切换到备份机(2号机)上工作,然后按下列步骤逐步排除1号机的故障(以下命令均在root用户下进行):

  1、在1号机上执行"smitclstop”命令,“hacmp”软件会自动把工作机上的任务交给2号机接管,但前提是2号机的“hacmp”已正常启动。

  2、首先用“mksysb-i/dev/rmt0”命令对1号机的系统作全备份,然后再执行“smitclstart”命令重新启动“hacmp”,此时屏幕又出现如下错误信息:

  +rm-f/usr/sbin/cluster/.telinit

  +/usr/sbin/cluster/etc/harc.net

  clrefresh-src:deletinginetentriesfromsrcfailedwithrc:-9053.

  clrefresh-src:addinginetentriesfromsrcfailedwithrc:-9053.

  0513-053thesystemresourcecontrollerisexperiencingproblemswithitssocketcommunications.

  +cl-echo 236/m/nerror:srcmstrisnotacceptingcomections/nerror:srcmstrisnotacceptingconnections

  "hacmp"启动失败。

  3、对1号机shutdown,并把面板上的钥匙开关放到"service"模式,利用诊断盘重新启机进入检测方式进行检测,稍后从2号机上看到如下错误信息:

  an array controller switch failed on device dac0.

  if you have installed the software error logging and dump

  service errpt-a-1 4355 4457.

  if you problem persists run diagnostils on the device.

  同时又发现ibm 7135 磁盘阵列机面板上的"黄色指示灯"亮。

  4、把1号机面板上的钥匙开关放到"ok"模式,重新启动后执行"smit device"命令,并根据提示依次选择:"sesi adapter"、"change/show characteristics of a scsi adapter"后再选择"ascsi0"时,显示:"external sesi id[7]"、这说明1号机的"external sesi id"值为7。明明当初安装调试机器时已改为6,现在为什么又变成7呢?这是因为1号机运行在诊断模式时,会自动恢复到默认值7,与2号机的"external sesi id"值(当初已选默认值7)相同,两者发生冲突,把7135阵列控制卡由"acttve"状态变成"held & reset"状态,导致7135阵列机面板上的"黄色指示灯"亮,并使2号机显示上述错误信息。这里把1号机中有关阵列的"ascsi0"和"hdisk2"设备的"external sesi id"值改为6;当然为了今后安全起见,也可以把2号机中的"ascsi0"和"hdisk2"设备的"external sesi id"值改为5,避开默认值7。

  5、在1号机上键入:"lsdev -cc disk"命令,屏幕显示:

  hdisk0 available 00-08-00-0,01,1gb scsi disk drive

  hdisk1 available 00-08-00-0,01,1.0gb scsi disk drive

  hdisk2 available 00-01-01-1,07135 diskarray device

  注:hdisk2即为定义在磁盘阵列上的可用硬盘。

  6、从上述显示结果可以看出hdisk2的状态为"defined",这说明hdisk2没有"加电",当然存在该盘止的信息也就无法读取,继而出现故障现象四,这就需用下列命令将磁盘设备hdisk2删除:

  #rmdev -dl hdisk2

  7、执行下列命令,对1号机重新配置设备:

  #cfgmgr

  8、在1号机上,启动"smit hacmp"菜单,并按照屏幕提示依次选择:"cluster configuration topology"、"cluster verification"、"verify"功能,检验并确认1、2号机的网络配置同步。

  9、重新启机,一切恢复正常。