ITPub博客

首页 > Linux操作系统 > Linux操作系统 > AIX: 一次故障的处理过程

AIX: 一次故障的处理过程

原创 Linux操作系统 作者:brucewoo 时间:2009-05-12 10:25:04 0 删除 编辑

某天晚上,收到同事的一个故障电话,某系统的双机软件发生了切换,
所有的资源(浮动IP, 磁盘资源等)都切换到其中的一个节点上了.
该系统的环境为: AIX 5L + HACMP 5.x

向同事询问了当前系统的情况和之前做了哪些系统操作,同事向我
阐述了一些情况,当时正在进行网络割接,负责网络部分的同事觉得
网络部分的变动不会影响系统的正常运行(这个想当然的想法给后面
带来很大的麻烦, HACMP的运行出现了异常),因此在网络割接的时候
没有将应用和HACMP停下来,网络割接结束后,系统就出现了前面所说
的切换. 让同事ping另外的一个节点的IP, 发现都不同.根据这个情
况和资源发生切换的情况,初步判断由于网络割接的时候,主机系统的
网络连接发生了状况,其中的一个节点down了.另外一个节点接管了
已经down了的节点主机上的资源.让在现场的同事检查无法ping通
的节点的状态,证实确实已经down了,重新启动已经down了的节点主机,
已经发生切换的资源重新切换回刚重新启动的节点上,检查上面运行
的应用情况,一切OK.

使用errpt命令,查看系统的日志信息,有如下的提示:

...
Description
Possible malfunction on local adapter

Probable Causes
Local adapter mal-functioned
Local adapter lost connection to network
Local adapter mis-configured
...

确实是网络发生了状况.

备注: 这件事情带来的最大启示就是,系统割接是一个很复杂的事情,
      很多事情千万不要想当然,否则就会给整个工作带来一些意向
      不到麻烦,小心无大错,详细周密的工作计划永远是必需的.

 

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/75231/viewspace-594810/,如需转载,请注明出处,否则将追究法律责任。

下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2008-05-22

  • 博文量
    35
  • 访问量
    100699