ITPub博客

首页 > Linux操作系统 > Linux操作系统 > 一次oracle rac 监听不定时offline处理过程

一次oracle rac 监听不定时offline处理过程

原创 Linux操作系统 作者:mahanso 时间:2012-03-13 15:49:41 0 删除 编辑
       前一段时间实施一套RAC环境,应用部署之后,运行一点时间后,频繁出现oracle不一定那个节点的监听就会offline,这个问题一直持续的很久,起初我是通过tonywang先生的博客中:http://space.itpub.net/35489/viewspace-553549方法解决。

        但是治标不治本,过几天又出现同样的现象,由于忙于其他项目事情,一直拖着没有彻底解决。今天项目经理又来催我这个事情,我静下心来,查找问题原因。

        首先写一下RAC的环境:

       oracle版本: 10.2.0.4.0 - 64bit

       操作系统环境:

LSB Version:    :core-3.1-amd64:core-3.1-ia32:core-3.1-noarch:graphics-3.1-amd64:graphics-3.1-ia32:graphics-3.1-noarch
Distributor ID: RedHatEnterpriseServer
Description:    Red Hat Enterprise Linux Server release 5.5 (Tikanga)
Release:        5.5
Codename:       Tikanga

       
       处理过程:

       数据库情况描述:
 
       因为每次都强行关闭 crs_stop -f ora.racdb2.vip,首先看一下$CRS_HOME/log/racdb1/racg目录下的vip.log日志:


                2012-02-29 14:39:24.357: [    RACG][3231384256] [27405][3231384256][ora.racdb1.vip]: ping to 网关ip地址 via eth0 failed, rc = 1 (host=racdb1)
2012-03-03 16:43:43.300: [    RACG][3238642368] [2227][3238642368][ora.racdb1.vip]: ping to  网关ip地址   via eth0 failed, rc = 1 (host=racdb1)
                2012-03-10 16:42:40.602: [    RACG][1114129088] [13678][1114129088][ora.racdb2.vip]: ping to  网关ip地址   via eth0 failed, rc = 1 (host=racdb1)


        发现都是当ping 网关ip地址 时候失败,每次集群节点ping默认网关(检测节点之前的网络状态)的时候失败,导致问题出现。

        当时实施硬件环境时,虽然买的交换机是三层交换机,但是没有相关系统集成人员设置交换机做为默认网关,使用防火墙ip地址作为默认网关地址。


        防火墙情况描述

        这样我第一个想法,就是找到相关防火墙人员,查看防火墙日志,

        联系防火墙相关人员,分别找出2012-02-29 14:39:24.357、2012-03-03 16:43:43.300、2012-03-10 16:42:40.602 三个时间的防火墙情况,发现一下内容:

        防火墙日志信息:src=202.75.214.196(伪造地址) dst=121.10.134.251(攻击地址) sport=17243  dport=80        smac=9c:8e:99:fa:07:18(内部网卡mac地址)

         每次默认网关中断的时候,都出现9c:8e:99:fa:07:XX这个mac地址,9c:8e:99:fa:07:XX这个mac地址是局域网中一个太对外的17.XX.X.XXX这台机器的mac地址。这个台机器是我们开发人员从外部连接内部的机器,
 
         17.XX.X.XXX 作为肉鸡,攻击 121.10.134.251导致防火前资源耗尽 机器短时间内向外部大量发包,被防火墙拦截,导致防火墙资源耗尽,这时默认网关不能访问。


          服务器情况描述

                 此时查看17.XX.X.XXX 内部这个台机器,以root用户登陆之后,last命令查看之前登录人信息与ip地址,发现很多伪造的ip地址登陆过此服务器。


          解决办法:
 
 1、目前查看防火墙日志,只发现 17.XX.X.XXX 机器向外发包, 17.XX.X.XXX 重新安装操作系统,部署应用环境。关闭不必要的服务。修改用户名口令。



后续计划观察此RAC集群环境,看是否还有此类问题的发生。


最后非常感谢他提供的博文资料,处理这个问题还认识了tonywang先生。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/12272958/viewspace-718440/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 处理ORA-01102错误
请登录后发表评论 登录
全部评论

注册时间:2010-10-18

  • 博文量
    160
  • 访问量
    594965