ITPub博客

首页 > Linux操作系统 > Linux操作系统 > XMD RAC(Oracle 9i) 存儲修復處理

XMD RAC(Oracle 9i) 存儲修復處理

原创 Linux操作系统 作者:golden_zhou 时间:2011-05-03 09:42:15 0 删除 编辑

處理技朮﹕

[root@DELL-RAC02 root]# powermt display dev=all
Pseudo name=emcpoweri
CLARiiON ID=CK200040700048 [DMDI-NewRAC]
Logical device ID=600601602AA31000AEC05C9A0E8DD911 [LUN 2]
state=alive; policy=CLAROpt; priority=0; queued-IOs=0
Owner: default=SP A, current=SP A
==============================================================================
---------------- Host ---------------   - Stor -   -- I/O Path -  -- Stats ---
### HW Path                 I/O Paths    Interf.   Mode    State  Q-IOs Errors
==============================================================================
  1 QLogic Fibre Channel 2300 sdf        SP A0     active  alive      0      0
  1 QLogic Fibre Channel 2300 sdk        SP B0     active  alive      0      0
  2 QLogic Fibre Channel 2300 sdp        SP A1     active  alive      0      0
  2 QLogic Fibre Channel 2300 sdu        SP B1     active  alive      0      0

Pseudo name=emcpowerj
CLARiiON ID=CK200040700048 [DMDI-NewRAC]
Logical device ID=60060160A1201000540A119C7673E011 [LUN 9]
state=alive; policy=CLAROpt; priority=0; queued-IOs=0
Owner: default=SP A, current=SP A
==============================================================================
---------------- Host ---------------   - Stor -   -- I/O Path -  -- Stats ---
### HW Path                 I/O Paths    Interf.   Mode    State  Q-IOs Errors
==============================================================================
  1 QLogic Fibre Channel 2300 sdb        SP A0     active  alive      0      0
  1 QLogic Fibre Channel 2300 sdg        SP B0     active  alive      0      0
  2 QLogic Fibre Channel 2300 sdl        SP A1     active  alive      0      0
  2 QLogic Fibre Channel 2300 sdq        SP B1     active  alive      0      0

Pseudo name=emcpowerh
CLARiiON ID=CK200040700048 [DMDI-NewRAC]
Logical device ID=60060160A1201000C8799AB4E7D9D811 [LUN 3]
state=alive; policy=CLAROpt; priority=0; queued-IOs=0
Owner: default=SP A, current=SP A
==============================================================================
---------------- Host ---------------   - Stor -   -- I/O Path -  -- Stats ---
### HW Path                 I/O Paths    Interf.   Mode    State  Q-IOs Errors
==============================================================================
  1 QLogic Fibre Channel 2300 sde        SP A0     active  alive      0      0
  1 QLogic Fibre Channel 2300 sdj        SP B0     active  alive      0      0
  2 QLogic Fibre Channel 2300 sdo        SP A1     active  alive      0      0
  2 QLogic Fibre Channel 2300 sdt        SP B1     active  alive      0      0

Pseudo name=emcpowerg
CLARiiON ID=CK200040700048 [DMDI-NewRAC]
Logical device ID=60060160A1201000C9799AB4E7D9D811 [LUN 4]
state=alive; policy=CLAROpt; priority=0; queued-IOs=0
Owner: default=SP A, current=SP A
==============================================================================
---------------- Host ---------------   - Stor -   -- I/O Path -  -- Stats ---
### HW Path                 I/O Paths    Interf.   Mode    State  Q-IOs Errors
==============================================================================
  1 QLogic Fibre Channel 2300 sdd        SP A0     active  alive      0      0
  1 QLogic Fibre Channel 2300 sdi        SP B0     active  alive      0      0
  2 QLogic Fibre Channel 2300 sdn        SP A1     active  alive      0      0
  2 QLogic Fibre Channel 2300 sds        SP B1     active  alive      0      0

Pseudo name=emcpowerf
CLARiiON ID=CK200040700048 [DMDI-NewRAC]
Logical device ID=60060160A1201000F23A4A76723ADC11 [LUN 10]
state=alive; policy=CLAROpt; priority=0; queued-IOs=0
Owner: default=SP B, current=SP B
==============================================================================
---------------- Host ---------------   - Stor -   -- I/O Path -  -- Stats ---
### HW Path                 I/O Paths    Interf.   Mode    State  Q-IOs Errors
==============================================================================
  1 QLogic Fibre Channel 2300 sdc        SP A0     active  alive      0      0
  1 QLogic Fibre Channel 2300 sdh        SP B0     active  alive      0      0
  2 QLogic Fibre Channel 2300 sdm        SP A1     active  alive      0      0
  2 QLogic Fibre Channel 2300 sdr        SP B1     active  alive      0      0

  946  powermt display dev=all
  947  exit
  948  powermt display dev=all
  949  id
  950  ifconfig
  951  powermt display dev=all
  952  top
  953  mkfs.ocfs -F -b 128 -C -g 500 -u 500 -L  ocfs_data  -m  /ocfs_data  -p  0775 /dev/emcpowerj1 
  954  fdisk -l
  955  df -h
  956  cd /data
  957  ls
  958  cd /ocfs_data
  959  ls
  960  df -h
  961  fdisk  /dev/emcpowerj
  962  cd /
  963  ls
  964  ls -alhrt
  965  cd /ocfs_index
  966  ls
  967  cd ..
  968  ls
  969  cd /ocfs_data/
  970  ls
  971  mkdir -p  orcl
  972  chown -R oracle.dba  /ocfs_data/orcl
  973  ls
  974  mkfs.ocfs -F -b 128 -C -g 500 -u 500 -L  ocfs_data  -m  /ocfs_data  -p  0775 /dev/emcpowerj1
  975  cd /etc
  976  ls
  977  vi fstab
DELL-RAC01$cat /etc/fstab
LABEL=/                 /                       ext3    defaults        1 1
LABEL=/boot             /boot                   ext3    defaults        1 2
none                    /dev/pts                devpts  gid=5,mode=620  0 0
none                    /proc                   proc    defaults        0 0
none                    /dev/shm                tmpfs   defaults        0 0
LABEL=/tmp              /tmp                    ext3    defaults        1 2
LABEL=/u01              /u01                    ext3    defaults        1 2
LABEL=/usr              /usr                    ext3    defaults        1 2
/dev/sda9               swap                    swap    defaults        0 0
LABEL=/home-27975             /home                   ext3    defaults        1 2
/dev/cdrom              /mnt/cdrom              udf,iso9660 noauto,owner,kudzu,ro 0 0

/dev/emcpowerj1         /ocfs_data              ocfs    _netdev            0 0


/dev/emcpowerf1         /ocfs_ctrl_redo         ocfs    _netdev            0 0
/dev/emcpowerf2         /ocfs_arch1             ocfs    _netdev            0 0
/dev/emcpowerf3         /ocfs_arch2             ocfs    _netdev            0 0
/dev/emcpowerf4         /ocfs_index             ocfs    _netdev            0 0
/dev/emcpowerg1         /ocfs_data2             ocfs    _netdev            0 0
/dev/emcpowerh1         /ocfs_index2            ocfs    _netdev            0 0
/dev/emcpoweri1         /ocfs_data3             ocfs    _netdev            0 0

  978  top
  979  ls
  980  cat fstab
  981  init
  982  init 6 
  983  id
  984  cd /u01/product/oracle/oracm/bin/
  985  ls
  986  ./ocmstart.sh
  987  ps -ef | grep oracm
  988  top
  989  exit
  990  cd /u01/product/oracle/oracm/
  991  ls
  992  cd bin/
  993  ls
  994  ./ocmstart.sh
  995  ps -ef | grep oracm

事件回顧﹕

EMDX CX500 RAID5 Crush 修復描述( 4.30_13:00~~5.1_08:00) 及後續處理事項 
背景: "EMD2 CX500在近期的使用中, 發現硬盤12 與 13 存在soft media error(類似硬盤壞塊),
所在在5.1放假 EMD2 不生產期間(4.29_8:00~5.2_24:00), 對相關硬盤進行更換;
其中:硬盤 9,10,11,12,13 組成一組 RAID5, 劃分為 Lun9 和 Lun 10, 硬盤 14 為HotSpare熱備盤"
異常發生過程 
13:00~16:00 "13:02下線硬盤 14 HotSpare熱備盤, 拔除硬盤12號, 插入新硬盤12-New,
           13:56顯示 Lun10 Rebuild完畢,14:44顯示 Lun9 Rebuild完畢,RAID5陣列Rebuild成功;"
 "14:52 拔除硬盤13號, 插入新硬盤13-New,
           15:43顯示 Lun10 Rebuild完畢; 15:47 顯示Lun9 Rebuild Halted;"
 "此時:  硬盤13-New 顯示為 Fail 狀況, 同時, 硬盤12-New 也顯示為 Fail 狀況; 
           RAID5陣列兩塊硬盤(12&13號)出現在Fail 狀況中, 導致該陳列Crush;
           劃分的Lun9和Lun10都不可以訪問, EMD2 RAC數據庫開始宕機中; "
"16:20 左右JonKey與德金接到值班人員電話到現場進行支援處理;
並同DELL現場維保工程師和廈門工程師商議後, 按照如下三個步驟進行測試和修復陣列RAID5;" 
處理步驟一: 
17:25~17:50 "17:25 拔除硬盤13-New, 重新拔插硬盤12-New, 17:27硬盤12-New自動上線,
            RAID5陣列恢復為可訪問狀況, 但是RAID5陣列並不完整(13號硬盤還是在離線中);
            此時, 數據庫可以開啟並正常訪問;"
處理步驟二: 
17:50~19:20 17:51 插入硬盤13-New2, 18:42顯示 Lun10 Rebuild完畢; 但隨後顯示Lun9 Rebuild Halted;
 "此時:  硬盤13-New2 顯示為 Fail 狀況, 同時, 硬盤12-New 也顯示為 Fail 狀況; 
           RAID5陣列兩塊硬盤(12&13號)出現在Fail 狀況中, 導致該陳列Crush;
           劃分的Lun9和Lun10又重新都不可以訪問, EMD2 RAC數據庫開始宕機中; "
 "19:16 拔除硬盤13-New2, 重新拔插硬盤12-New, 17:20硬盤12-New自動上線,
            RAID5陣列恢復為可訪問狀況, 但是RAID5陣列並不完整(13號硬盤還是在離線中);
            此時, 數據庫可以開啟並正常訪問;"
處理步驟三: 
19:20~21:00 19:24 插入HotSpare熱備盤14, 20:27顯示 Lun10 Rebuild完畢; 但隨後顯示Lun9 Rebuild Halted;
 "此時:  HotSpare熱備盤14 顯示為 Fail 狀況, 同時, 硬盤12-New 也顯示為 Fail 狀況; 
           RAID5陣列兩塊硬盤(12&13號)出現在Fail 狀況中, 導致該陳列Crush;
           劃分的Lun9和Lun10又重新都不可以訪問, EMD2 RAC數據庫開始宕機中; "
 
 "20:43 拔除HotSpare熱備盤14, 重新拔插硬盤12-New, 20:45硬盤12-New自動上線,
            RAID5陣列恢復為可訪問狀況, 但是RAID5陣列並不完整(13號硬盤還是在離線中);
            此時, 數據庫可以開啟並正常訪問; 與 DB Dataguard進行數據同步;"
"鑒於步驟二和三均測試失敗, DELL廈門工程師升級服務響應等級,
重新分析存儲日誌後, 說明是Lun9所在的硬盤區块存在問題(三次都是Lun10 Rebuild成功, 而Lun9 Rebuild失敗);
需要將 Lun9 所在的數據全部複製到其它設備上, 並重建 Lun 9(類似重新格式化硬盤);" 
"內部溝通後, 計劃分為兩個方案同時作業
(方案一. 重建Lun 9, 繼續修復存儲的陳列RAID5; 
 方案二. 考慮到舊DataGuard機器的規格, 協調一台高規格機器做成新DataGuard, 以便在方案一失敗的時候作為備用方案)" 
針對方案一 
23:00~2:00 "1. 冷拷貝Standby數據庫數據文件取代正式資料庫相應文件, 測試正式資料庫是否可以正常開啟; --- 經過測試可以正常開啟;
    因此: 將 Lun9 上的數據複製至其它服務器, 重建該Lun之後, 再複製回來使用;
    (數據複製過程中, Lun9 下的部分文件複製失敗, 後放棄直接複製該Lun上數據, 直接再備份一份舊DataGuard上的相同數據文件)"
2:00~5:30 2. 在2:06~3:30 從舊DataGuard上複製完成 Lun9 下之前已同步的文件到 IPC Standby DB(10.153.4.84/172.25.0.108), 作為備用;
 3. 在3:35 刪除Lun9, 插入一塊新的13號硬盤, 陣列RAID5進行Rebuild中, 4:38 Lun9, Lun10 Rebuild完成, RAID5完全恢復正常;
 "4. 考慮到硬盤12已下線多次, 4:42再次手動拔除硬盤12-New2; 重新插入一塊新的硬盤12-New3,  陣列RAID5重新進行Rebuild中,
    5:31 Lun9, Lun10 Rebuild完成, RAID5再次完全恢復正常;"
 5. 在5:35新插入一塊新的Hot Spare硬盤, 並配置上線; 至此, 陣列RAID5以及Hot Spare 恢復可使用狀態;
 6. 在5:50 新劃分Lun9, 在6:10 該Lun 在存儲上完成初始化, 重新加入到RAC服務器群組中供數據庫格式化Ocfs格式後使用;
待處理事項 1. 開啟節點服務器71&72, 重新格式化Lun9 為Ocfs格式, 將原有的數據複製回該Lun9上;
 2. 檢查數據庫文件的完整性, 並 Recover 數據庫, 開啟使用;
針對後備方案二 
23:00~1:30 1.臨時抽調還在內部測試中的CSD官網的一台新R710服務器, 新安裝操作系統, 用於安裝32位Oracle9i數據庫;
1:30~5:30 2. 該機器由XX, XX, XX和XX等在凌晨1:00準備完畢, 交付XXX開始安裝配置Oracle數據庫, 並與舊DataGuard進行數據同步.
待處理事項 3. 早上5:30 ~ 7:30 已複製完成約350 GB  的資料的數據量, 剩餘 500 多G 的資料繼續同步中, 需要繼續監控同步狀況;
 "4. 相關 IP 為 10.134.130.125 / 172.25.0.106; 該機器目前架設在F11, 若需要切換上線, 需要系統課安排人搬遷至D1更換IP之後上線;
    同時, 需要通知OSS/BPA 等配合進行相關數據庫連接的更改事宜;"
 
其它問題點 "1. 截至目前, 更換全新的硬盤12 和 13 之後, 還是存在 Soft Media Error, 將繼續跟進DELL處理;
    (考慮到是新硬盤, 對數據庫應用上應該無問題; )"
 2. DELL 目前提供的不是全新的硬盤配件, 此次使用我們自己的三塊全新的備品, 需要協調DELL歸還新硬盤;

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/25198367/viewspace-694288/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2011-03-09

  • 博文量
    238
  • 访问量
    308294