ITPub博客

首页 > Linux操作系统 > Linux操作系统 > 数据文件故障恢复一例

数据文件故障恢复一例

原创 Linux操作系统 作者:great_li 时间:2011-06-16 23:44:08 0 删除 编辑

收到用户反映无法查询,查询返回一个有关无法访问数据文件的报错。

环境solaris10+oracle10204 rac。

系统log看到很多IO类错误:

Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice]  Requested Block: 1765506                   Error Block: 1765506
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice]  Vendor: IBM                                Serial Number:            
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice]  Sense Key: Unit Attention
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice]  ASC: 0x8b (), ASCQ: 0x2, FRU: 0x0
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/ssd@g600a0b800047457a000004f149405fd5 (ssd12):
Jun 16 11:50:30 sspu-sso  Error for Command: write(10)               Error Level: Retryable
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice]  Requested Block: 1576986                   Error Block: 1576986
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice]  Vendor: IBM                                Serial Number:            
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice]  Sense Key: Unit Attention
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice]  ASC: 0x8b (), ASCQ: 0x2, FRU: 0x0
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/ssd@g600a0b800047457a000004f149405fd5 (ssd12):
Jun 16 11:50:30 sspu-sso  Error for Command: read(10)                Error Level: Retryable
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice]  Requested Block: 7018                      Error Block: 7018
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice]  Vendor: IBM                                Serial Number:            
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice]  Sense Key: Unit Attention
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice]  ASC: 0x8b (), ASCQ: 0x2, FRU: 0x0
Jun 16 11:50:31 sspu-sso scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/ssd@g600a0b800047457a000004f149405fd5 (ssd12):
Jun 16 11:50:31 sspu-sso  Error for Command: read(10)                Error Level: Retryable
Jun 16 11:50:31 sspu-sso scsi: [ID 107833 kern.notice]  Requested Block: 7018                      Error Block: 7018
Jun 16 11:50:31 sspu-sso scsi: [ID 107833 kern.notice]  Vendor: IBM                                Serial Number:            
Jun 16 11:50:31 sspu-sso scsi: [ID 107833 kern.notice]  Sense Key: Unit Attention
Jun 16 11:50:31 sspu-sso scsi: [ID 107833 kern.notice]  ASC: 0x8b (), ASCQ: 0x2, FRU: 0x0
Jun 16 11:50:31 sspu-sso scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/ssd@g600a0b800047457a000004f149405fd5 (ssd12):
Jun 16 11:50:31 sspu-sso  Error for Command: read(10)                Error Level: Retryable

 

2号节点启动不了。oracle的日志故障时间无记录。(这点很奇怪,后面解释猜测的原因)

怀疑存储有问题,去机房看了ok,没坏。

回到主机端查看,ASM中有一个数据文件的online_status为recover。提示需要media recovery。

在1号几点recover该表空间,再手工online,问题解决。

回头查看故障原因。发现2号节点跟目录满了。

将垃圾数据清理后,启动数据库成功。

由此猜测,是不是2号节点跟目录满了,造成2号节点instance crash了。当时数据文件是属于2号节点主管的,造成数据文件需要recovery。(奇怪的是主机都重启过了,1号节点正常启动的,为什么没有自动recover该数据文件?)如果数据库实例是crash的,那alert_log里是可能没有信息的。但1号节点应该没有崩溃,同样没有报错,不理解。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/7969839/viewspace-700099/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2010-03-27

  • 博文量
    59
  • 访问量
    72903