« Oracle Patch Set Note And Bug List 参考 | Blog首页 | 推荐电影《Juno》-朱诺 »
DBA警世录:威胁来自数据库之外
链接:https://www.eygle.com/archives/2008/05/thread_from_outside.html
记得以前我曾经写过一篇《年关临近 谨防数据库事故》,那的确是有感而发。
根据统计我们发现,每逢节假日前后,都是数据库事故多发期。
而其实90%以上的数据库故障,威胁来自数据库之外。
列举一下最近的几次数据库事故及原因,警示一下这些来自数据库之外的威胁:
1.4月25日淘宝网的数据库故障
淘宝网的这次故障是由于IDC停电事故导致的,断电导致所有设备失效。这样即使考虑向备用数据库(Standby)切换,也不得不面对损失数据的麻烦。
2.5月2日前公司数据库故障
放假期间,前公司的EMC存储出现故障,EMC CX500的一个控制器损坏,导致一个数据库实例Crash。
这是存储的故障,最终数据库要直接面对服务中断。
3.5月5日客户数据库故障
今天一大早收到客户电话,存储设备出现故障,导致数据丢失,需要进行恢复。
到达客户现场才了解到IBM DS4700,在增加新的磁盘,在新磁盘上划分RAID磁盘组时,莫名其妙的,生产卷的数据全部消失。
而且类似的故障并不是第一次出现。用户对DS4700彻底失去了信心。
由于存在有效备份,数据可以及时恢复,但是还是损失了Online Redo中的数据。
这次故障是存储的问题导致的。
只想说明两点:
1.节假日前后一定要注意数据库安全
2.密切关注数据库周边环境
DBA这份工作有时候并不简单。
-The End-
By eygle on 2008-05-05 21:49 | Comments (12) | Beginner | Case | 1897 |
DBA不就是把脑袋挂在裤腰带上干活吗
随时都有威胁呀
原来David的脑袋是在腰部以下的....
传说中的九头虫,有着DBA
那是David撅着屁股干活的时候:)不容易呀!
那真危险,会脑充血的呢
CX500不是双控制器吗?一个SP挂掉怎么会导致数据库挂掉?
理论上不会,不过很多实际情况是复杂了,会出现很多异常!
我前一阵emc的一个控制器也坏了,不过幸运没影响,最近连着坏了2块盘,数据库就挂了,我这里还是双阵列用sf镜像的,镜像软件在关键时刻也废了,没起到作用。
我前一阵emc的一个控制器也坏了,不过幸运没影响,最近连着坏了2块盘,数据库就挂了,我这里还是双阵列用sf镜像的,镜像软件在关键时刻也废了,没起到作用。
现在存储厂商很喜好鼓吹双控加上raid5+1有多安全,关键时刻往往就是硬件出问题.
不过我的五一节过的很轻松,五一前迁移的几个数据库运行稳定.
我前一阵emc的一个控制器也坏了,不过幸运没影响,最近连着坏了2块盘,数据库就挂了,我这里还是双阵列用sf镜像的,镜像软件在关键时刻也废了,没起到作用。
其实存储也是单点故障,要想安全,还是要上双存储,或者就做异地容灾。
我更郁闷,在aix上配置了DNS解析服务器:
p5b1@/etc#cat resolv.conf
nameserver 172.16.0.21
nameserver 172.16.0.22
结果有一天.21/.22服务器停机了,结果oracle 10g起不来了,报lmd0 timeout, eygle有碰到过这样的问题么?为什么这个都影响oracle起不来啊?配了这个Oracle就那么依赖他么?
2个DNS服务器都Down了?这可用性也太低了。
最好不要用DNS做解析,否则很容易出问题,10.2.0.3之前,VIP等资源对于名称解析的依赖性很强,容易出问题。