arron刘 发表于 2012-11-20 10:22
来点干货吧。
好吧,说下以前在富士康的一个事情.
是Oracle环境的.当时有对Oracle数据库建制Standby数据库,是每15分钟将Archive Log传送到Standby服务器上,之后应用到Standby数据库.
而且由于磁盘空间紧张,所以也设置的有Crontab来定期删除Archive Log.
同时每天,System部门的同事也有将这些Archive Log备份到Tape,并且保存三年时间.(由于是每天备份,所以可以保证所有的Archive Log都能被完整的备份到Tape)
之后某一天,业务部门提出需求,需要将一个月之前的数据库恢复出来,他们需要做一些比对.
这时,就需要System部门的同事将Tape中的文件传送到Server上,之后再应用.
但是悲剧的事情发生了,System是每天有在做到Tape的backup,但是Check Backup的人不太仔细,导致最近两个月的Tape Backup都失败了.也就是说我们根本不可能实现用户的需求.
最后也没办法,只能对业务部门say sorry.当然那个同事也被我们的副理训惨了.最后据说,那一年的绩效没了..........
所以不管是对数据库还是其他的一些文件,假如非常重要,那么我们需要严格的执行备份+Check备份+定期还原机制.
这样才能保证我们的SLA.否则会被业务部门或者用户challenge.
|