RAC脑裂的疑惑?

[复制链接]
查看11 | 回复9 | 2010-1-4 08:33:08 | 显示全部楼层 |阅读模式
我想请教个脑裂的问题,私有网络通信出现故障会出现脑裂的情况,投票算法会利用表决磁盘来踢出某个节点,将剩余的节点组成新的集群,那么请问,如果表决磁盘访问出现问题呢?这叫什么呢?也是脑裂的一种?经过实践证明,表决磁盘如果出现访问故障会将实例直接终止,某个节点表决磁盘访问出现故障会终止所有的节点吗?
回复

使用道具 举报

千问 | 2010-1-4 08:33:08 | 显示全部楼层
这里面还是有很多bug的。
通常情况下主节点不应该宕掉的。
回复

使用道具 举报

千问 | 2010-1-4 08:33:08 | 显示全部楼层
还没有留意过楼主说的问题。 学习。
回复

使用道具 举报

千问 | 2010-1-4 08:33:08 | 显示全部楼层
VOTE DISK的心跳又两种 网络和磁盘
你说的是后一种,如果发生那种情况的话,一般来说就是那个节点访问
共享存储的设备出现了问题~如果超时的话就会重启
另一个节点reconfiguration
脑裂的话我的理解是特指只是心跳出现了问题~而且应该指的是网络的心跳
如果VOTE DISK本身不行了的话,那应该是两个都重启
回复

使用道具 举报

千问 | 2010-1-4 08:33:08 | 显示全部楼层
感谢你的回答。
我也觉得脑裂特指网络心跳出现故障。
磁盘心跳出现故障有特定的叫法吗?
前段时间我们有个地方的10.2.0.5 RAC生产环境出现votedisk访问不稳定的情况,超时200秒,导致2个节点的实例都被终止。下面是日志截取:
Wed Mar 16 13:54:03 CST 2011
LMON (ospid: 8471) is not heartbeating for 202 seconds.
LMON is not healthy and has no heartbeat.
Please check LMD0/LMS0 and DIAG trace files for detail.
Wed Mar 16 13:54:09 CST 2011
LMS0 (ospid: 8479) is terminating the instance.
LMS0: terminating instance due to error 484
Wed Mar 16 13:54:21 CST 2011
Termination issued to instance processes. Waiting for the processes to exit
Wed Mar 16 13:54:27 CST 2011
Instance termination failed to kill one or more processes
Instance terminated by LMS0, pid = 8479
而非重启节点,但我后来查了一下,我判断原因在于FC HBA卡与存储不兼容造成的访问的不稳定导致的,但另一台服务器的兼容性是没问题的,第1台被终止之后,随后第2个节点也被终止了!!!
难道就如chensq版主所说存在很多bug?
回复

使用道具 举报

千问 | 2010-1-4 08:33:08 | 显示全部楼层
原帖由 尛样儿 于 2011-4-5 21:23 发表
感谢你的回答。
我也觉得脑裂特指网络心跳出现故障。
磁盘心跳出现故障有特定的叫法吗?
前段时间我们有个地方的10.2.0.5 RAC生产环境出现votedisk访问不稳定的情况,超时200秒,导致2个节点的实例都被终止。下面是日志截取:
Wed Mar 16 13:54:03 CST 2011
LMON (ospid: 8471) is not heartbeating for 202 seconds.
LMON is not healthy and has no heartbeat.
Please check LMD0/LMS0 and DIAG trace files for detail.
Wed Mar 16 13:54:09 CST 2011
LMS0 (ospid: 8479) is terminating the instance.
LMS0: terminating instance due to error 484
Wed Mar 16 13:54:21 CST 2011
Termination issued to instance processes. Waiting for the processes to exit
Wed Mar 16 13:54:27 CST 2011
Instance termination failed to kill one or more processes
Instance terminated by LMS0, pid = 8479
而非重启节点,但我后来查了一下,我判断原因在于FC HBA卡与存储不兼容造成的访问的不稳定导致的,但另一台服务器的兼容性是没问题的,第1台被终止之后,随后第2个节点也被终止了!!!
难道就如chensq版主所说存在很多bug?

1号应该是主节点,把2号踢了,结果自己也挂了。


回复

使用道具 举报

千问 | 2010-1-4 08:33:08 | 显示全部楼层
学习
回复

使用道具 举报

千问 | 2010-1-4 08:33:08 | 显示全部楼层
应该两个实例都down掉了。
根据仲裁方法,在线有节点要大小(n+1)/2
回复

使用道具 举报

千问 | 2010-1-4 08:33:08 | 显示全部楼层
你这个报的LMON的心跳问题~你怎么确定是VOTE DISK出了问题呢?
也可能是网络心跳啊~也可能是controlfile啊
回复

使用道具 举报

千问 | 2010-1-4 08:33:08 | 显示全部楼层
版主如何判读是节点1把节点2踢了?从时间来看是节点1先当掉,然后节点2才当的。
节点1踢了节点2自己当了,这就是您所说的bug哇?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行