设为首页收藏本站

开启辅助访问切换到窄版

第一问答网»论坛 › 中问网 › 问答 › Digital Unix （Compag Alpha4100）上cluster的启动问题 ...

Digital Unix （Compag Alpha4100）上cluster的启动问题？

11 |

2 | 2005-10-30 17:05:33 | 显示全部楼层 |阅读模式

我们这里有4台COMPAQ alpha4100小型机组成一个cluster，
其中2台服务器（记为ins1和ins2），2台数据库服务器（记为dbs1和dbs2）
两台dbs服务器采用ops方式，使用ogms管理oracle。
经过观察发现dbs2的ogms有问题，老是莫名地掉掉，通过杀掉ogms进程，再启可以暂时解决ogms掉掉的问题，不过隔了5天左右又会掉掉，并且暂时解决的时候，使用ogmsctl global-status只能看到1台机器。于是咨询800及查询其他相关信息后准备重启cluster。关掉应用后，开始准备关各机器的cluster。当关完dbs1的cluster的时候，800电话建议重启各台机器比较保险。于是将4台机器全部重启。重启后出了一个问题，就是本来整个集群有5个service，其中3个在dbs2上，另外一个在ins1上，一个在ins2上，在重启前各个service状态都是正常的，重启之后，发现dbs2上的三个service状态全部变为unassigned。无论重启顺序怎么变，都无法改变。还有一个问题就是dbs1运行不了asemgr，进不了集群，只有手动运行 ./clumember start 和 ./asemember start才能进入集群（这是compag工程师说的顺序，以前我们也运行过，不过是在两台机器之间，还有一个aseam命令，也用了，不过以前没用过）。进入集群后还有一个问题（发生过一次，现在不记得是怎么解决的了），就是发现其他3台机器都运行不了asemgr。包括只启动dbs1或者dbs2都不能解决问题。
于是将dbs2从集群中删除，本以为这样dbs2上的三个服务会切到dbs1上，结果发现，连应用服务器上的两个service的状态都变为unassigned。没办法，只好将集群配置恢复回去。后来问题的解决办法是在运行dbs1上的双机和cluster的顺序问题，即先启am，再启ase，最后启clu，这样各个service才恢复正常状态。现在我有几个疑惑就是：
1、Compag的DIGITAL UNIX手动进入集群的命令和先后顺序到底是怎样的？
2、为什么dbs2上的三个service会变为unassigned的状态？
3、为什么dbs1重启后不能自动进入cluster？
4、在删除dbs2成员后，为什么其上的三个service没有切换到dbs1上？
5、为什么dbs1进入集群后其他三台机器都不能运行asemgr？

回复

使用道具举报

千问 | 2005-10-30 17:05:33 | 显示全部楼层

最初由 zfnccn 发布
[B]我们这里有4台COMPAQ alpha4100小型机组成一个cluster，
其中2台服务器（记为ins1和ins2），2台数据库服务器（记为dbs1和dbs2）
两台dbs服务器采用ops方式，使用ogms管理oracle。
经过观察发现dbs2的ogms有问题，老是莫名地掉掉，通过杀掉ogms进程，再启可以暂时解决ogms掉掉的问题，不过隔了5天左右又会掉掉，并且暂时解决的时候，使用ogmsctl global-status只能看到1台机器。于是咨询800及查询其他相关信息后准备重启cluster。关掉应用后，开始准备关各机器的cluster。当关完dbs1的cluster的时候，800电话建议重启各台机器比较保险。于是将4台机器全部重启。重启后出了一个问题，就是本来整个集群有5个service，其中3个在dbs2上，另外一个在ins1上，一个在ins2上，在重启前各个service状态都是正常的，重启之后，发现dbs2上的三个service状态全部变为unassigned。无论重启顺序怎么变，都无法改变。还有一个问题就是dbs1运行不了asemgr，进不了集群，只有手动运行 ./clumember start 和 ./asemember start才能进入集群（这是compag工程师说的顺序，以前我们也运行过，不过是在两台机器之间，还有一个aseam命令，也用了，不过以前没用过）。进入集群后还有一个问题（发生过一次，现在不记得是怎么解决的了），就是发现其他3台机器都运行不了asemgr。包括只启动dbs1或者dbs2都不能解决问题。
于是将dbs2从集群中删除，本以为这样dbs2上的三个服务会切到dbs1上，结果发现，连应用服务器上的两个service的状态都变为unassigned。没办法，只好将集群配置恢复回去。后来问题的解决办法是在运行dbs1上的双机和cluster的顺序问题，即先启am，再启ase，最后启clu，这样各个service才恢复正常状态。现在我有几个疑惑就是：
1、Compag的DIGITAL UNIX手动进入集群的命令和先后顺序到底是怎样的？
2、为什么dbs2上的三个service会变为unassigned的状态？
3、为什么dbs1重启后不能自动进入cluster？
4、在删除dbs2成员后，为什么其上的三个service没有切换到dbs1上？
5、为什么dbs1进入集群后其他三台机器都不能运行asemgr？

[/B]
是邮政的弟兄吧?
我觉得你这种情况最可能是心跳线路出现故障,导致cluster中各系统出现cluster split的情况, 这种情况可能导致各机器上的cluster配置信息不同步,纵使后来心跳线路好了也还需要手工干预. 至于状态为unsigned的服务, 不切换到dbs1上很正常呀. 配置信息不同步都会导致以上的2/3/5

回复

使用道具举报

千问 | 2005-10-30 17:05:33 | 显示全部楼层

呵呵，明眼人一看就知道了。
我在dbs1上启./clumember start时，曾经报过如下信息：
Attribute value is not a decimal number.
No action taken.
/usr/sbin/drd_dma: peer-to-peer DMA is not sure to work between SCSI and MEMORY controller.
/usr/sbin/drd_dma: peer-to-peer DMA over MEMORY CHANNEL is not enable.
Trigger action daemon （TRACT server cluster member started)
一开始也曾怀疑过内存通道和SCSI线的问题，但启动最后是成功的，也就没有想太多了。
现在我想问问：心跳线检测有什么好办法没有？除了ping以外，还有没有什么好办法？

回复

使用道具举报

返回列表发新帖

主题	0 回帖	4882万积分

Rank: 8 Rank: 8

积分: 48824836

回复楼主返回列表

问答

热门排行