Digital Unix (Compag Alpha4100)上cluster的启动问题?

[复制链接]
查看11 | 回复2 | 2005-10-30 17:05:33 | 显示全部楼层 |阅读模式
我们这里有4台COMPAQ alpha4100小型机组成一个cluster,
其中2台服务器(记为ins1和ins2),2台数据库服务器(记为dbs1和dbs2)
两台dbs服务器采用ops方式,使用ogms管理oracle。
经过观察发现dbs2的ogms有问题,老是莫名地掉掉,通过杀掉ogms进程,再启可以暂时解决ogms掉掉的问题,不过隔了5天左右又会掉掉,并且暂时解决的时候,使用ogmsctl global-status只能看到1台机器。于是咨询800及查询其他相关信息后准备重启cluster。关掉应用后,开始准备关各机器的cluster。当关完dbs1的cluster的时候,800电话建议重启各台机器比较保险。于是将4台机器全部重启。重启后出了一个问题,就是本来整个集群有5个service,其中3个在dbs2上,另外一个在ins1上,一个在ins2上,在重启前各个service状态都是正常的,重启之后,发现dbs2上的三个service状态全部变为unassigned。无论重启顺序怎么变,都无法改变。还有一个问题就是dbs1运行不了asemgr,进不了集群,只有手动运行 ./clumember start 和 ./asemember start才能进入集群(这是compag工程师说的顺序,以前我们也运行过,不过是在两台机器之间,还有一个aseam命令,也用了,不过以前没用过)。进入集群后还有一个问题(发生过一次,现在不记得是怎么解决的了),就是发现其他3台机器都运行不了asemgr。包括只启动dbs1或者dbs2都不能解决问题。
于是将dbs2从集群中删除,本以为这样dbs2上的三个服务会切到dbs1上,结果发现,连应用服务器上的两个service的状态都变为unassigned。没办法,只好将集群配置恢复回去。后来问题的解决办法是在运行dbs1上的双机和cluster的顺序问题,即先启am,再启ase,最后启clu,这样各个service才恢复正常状态。现在我有几个疑惑就是:
1、Compag的DIGITAL UNIX手动进入集群的命令和先后顺序到底是怎样的?
2、为什么dbs2上的三个service会变为unassigned的状态?
3、为什么dbs1重启后不能自动进入cluster?
4、在删除dbs2成员后,为什么其上的三个service没有切换到dbs1上?
5、为什么dbs1进入集群后其他三台机器都不能运行asemgr?


回复

使用道具 举报

千问 | 2005-10-30 17:05:33 | 显示全部楼层
最初由 zfnccn 发布
[B]我们这里有4台COMPAQ alpha4100小型机组成一个cluster,
其中2台服务器(记为ins1和ins2),2台数据库服务器(记为dbs1和dbs2)
两台dbs服务器采用ops方式,使用ogms管理oracle。
经过观察发现dbs2的ogms有问题,老是莫名地掉掉,通过杀掉ogms进程,再启可以暂时解决ogms掉掉的问题,不过隔了5天左右又会掉掉,并且暂时解决的时候,使用ogmsctl global-status只能看到1台机器。于是咨询800及查询其他相关信息后准备重启cluster。关掉应用后,开始准备关各机器的cluster。当关完dbs1的cluster的时候,800电话建议重启各台机器比较保险。于是将4台机器全部重启。重启后出了一个问题,就是本来整个集群有5个service,其中3个在dbs2上,另外一个在ins1上,一个在ins2上,在重启前各个service状态都是正常的,重启之后,发现dbs2上的三个service状态全部变为unassigned。无论重启顺序怎么变,都无法改变。还有一个问题就是dbs1运行不了asemgr,进不了集群,只有手动运行 ./clumember start 和 ./asemember start才能进入集群(这是compag工程师说的顺序,以前我们也运行过,不过是在两台机器之间,还有一个aseam命令,也用了,不过以前没用过)。进入集群后还有一个问题(发生过一次,现在不记得是怎么解决的了),就是发现其他3台机器都运行不了asemgr。包括只启动dbs1或者dbs2都不能解决问题。
于是将dbs2从集群中删除,本以为这样dbs2上的三个服务会切到dbs1上,结果发现,连应用服务器上的两个service的状态都变为unassigned。没办法,只好将集群配置恢复回去。后来问题的解决办法是在运行dbs1上的双机和cluster的顺序问题,即先启am,再启ase,最后启clu,这样各个service才恢复正常状态。现在我有几个疑惑就是:
1、Compag的DIGITAL UNIX手动进入集群的命令和先后顺序到底是怎样的?
2、为什么dbs2上的三个service会变为unassigned的状态?
3、为什么dbs1重启后不能自动进入cluster?
4、在删除dbs2成员后,为什么其上的三个service没有切换到dbs1上?
5、为什么dbs1进入集群后其他三台机器都不能运行asemgr?

[/B]

是邮政的弟兄吧?
我觉得你这种情况最可能是 心跳线路出现故障,导致cluster中各系统出现cluster split的情况, 这种情况可能导致各机器上的cluster配置信息不同步,纵使后来心跳线路好了也还需要手工干预. 至于状态为unsigned的服务, 不切换到dbs1上很正常呀. 配置信息不同步都会导致以上的2/3/5
回复

使用道具 举报

千问 | 2005-10-30 17:05:33 | 显示全部楼层
呵呵,明眼人一看就知道了。
我在dbs1上启./clumember start时,曾经报过如下信息:
Attribute value is not a decimal number.
No action taken.
/usr/sbin/drd_dma: peer-to-peer DMA is not sure to work between SCSI and MEMORY controller.
/usr/sbin/drd_dma: peer-to-peer DMA over MEMORY CHANNEL is not enable.
Trigger action daemon (TRACT server cluster member started)
一开始也曾怀疑过内存通道和SCSI线的问题,但启动最后是成功的,也就没有想太多了。
现在我想问问:心跳线检测有什么好办法没有?除了ping以外,还有没有什么好办法?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行