sun cluster+oracle9数据库问题

显示全部楼层 · 2007-9-26 18:42:10

系统配置sun cluster 3.1 + oracle9最近发现oracle经常被sun cluster自动重启：
Jul 13 04:01:41 cqdb SC[SUNWscor.oracle_server.monitor]:cqc-rg

ra_server: [ID 564643 local7.error] Fault monitor detected error DBMS_ERROR: 3114 DEFAULT Action=NONE : Not connected?
Jul 13 04:01:44 cqdb SC[SUNWscor.oracle_server.monitor]:cqc-rg

ra_server: [ID 564643 local7.error] Fault monitor detected error DBMS_ERROR: 1034 DEFAULT Action=RESTART : Oracle is not available
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 784560 daemon.notice] resource ora_server status on node cqdb change to R_FM_FAULTED
Jul 13 04:01:44 cqdb SC[SUNWscor.oracle_server.monitor]:cqc-rg

ra_server: [ID 995339 local7.error] Restarting using scha_control RESTART
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 529407 daemon.notice] resource group cqc-rg state on node cqdb change to RG_PENDING_OFFLINE
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 443746 daemon.notice] resource ora_server state on node cqdb change to R_MON_STOPPING
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 443746 daemon.notice] resource ora_lnsr-res state on node cqdb change to R_MON_STOPPING
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 443746 daemon.notice] resource usr5res state on node cqdb change to R_MON_STOPPING
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 443746 daemon.notice] resource dg-res state on node cqdb change to R_MON_STOPPING
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 443746 daemon.notice] resource cqc state on node cqdb change to R_MON_STOPPING
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 707948 daemon.notice] launching methodfor resource , resource group , timeoutseconds
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 707948 daemon.notice] launching methodfor resource , resource group , timeoutseconds
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 707948 daemon.notice] launching methodfor resource , resource group , timeoutseconds
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 707948 daemon.notice] launching method for resource , resource group , timeoutseconds
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 707948 daemon.notice] launching method for resource , resource group , timeoutseconds
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 736390 daemon.notice] methodcompleted successfully for resource , resource group , time used: 0% of timeout
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 736390 daemon.notice] methodcompleted successfully for resource , resource group , time used: 0% of timeout
经过初步检查是由于cluster检查不到oracle状态，就把oracle关闭后重启了，，但是为什么会造成这种情况呢？
现在我已经 Probe_timeout为 240
问个问题：cluster 监控oracle状态时怎么实现？
现在不知道是cluster的问题还oracle的问题？

千问 · 2007-9-26 18:42:10

沙发自己做。。。。。。

千问 · 2007-9-26 18:42:10

我认为跟Probe_timeout没有关系，应该是你在文件中定义了类似：
{
ERROR_TYPE=DBMS_ERROR
ERROR=1034;
ACTION=RESTART
……
}
这样的探测到ora-01034就重启的机制。
但是既然先报 3114 接着报 1034就不好判断到底是数据库出问题了还是Fault Monitors的问题了。oracle的alert日志，相应时间的那一段是怎样的？

千问 · 2007-9-26 18:42:10

原帖由油菜于 2010-7-14 15:45 发表
我认为跟Probe_timeout没有关系，应该是你在文件中定义了类似：
{
ERROR_TYPE=DBMS_ERROR
ERROR=1034;
ACTION=RESTART
……
}
这样的探测到ora-01034就重启的机制。
但是既然先报 3114 接着报 1034就不好判断到底是数据库出问题了还是Fault Monitors的问题了。oracle的alert日志，相应时间的那一段是怎样的？
在/var/opt/SUNWscor/oracle_server/message_log.ora_server 里确实记录了
Jul 13 04:01:41 SC[SUNWscor.oracle_server.monitor]:cqc-rg

ra_server: Fault monitor detected error DBMS_ERROR: 3114 DEFAULT Action=N
ONE : Not connected?
Jul 13 04:01:44 SC[SUNWscor.oracle_server.monitor]:cqc-rg

ra_server: Fault monitor detected error DBMS_ERROR: 1034 DEFAULT Action=R
ESTART : Oracle is not available
Jul 13 04:01:44 SC[SUNWscor.oracle_server.monitor]:cqc-rg

ra_server: Restarting using scha_control RESTART
Jul 13 04:01:44 SC[SUNWscor.oracle_server.monitor_stop]:cqc-rg

ra_server: Stopping fault monitor using pmfadm tag ORASERV_MON_ora_s
erver
Jul 13 04:01:45 SC[SUNWscor.oracle_server.stop]:cqc-rg

ra_server: Server is not running. Calling shutdown abort to clear shared mem
ory (if any)
SQL*Plus: Release 9.2.0.6.0 - Production on Tue Jul 13 04:01:45 2010
Copyright (c) 1982, 2002, Oracle Corporation.All rights reserved.
Connected to an idle instance.
SQL> ORACLE instance shut down.
SQL> Disconnected

但是alert_.log里：
Tue Jul 13 04:01:21 2010
Errors in file /opt/app/oracle/admin/cqdb/bdump/cqdb_pmon_9368.trc:
ORA-07445: exception encountered: core dump [0000000101C38640] [SIGSEGV] [Address not mapped to object] [0x000000000] [] []
Tue Jul 13 04:01:22 2010
Errors in file /opt/app/oracle/admin/cqdb/bdump/cqdb_pmon_9368.trc:
ORA-07445: exception encountered: core dump [0000000101C38640] [SIGSEGV] [Address not mapped to object] [0x000000000] [] []
ORA-00602: internal programming exception
ORA-07445: exception encountered: core dump [0000000101C38640] [SIGSEGV] [Address not mapped to object] [0x000000000] [] []
Tue Jul 13 04:01:25 2010
ARC1: terminating instance due to error 472
Instance terminated by ARC1, pid = 9461
Tue Jul 13 04:02:03 2010
Starting ORACLE instance (normal)

问个问题：cluster的检测3114和1034，是配置什么地方文件里的？cluster监控oracle状态是不是通过sqlplus连接上去如果报
3114和1034，就会造成cluster启动oracle数据库

千问 · 2007-9-26 18:42:10

应该是实例崩溃了？

千问 · 2007-9-26 18:42:10

应该是oracle 的instance崩溃了。导致cluster监控不到ORACLE的状态，然后cluster 认为ORACLE是关闭的，然后再次重新启动ORACLE的instance

千问 · 2007-9-26 18:42:10

在观察一下。。。。。。

千问 · 2007-9-26 18:42:10

但是实例崩溃在alter文件中应该有记录吧，我在alter文件中根本没有看到相关的报错信息。。。