sun cluster+oracle9数据库问题

[复制链接]
查看11 | 回复7 | 2007-9-26 18:42:10 | 显示全部楼层 |阅读模式
系统配置sun cluster 3.1 + oracle9最近发现oracle经常被sun cluster自动重启:
Jul 13 04:01:41 cqdb SC[SUNWscor.oracle_server.monitor]:cqc-rg

ra_server: [ID 564643 local7.error] Fault monitor detected error DBMS_ERROR: 3114 DEFAULT Action=NONE : Not connected?
Jul 13 04:01:44 cqdb SC[SUNWscor.oracle_server.monitor]:cqc-rg

ra_server: [ID 564643 local7.error] Fault monitor detected error DBMS_ERROR: 1034 DEFAULT Action=RESTART : Oracle is not available
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 784560 daemon.notice] resource ora_server status on node cqdb change to R_FM_FAULTED
Jul 13 04:01:44 cqdb SC[SUNWscor.oracle_server.monitor]:cqc-rg

ra_server: [ID 995339 local7.error] Restarting using scha_control RESTART
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 529407 daemon.notice] resource group cqc-rg state on node cqdb change to RG_PENDING_OFFLINE
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 443746 daemon.notice] resource ora_server state on node cqdb change to R_MON_STOPPING
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 443746 daemon.notice] resource ora_lnsr-res state on node cqdb change to R_MON_STOPPING
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 443746 daemon.notice] resource usr5res state on node cqdb change to R_MON_STOPPING
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 443746 daemon.notice] resource dg-res state on node cqdb change to R_MON_STOPPING
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 443746 daemon.notice] resource cqc state on node cqdb change to R_MON_STOPPING
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 707948 daemon.notice] launching methodfor resource , resource group , timeoutseconds
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 707948 daemon.notice] launching methodfor resource , resource group , timeoutseconds
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 707948 daemon.notice] launching methodfor resource , resource group , timeoutseconds
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 707948 daemon.notice] launching method for resource , resource group , timeoutseconds
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 707948 daemon.notice] launching method for resource , resource group , timeoutseconds
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 736390 daemon.notice] methodcompleted successfully for resource , resource group , time used: 0% of timeout
Jul 13 04:01:44 cqdb Cluster.RGM.rgmd: [ID 736390 daemon.notice] methodcompleted successfully for resource , resource group , time used: 0% of timeout
经过初步检查是由于cluster检查不到oracle状态,就把oracle关闭后重启了,,但是为什么会造成这种情况呢?
现在我已经 Probe_timeout为 240
问个问题:cluster 监控oracle状态时怎么实现?
现在不知道是cluster的问题还oracle的问题?
回复

使用道具 举报

千问 | 2007-9-26 18:42:10 | 显示全部楼层
沙发自己做。。。。。。
回复

使用道具 举报

千问 | 2007-9-26 18:42:10 | 显示全部楼层
我认为跟Probe_timeout没有关系,应该是你在文件中定义了类似:
{
ERROR_TYPE=DBMS_ERROR
ERROR=1034;
ACTION=RESTART
……
}
这样的探测到ora-01034就重启的机制。
但是既然先报 3114 接着报 1034就不好判断到底是数据库出问题了还是Fault Monitors的问题了。oracle的alert日志,相应时间的那一段是怎样的?
回复

使用道具 举报

千问 | 2007-9-26 18:42:10 | 显示全部楼层
原帖由 油菜 于 2010-7-14 15:45 发表
我认为跟Probe_timeout没有关系,应该是你在文件中定义了类似:
{
ERROR_TYPE=DBMS_ERROR
ERROR=1034;
ACTION=RESTART
……
}
这样的探测到ora-01034就重启的机制。
但是既然先报 3114 接着报 1034就不好判断到底是数据库出问题了还是Fault Monitors的问题了。oracle的alert日志,相应时间的那一段是怎样的?

在/var/opt/SUNWscor/oracle_server/message_log.ora_server 里确实记录了
Jul 13 04:01:41 SC[SUNWscor.oracle_server.monitor]:cqc-rg

ra_server: Fault monitor detected error DBMS_ERROR: 3114 DEFAULT Action=N
ONE : Not connected?
Jul 13 04:01:44 SC[SUNWscor.oracle_server.monitor]:cqc-rg

ra_server: Fault monitor detected error DBMS_ERROR: 1034 DEFAULT Action=R
ESTART : Oracle is not available
Jul 13 04:01:44 SC[SUNWscor.oracle_server.monitor]:cqc-rg

ra_server: Restarting using scha_control RESTART
Jul 13 04:01:44 SC[SUNWscor.oracle_server.monitor_stop]:cqc-rg

ra_server: Stopping fault monitor using pmfadm tag ORASERV_MON_ora_s
erver
Jul 13 04:01:45 SC[SUNWscor.oracle_server.stop]:cqc-rg

ra_server: Server is not running. Calling shutdown abort to clear shared mem
ory (if any)
SQL*Plus: Release 9.2.0.6.0 - Production on Tue Jul 13 04:01:45 2010
Copyright (c) 1982, 2002, Oracle Corporation.All rights reserved.
Connected to an idle instance.
SQL> ORACLE instance shut down.
SQL> Disconnected

但是alert_.log里:
Tue Jul 13 04:01:21 2010
Errors in file /opt/app/oracle/admin/cqdb/bdump/cqdb_pmon_9368.trc:
ORA-07445: exception encountered: core dump [0000000101C38640] [SIGSEGV] [Address not mapped to object] [0x000000000] [] []
Tue Jul 13 04:01:22 2010
Errors in file /opt/app/oracle/admin/cqdb/bdump/cqdb_pmon_9368.trc:
ORA-07445: exception encountered: core dump [0000000101C38640] [SIGSEGV] [Address not mapped to object] [0x000000000] [] []
ORA-00602: internal programming exception
ORA-07445: exception encountered: core dump [0000000101C38640] [SIGSEGV] [Address not mapped to object] [0x000000000] [] []
Tue Jul 13 04:01:25 2010
ARC1: terminating instance due to error 472
Instance terminated by ARC1, pid = 9461
Tue Jul 13 04:02:03 2010
Starting ORACLE instance (normal)

问个问题:cluster的检测3114和1034,是配置什么地方文件里的?cluster监控oracle状态是不是通过sqlplus连接上去如果报
3114和1034,就会造成cluster启动oracle数据库
回复

使用道具 举报

千问 | 2007-9-26 18:42:10 | 显示全部楼层
应该是实例崩溃了?
回复

使用道具 举报

千问 | 2007-9-26 18:42:10 | 显示全部楼层
应该是oracle 的instance崩溃了。导致cluster监控不到ORACLE的状态,然后cluster 认为ORACLE是关闭的,然后再次重新启动ORACLE的instance
回复

使用道具 举报

千问 | 2007-9-26 18:42:10 | 显示全部楼层
在观察一下。。。。。。
回复

使用道具 举报

千问 | 2007-9-26 18:42:10 | 显示全部楼层
但是实例崩溃在alter文件中应该有记录吧,我在alter文件中根本没有看到相关的报错信息。。。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行