hp-ux平台CRS问题

[复制链接]
查看11 | 回复8 | 2011-2-18 11:43:34 | 显示全部楼层 |阅读模式
hpux11.31 oracle 10.2.0.4
一节点执行crsctl check crsd没响应,执行crs_stat没响应。
执行crsctl check cssd 和evmd是OK的,数据库运行正常。
另一节点都是OK的,crs_stat显示2个节点所有服务都是OK的。
文件句柄泄漏的patch已安装,racgimon进程没有句柄泄露。
谁碰到这种情况?这么排查处理?
谢谢
回复

使用道具 举报

千问 | 2011-2-18 11:43:34 | 显示全部楼层
另外,异常的那个节点crsd.log中有u_freem: mem passed is null错误,正常节点没这个错误。
回复

使用道具 举报

千问 | 2011-2-18 11:43:34 | 显示全部楼层
原帖由 eof007 于 2011-9-1 10:11 发表
另外,异常的那个节点crsd.log中有u_freem: mem passed is null错误,正常节点没这个错误。

你的节点没有响应和这个没有关系,你可以跟踪一下。或是看看syslog有没有信息.
回复

使用道具 举报

千问 | 2011-2-18 11:43:34 | 显示全部楼层
syslog中没有有价值的,只有用户登录信息。
装了tusc,一个类似strace的工具,发现都在执行一个poll调用的时候sleep了。
我没想到什么方法能深入了。
这个错误也是突然出现的
回复

使用道具 举报

千问 | 2011-2-18 11:43:34 | 显示全部楼层
poll(0x60000000001e7fb0, 2, -1) ..................................................................... = 1
read(5, "\0\0\00 \001\00101\001\0\0\0\001".., 32768) ................................................ = 48
gettimeofday(0x9fffffffffffe790, NULL) .............................................................. = 0
write(5, "\0\0\04 \001\00201010101\0\0\002".., 52) .................................................. = 52
gettimeofday(0x9fffffffffffe510, NULL) .............................................................. = 0
poll(0x60000000001e7fb0, 2, -1) ..................................................................... = 1
read(5, "\0\0\0t \001\00201010101\0\0\002".., 32768) ................................................ = 116
brk(0x6000000000220000) ............................................................................. = 0
open("/opt/oracle/product/10.2.0/crs_1/crs/auth/A8488995/6fa869b6", O_WRONLY|O_CREAT|O_EXCL|0x800, 0644) = 6
fchmod(6, 0644) ..................................................................................... = 0
write(6, "cb` 14a5", 4) ............................................................................. = 4
close(6) ............................................................................................ = 0
write(5, "\0\0\04 \002\00201010101\0\0\003".., 52) .................................................. = 52
write(5, "\0\0\08 \003\00201010101\0\0\004".., 56) .................................................. = 56
gettimeofday(0x9fffffffffffe520, NULL) .............................................................. = 0
poll(0x60000000001e7fb0, 2, -1) ..................................................................... = 1
read(5, "\0\0\08 \003\00201010101\0\0\003".., 32768) ................................................ = 56
write(5, "\0\0019 C P \0\0\t0202\0\0\0\005".., 313) ................................................. = 313
gettimeofday(0x9fffffffffffe660, NULL) .............................................................. = 0
poll(0x60000000001e7fb0, 2, -1) ..................................................................... [sleeping]
有问题的节点最后一个poll是sleeping,但正常的节点是返回1的
[ 本帖最后由 eof007 于 2011-9-1 11:32 编辑 ]
回复

使用道具 举报

千问 | 2011-2-18 11:43:34 | 显示全部楼层
贴出正常和非正常节点tusc的全部内容.
回复

使用道具 举报

千问 | 2011-2-18 11:43:34 | 显示全部楼层
poll调用
前2次返回1,最后一次sleeping,参数一样。

tusc日志没啥特别的地方,主要区别就在最后一个poll调用
回复

使用道具 举报

千问 | 2011-2-18 11:43:34 | 显示全部楼层
请问你这个问题解决了吗?
我也是用truc发现 olsnodes 卡住在这里
read(8, "\0\0- p \003\0\0\n0201\0\0\0\006".., 32768) ......................................................... = 11632
write(8, "\0\019h \002\0\0\n0201\0\0\0\0\b".., 6504) ......................................................... = 6504
gettimeofday(0x9fffffffffff5440, NULL) ....................................................................... = 0
poll(0x60000000001c4af0, 2, -1) .............................................................................. = 1
read(8, "\0\0- p \003\0\0\n0201\0\0\0\0\a".., 32768) ......................................................... = 11632
write(8, "\0\019h \002\0\0\n0201\0\0\0\0\t".., 6504) ......................................................... = 6504
gettimeofday(0x9fffffffffff91d0, NULL) ....................................................................... = 0
poll(0x60000000001c4af0, 2, -1) .............................................................................. = 1
read(8, "\0\0- p \003\0\0\n0201\0\0\0\0\b".., 32768) ......................................................... = 11632
write(8, "\0\019h \002\0\0\n0201\0\0\0\0\n".., 6504) ......................................................... = 6504
gettimeofday(0x9fffffffffff60c0, NULL) ....................................................................... = 0
poll(0x60000000001c4af0, 2, -1) .............................................................................. [sleeping]
回复

使用道具 举报

千问 | 2011-2-18 11:43:34 | 显示全部楼层
poll, ppoll - wait for some event on a file descriptor
poll()performsa similar task to select(2): it waits for one of a set of file descriptors to become ready toperform I/O.
mark学习一下
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行