<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 TRANSITIONAL//EN">
<HTML>
<HEAD>
  <META HTTP-EQUIV="Content-Type" CONTENT="text/html; CHARSET=UTF-8">
  <META NAME="GENERATOR" CONTENT="GtkHTML/3.26.3">
</HEAD>
<BODY>
Simple 4-node cluster, 2-nodes have a GFS shared home directory mounted for over a month.&nbsp; Today, I wanted to mount /home on a 3rd node, so:<BR>
<BR>
# <B>service fenced start</B>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [failed]<BR>
<BR>
Weird.&nbsp; Checking <B>/var/log/messages</B> show:<BR>
<BR>
<TT>Aug 11 10:19:06 cerberus kernel: Lock_Harness 2.6.9-80.9.el4_7.10 (built Jan 22 2009 18:39:16) installed</TT><BR>
<TT>Aug 11 10:19:06 cerberus kernel: GFS 2.6.9-80.9.el4_7.10 (built Jan 22 2009 18:39:32) installed</TT><BR>
<TT>Aug 11 10:19:06 cerberus kernel: GFS: Trying to join cluster &quot;lock_dlm&quot;, &quot;ccc_cluster47:home&quot;</TT><BR>
<TT>Aug 11 10:19:06 cerberus kernel: Lock_DLM (built Jan 22 2009 18:39:18) installed</TT><BR>
<TT>Aug 11 10:19:06 cerberus kernel: lock_dlm: fence domain not found; check fenced</TT><BR>
<TT>Aug 11 10:19:06 cerberus kernel: GFS: can't mount proto = lock_dlm, table = ccc_cluster47:home, hostdata = </TT><BR>
<BR>
# <B>cman_tool services</B><BR>
<TT>Service&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Name&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; GID LID State&nbsp;&nbsp;&nbsp;&nbsp; Code</TT><BR>
<TT>Fence Domain:&nbsp;&nbsp;&nbsp; &quot;default&quot;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0&nbsp;&nbsp; 2 join&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; S-2,2,1</TT><BR>
<TT>[]</TT><BR>
<BR>
So, a fenced process is now hung:<BR>
<BR>
<TT>root&nbsp;&nbsp;&nbsp;&nbsp; 28302&nbsp; 0.0&nbsp; 0.0&nbsp; 3668&nbsp; 192 ?&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Ss&nbsp;&nbsp; 10:19&nbsp;&nbsp; 0:00 fenced -t 120 -w</TT><BR>
<BR>
<B><FONT COLOR="#0000ff">Q: Any idea how to &quot;recover&quot; from this state, without rebooting?</FONT></B><BR>
<BR>
The other two servers are unaffected by this (thankfully) and show normal operations:<BR>
<BR>
$ <B>cman_tool services</B><BR>
<BR>
<TT>Service&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Name&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; GID LID State&nbsp;&nbsp;&nbsp;&nbsp; Code</TT><BR>
<TT>Fence Domain:&nbsp;&nbsp;&nbsp; &quot;default&quot;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 2&nbsp;&nbsp; 2 run&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -</TT><BR>
<TT>[1 12]</TT><BR>
<BR>
<TT>DLM Lock Space:&nbsp; &quot;home&quot;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 5&nbsp;&nbsp; 5 run&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -</TT><BR>
<TT>[1 12]</TT><BR>
<BR>
<TT>GFS Mount Group: &quot;home&quot;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 6&nbsp;&nbsp; 6 run&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; -</TT><BR>
<TT>[1 12]</TT><BR>
<BR>
</BODY>
</HTML>