Dear all,<div><br></div><div>I am running wien2k 11.1 on a cluster with Centos 6 under a pbs queuing system. The job is submitted in a k-point parallel mode and the total 36 kpoints are divided by 16 cups. But there comes some errors in lapw2 and the dnlapw2_18/19/20.error files are not empty. At the same time, the job in pbs system seems dead and can not be killed by the pbs command. The administrator check the computing node and command top shows that the node is experiencing very heavy load above 40. Further, ps aux shows that there are 16 lapw2 processes but not running or say suspended. The jobs caused a heavy load and triggered the self-protection mechanism of the OS, which automatically suspends any running process including ssh login except root account. </div>

<div><br></div><div>Any comments will be appreciated and thanks in advanced.</div><div><br></div><div>The followings are the error files and case.dayfile.</div><div><div><span style="color:rgb(34,34,34);font-family:arial,sans-serif">--------------------dnlapw2_18/19/20.error------------------</span></div>

<div><font color="#222222" face="arial, sans-serif">Error in LAPW2</font></div><div><span style>------------------------------------------------------------------------</span></div><div><span style><br></span></div><div>
<span style>---------------------case</span><font color="#222222" face="arial, sans-serif">.output2dn_19------------------------</font></div>
<div><font color="#222222" face="arial, sans-serif">...</font></div><div><span style><div>       KVEC(     73563) =   -19   -5    9    9.1046    1</div><div>       KVEC(     73564) =   -19   24   -9    9.1046    1</div><div>

       KVEC(     73565) =   -19   24    9    9.1046    1</div><div>       KVEC(     73566) =    19  -24   -9    9.1046    1</div><div>       KVEC(     73567) =    19  -24    9    9.1046    1</div><div>       KVEC(     73568) =    19    5   -9    9.1046    1</div>

<div>       KVEC(     73569) =    19    5    9    9.1046    1</div><div>       KVE</div><div>------------------------------------------------------------------------</div></span></div><div><span style><br></span></div><div>

<span style>--------------------case.dayfile-----------------------------------</span></div><div><span style>...</span></div><div><span style><div>[14]   Done                          ( ( $remote $machine[$p] &quot;cd $PWD;$t $exe ${def}_${loop}.def $loop;fixerror_lapw ${def}_$loop&quot;; rm -f .lock_$lockfile[$p] ) &gt;&amp; .stdout2_$loop; if ( -f .stdout2_$loop ) bashtime2csh.pl_lapw .stdout2_$loop &gt; .temp2_$loop; grep \% .temp2_$loop &gt;&gt; .time2_$loop; grep -v \% .temp2_$loop | perl -e &quot;print stderr &lt;STDIN&gt;&quot; )</div>

<div>[9]    Done                          ( ( $remote $machine[$p] &quot;cd $PWD;$t $exe ${def}_${loop}.def $loop;fixerror_lapw ${def}_$loop&quot;; rm -f .lock_$lockfile[$p] ) &gt;&amp; .stdout2_$loop; if ( -f .stdout2_$loop ) bashtime2csh.pl_lapw .stdout2_$loop &gt; .temp2_$loop; grep \% .temp2_$loop &gt;&gt; .time2_$loop; grep -v \% .temp2_$loop | perl -e &quot;print stderr &lt;STDIN&gt;&quot; )</div>

<div>[4]    Done                          ( ( $remote $machine[$p] &quot;cd $PWD;$t $exe ${def}_${loop}.def $loop;fixerror_lapw ${def}_$loop&quot;; rm -f .lock_$lockfile[$p] ) &gt;&amp; .stdout2_$loop; if ( -f .stdout2_$loop ) bashtime2csh.pl_lapw .stdout2_$loop &gt; .temp2_$loop; grep \% .temp2_$loop &gt;&gt; .time2_$loop; grep -v \% .temp2_$loop | perl -e &quot;print stderr &lt;STDIN&gt;&quot; )</div>

<div>[4] 18809</div><div>-----------------------------------------------------------------------------</div><div><br></div><div>-----------------------------:log--------------------------------------------</div><div><div>

...</div><div>Thu Feb  2 17:58:03 CST 2012&gt; (x) lapw1 -c -dn -p -orb</div><div>Thu Feb  2 19:46:53 CST 2012&gt; (x) lapw2 -c -up -p</div><div>Thu Feb  2 19:51:36 CST 2012&gt; (x) sumpara -up -d</div><div>Thu Feb  2 19:52:07 CST 2012&gt; (x) lapw2 -c -dn -p</div>

</div><div>--------------------------------------------------------------------------------</div><div><br></div><div>(If more information is needed, I will provide.)</div><div><br></div><div>Best,</div><div><br></div></span></div>

-- <br>Bin Shao, Ph.D. Candidate<br>College of Information Technical Science, Nankai University<br>94 Weijin Rd. Nankai Dist. Tianjin 300071, China<br>Email: <a href="mailto:bshao@mail.nankai.edu.cn" target="_blank">bshao@mail.nankai.edu.cn</a><br>


<br>
</div>