<p>Most probably you have a problem in the initial setup, less likely is an mpi problem.</p>
<p>Please verify first that this particular case will run in non mpi mode, k-point parallel.</p>
<p>If it does, please check the mail list history for openmpi. You need to compile correctly, use a recent enough openmpi version and avoid issues with openmpi not exporting evironmental parameters.</p>
<div class="gmail_quote">On Jan 18, 2011 5:07 PM, &quot;Laurent CHAPUT&quot; &lt;<a href="mailto:Laurent.Chaput@ijl.nancy-universite.fr">Laurent.Chaput@ijl.nancy-universite.fr</a>&gt; wrote:<br type="attribution">&gt; Dear Wien2k users<br>
&gt; <br>&gt; I am experiencing some problems trying to run an mpi calculation on our cluster. I am using the version 10.1 (Release 7/6/2010) with openmi and the intel compiler. I end up with errors in the dayfile and in the error file (see below).<br>
&gt; Here is my .machines file :<br>&gt; <br>&gt; lapw0:node046.cm.cluster  node046.cm.cluster  node046.cm.cluster  node046.cm.cluster<br>&gt; 1:node046.cm.cluster node046.cm.cluster node046.cm.cluster node046.cm.cluster<br>
&gt; granularity:1<br>&gt; extrafine:1<br>&gt; <br>&gt; I would appreciate any help.<br>&gt; Thanks in advance,<br>&gt; L. Chaput<br>&gt; <br>&gt; <br>&gt;&gt;   lapw0 -p    (23:43:38) starting parallel lapw0 at Tue Jan 18 23:43:38 CET 2011<br>
&gt; -------- .machine0 : 4 processors<br>&gt; 3.906u 0.165s 0:02.14 189.7%    0+0k 0+0io 24pf+0w<br>&gt;&gt;   lapw1  -p   (23:43:40) starting parallel lapw1 at Tue Jan 18 23:43:40 CET 2011<br>&gt; -&gt;  starting parallel LAPW1 jobs at Tue Jan 18 23:43:40 CET 2011<br>
&gt; Tue Jan 18 23:43:40 CET 2011 -&gt; Setting up case bi for parallel execution<br>&gt; Tue Jan 18 23:43:40 CET 2011 -&gt; of LAPW1<br>&gt; Tue Jan 18 23:43:40 CET 2011 -&gt;<br>&gt; running LAPW1 in parallel mode (using .machines)<br>
&gt; Granularity set to 1<br>&gt; Extrafine set<br>&gt; Tue Jan 18 23:43:40 CET 2011 -&gt; klist:       116<br>&gt; Tue Jan 18 23:43:40 CET 2011 -&gt; machines:    node046.cm.cluster node046.cm.cluster node046.cm.cluster node046.cm.cluster<br>
&gt; Tue Jan 18 23:43:40 CET 2011 -&gt; procs:       1<br>&gt; Tue Jan 18 23:43:40 CET 2011 -&gt; weigh(old):  1<br>&gt; Tue Jan 18 23:43:40 CET 2011 -&gt; sumw:        1<br>&gt; Tue Jan 18 23:43:40 CET 2011 -&gt; granularity: 1<br>
&gt; Tue Jan 18 23:43:40 CET 2011 -&gt; weigh(new):  116<br>&gt; Tue Jan 18 23:43:40 CET 2011 -&gt; Splitting bi.klist.tmp into junks<br>&gt; .machinetmp<br>&gt; 1 number_of_parallel_jobs<br>&gt; prepare 1 on node046.cm.cluster<br>
&gt; Tue Jan 18 23:43:40 CET 2011 -&gt; Creating klist 1<br>&gt; waiting for all processes to complete<br>&gt; Tue Jan 18 23:43:42 CET 2011 -&gt; all processes done.<br>&gt; Tue Jan 18 23:43:43 CET 2011 -&gt; CPU TIME summary:<br>
&gt; Tue Jan 18 23:43:43 CET 2011 -&gt; ================<br>&gt;      node046.cm.cluster node046.cm.cluster node046.cm.cluster node046.cm.cluster(116)  Child id           3 SIGSEGV, contact developers<br>&gt;  Child id           1 SIGSEGV, contact developers<br>
&gt;  Child id           2 SIGSEGV, contact developers<br>&gt;  Child id           0 SIGSEGV, contact developers<br>&gt; 0.080u 0.077s 0:01.13 13.2%     0+0k 0+0io 16pf+0w<br>&gt;    Summary of lapw1para:<br>&gt;    node046.cm.cluster    k=0     user=0  wallclock=6960<br>
&gt; 0.122u 0.397s 0:03.22 15.8%     0+0k 0+0io 16pf+0w<br>&gt;&gt;   lapw2 -p    (23:43:43) running LAPW2 in parallel mode<br>&gt; **  LAPW2 crashed!<br>&gt; 0.029u 0.085s 0:00.12 83.3%     0+0k 0+0io 0pf+0w<br>&gt; error: command   /CALCULS/lchaput/code/wien2k/lapw2para lapw2.def   failed<br>
&gt; <br>&gt;&gt;   stop error<br>&gt; +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++<br>&gt; And this in the error file.<br>&gt; <br>&gt; LAPW0 END<br>&gt;  LAPW0 END<br>&gt;  LAPW0 END<br>&gt;  LAPW0 END<br>
&gt; .machinetmp222: No such file or directory<br>&gt; w2k_dispatch_signal(): received: Segmentation fault<br>&gt; w2k_dispatch_signal(): received: Segmentation fault<br>&gt; w2k_dispatch_signal(): received: Segmentation fault<br>
&gt; w2k_dispatch_signal(): received: Segmentation fault<br>&gt; --------------------------------------------------------------------------<br>&gt; MPI_ABORT was invoked on rank 3 in communicator MPI_COMM_WORLD<br>&gt; with errorcode 8292600.<br>
&gt; <br>&gt; NOTE: invoking MPI_ABORT causes Open MPI to kill all MPI processes.<br>&gt; You may or may not see output from other processes, depending on<br>&gt; exactly when Open MPI kills them.<br>&gt; --------------------------------------------------------------------------<br>
&gt; --------------------------------------------------------------------------<br>&gt; mpirun has exited due to process rank 1 with PID 24638 on<br>&gt; node node046 exiting without calling &quot;finalize&quot;. This may<br>
&gt; have caused other processes in the application to be<br>&gt; terminated by signals sent by mpirun (as reported here).<br>&gt; --------------------------------------------------------------------------<br>&gt; [node046:24635] 3 more processes have sent help message help-mpi-api.txt / mpi-abort<br>
&gt; [node046:24635] Set MCA parameter &quot;orte_base_help_aggregate&quot; to 0 to see all help / error messages<br>&gt; w2k_dispatch_signal(): received: Terminated<br>&gt; bi.scf1_1: No such file or directory.<br>&gt; FERMI - Error<br>
&gt; cp: cannot stat `.in.tmp&#39;: No such file or directory<br>&gt; rm: cannot remove `.in.tmp&#39;: No such file or directory<br>&gt; rm: cannot remove `.in.tmp1&#39;: No such file or directory<br>&gt; _______________________________________________<br>
&gt; Wien mailing list<br>&gt; <a href="mailto:Wien@zeus.theochem.tuwien.ac.at">Wien@zeus.theochem.tuwien.ac.at</a><br>&gt; <a href="http://zeus.theochem.tuwien.ac.at/mailman/listinfo/wien">http://zeus.theochem.tuwien.ac.at/mailman/listinfo/wien</a><br>
</div>