<div dir="ltr">Dear Prof. Marks,<div><br></div><div style>   Thank you very much for your comments.</div><div style>   I suspect that &quot;sys_adm&quot; changed something they &quot;assumed&quot; harmless for users.</div>
<div style>   I will follow your suggestions.</div><div style>   All the best,</div><div style>                 Luis</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">2014-05-29 10:19 GMT-03:00 Laurence Marks <span dir="ltr">&lt;<a href="mailto:L-marks@northwestern.edu" target="_blank">L-marks@northwestern.edu</a>&gt;</span>:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Problems such as this are hard to help with remotely. It looks like<br>
something has gone wrong at the system level, and my guess is that it<br>
has one of two sources:<br>
<br>
a. Something has gone wrong with your account/directories. It could be<br>
as simple as your time allocation has expired, your password has been<br>
hacked or your .bashrc file has got corrupted. Check the basics, e.g.<br>
you can create a file, compile a simple program etc. While this is<br>
unlikely, you never know.<br>
<br>
b. There have been OS changes &quot;of some sort&quot;. Many sys_admins assume<br>
that users just employ the software that is provided, often using<br>
modules, and this is not compatible with how Wien2k runs. It may be<br>
that they have removed some of the libraries that you linked Wien2k<br>
against, changed how the nodes list is provided to you (which may<br>
break Machines2W). For instance, the overwriting of OMP_NUM_THREADS<br>
implies to me that someone has decided that &quot;of course&quot; you want to<br>
run using openmpi, which at least at the moment is not useful to you.<br>
(I know PB wants to change this, so sometime this statement may<br>
change.)<br>
<br>
Try some diagnostics to try and work out what has happened, for instance:<br>
* Compile something like &quot;hello world&quot; both mpi and non-mpi versions,<br>
then run it in a simple job.<br>
* Write a small script to interrogate the environment when you start a<br>
job, e.g. using commands such as &quot;ldd $WIENROOT/lapw1_mpi&quot;, &quot;env |<br>
grep -e MPI -e MKL&quot; as well as obvious ones such as ulimit, &quot;echo<br>
$PATH&quot; etc.<br>
* Check the cluster web-page, maybe they announced some changes.<br>
* Use &quot;ifort --version&quot; and similar, as well as &quot;which mpirun&quot; and<br>
similar -- maybe new.<br>
* If you know a friendly sys_admin ask them for general info. It is<br>
good to nurture someone.<br>
<br>
Of course, all of this may be totally wrong and you may have already<br>
sorted things out.<br>
<div><div class="h5"><br>
<br>
On Wed, May 28, 2014 at 8:23 AM, Luis Ogando &lt;<a href="mailto:lcodacal@gmail.com">lcodacal@gmail.com</a>&gt; wrote:<br>
&gt; Dear Wien2k community,<br>
&gt;<br>
&gt;    I have Wien2k 13.1 installed in a SGI cluster using ifort, icc and Open<br>
&gt; MPI. The installation was a hard work (I would like to thank again the help<br>
&gt; from Prof. Lawrence Marks), but after all I have used Wien2k without<br>
&gt; problems for several months.<br>
&gt;    I performed the first step of a long calculation and saved it in a<br>
&gt; different directory. When I tried the next step in the original directory,<br>
&gt; Wien2k crashed. After some tests, I decided to reinitialize the calculation<br>
&gt; from the beginning (in other words, to repeat the first step). To my<br>
&gt; surprise, I did not succeed even in this case and I would like to know if<br>
&gt; someone has faced such an unexpected problem.<br>
&gt;    Please, find below some of the output files that I consider the most<br>
&gt; relevant ones.<br>
&gt;    Finally, I would like to stress some points:<br>
&gt;<br>
&gt; 1) lapw0 stops after more or less 7 minutes, but it took about 2 hours in<br>
&gt; the successful calculation.<br>
&gt;<br>
&gt; 2) lapw1 stops after 5 seconds without generating the case.energy_* files<br>
&gt; and case.dayfile does not contain the time statistic for each processor.<br>
&gt;<br>
&gt; 3) OMP_NUM_THREADS=12 is overwritten by the system (in my .bashrc I have<br>
&gt; OMP_NUM_THREADS=1), but even when I export this variable equal to 1 in the<br>
&gt; submission script, I get the same crash.<br>
&gt;<br>
&gt;    Thank you very much for your attention,<br>
&gt;               Luis<br>
&gt; ===========================================================<br>
&gt; :log file<br>
&gt;<br>
&gt;&gt;   (init_lapw) options:<br>
&gt; Wed Apr  2 14:07:30 BRT 2014&gt; (x_lapw) nn -f InPzb15InPwurt3-V2<br>
&gt; Wed Apr  2 14:07:46 BRT 2014&gt; (x) nn<br>
&gt; Wed Apr  2 14:08:03 BRT 2014&gt; (x) sgroup<br>
&gt; Wed Apr  2 14:08:23 BRT 2014&gt; (x) symmetry<br>
&gt; Wed Apr  2 14:08:48 BRT 2014&gt; (x) lstart<br>
&gt; Wed Apr  2 14:09:38 BRT 2014&gt; (x) kgen<br>
&gt; Wed Apr  2 14:09:58 BRT 2014&gt; (x) dstart -c -p<br>
&gt;&gt;   (initso_lapw) options:<br>
&gt; Tue May 27 16:07:00 BRT 2014&gt; (x) Machines2W<br>
&gt;&gt;   (run_lapw) options: -p -NI -ec 0.0001 -cc 0.0001 -i 150 -it<br>
&gt; Tue May 27 16:07:00 BRT 2014&gt; (x) lapw0 -p<br>
&gt; Tue May 27 16:14:10 BRT 2014&gt; (x) lapw1 -it -p -c<br>
&gt; Tue May 27 16:14:15 BRT 2014&gt; (x) lapw2 -p -c<br>
&gt;<br>
&gt; ===========================================================<br>
&gt; case.dayfile<br>
&gt;<br>
&gt; Calculating InPzb15InPwurt3-V2 in<br>
&gt; /home/ice/proj/proj546/ogando/Wien/Calculos/InP/InPzbInPwurt/15camadasZB+3WZ/InPzb15InPwurt3-V2<br>
&gt; on r1i0n15 with PID 6538<br>
&gt; using WIEN2k_13.1 (Release 17/6/2013) in<br>
&gt; /home/ice/proj/proj546/ogando/Wien/Executaveis-13-OpenMPI<br>
&gt;<br>
&gt;<br>
&gt;     start (Tue May 27 16:07:00 BRT 2014) with lapw0 (150/99 to go)<br>
&gt;<br>
&gt;     cycle 1 (Tue May 27 16:07:00 BRT 2014) (150/99 to go)<br>
&gt;<br>
&gt;&gt;   lapw0 -p (16:07:00) starting parallel lapw0 at Tue May 27 16:07:00 BRT<br>
&gt;&gt; 2014<br>
&gt; -------- .machine0 : 12 processors<br>
&gt; 2540.314u 12.204s 7:09.36 594.4% 0+0k 180672+52736io 5pf+0w<br>
&gt;&gt;   lapw1 -it -p   -c (16:14:10) starting parallel lapw1 at Tue May 27<br>
&gt;&gt; 16:14:10 BRT 2014<br>
&gt; -&gt;  starting parallel LAPW1 jobs at Tue May 27 16:14:10 BRT 2014<br>
&gt; running LAPW1 in parallel mode (using .machines)<br>
&gt; 12 number_of_parallel_jobs<br>
&gt;      r1i0n15(1)      r1i0n15(1)      r1i0n15(1)      r1i0n15(1)<br>
&gt; r1i0n15(1)      r1i0n15(1)      r1i0n15(1)      r1i0n15(1)      r1i0n15(1)<br>
&gt; r1i0n15(1)      r1i0n15(1)      r1i0n15(1)    Summary of lapw1para:<br>
&gt;    r1i0n15 k=1 user=0 wallclock=1<br>
&gt; 0.132u 0.136s 0:04.75 5.4% 0+0k 4104+1688io 5pf+0w<br>
&gt;&gt;   lapw2 -p   -c   (16:14:15) running LAPW2 in parallel mode<br>
&gt; **  LAPW2 crashed!<br>
&gt; 0.396u 0.016s 0:00.66 60.6% 0+0k 6424+11472io 1pf+0w<br>
&gt; error: command<br>
&gt; /home/ice/proj/proj546/ogando/Wien/Executaveis-13-OpenMPI/lapw2cpara -c<br>
&gt; lapw2.def   failed<br>
&gt;<br>
&gt;&gt;   stop error<br>
&gt;<br>
&gt; ===========================================================<br>
&gt; lapw2.error (the only non empty case.error)<br>
&gt;<br>
&gt; Error in LAPW2<br>
&gt;  &#39;LAPW2&#39; - can&#39;t open unit: 30<br>
&gt;  &#39;LAPW2&#39; -        filename: InPzb15InPwurt3-V2.energy_1<br>
&gt; **  testerror: Error in Parallel LAPW2<br>
&gt;<br>
&gt; ===========================================================<br>
&gt; The standard output file<br>
&gt;<br>
&gt;<br>
&gt; OMP_NUM_THREADS =  12<br>
&gt;<br>
&gt; -----------------------------------------<br>
&gt; Inicio do job: Tue May 27 16:07:00 BRT 2014<br>
&gt; Hostname:  r1i0n15<br>
&gt; PWD:<br>
&gt; /home/ice/proj/proj546/ogando/Wien/Calculos/InP/InPzbInPwurt/15camadasZB+3WZ/InPzb15InPwurt3-V2<br>
&gt; 0.000u 0.000s 0:00.05 0.0% 0+0k 8216+24io 1pf+0w<br>
&gt;  LAPW0 END<br>
&gt;  LAPW0 END<br>
&gt;  LAPW0 END<br>
&gt;  LAPW0 END<br>
&gt;  LAPW0 END<br>
&gt;  LAPW0 END<br>
&gt;  LAPW0 END<br>
&gt;  LAPW0 END<br>
&gt;  LAPW0 END<br>
&gt;  LAPW0 END<br>
&gt;  LAPW0 END<br>
&gt;  LAPW0 END<br>
&gt; grep: .processes: No such file or directory<br>
&gt; InPzb15InPwurt3-V2.scf1_1: No such file or directory.<br>
&gt; grep: No match.<br>
&gt; FERMI - Error<br>
&gt; cp: cannot stat `.in.tmp&#39;: No such file or directory<br>
&gt;<br>
&gt;&gt;   stop error<br>
&gt; Final do job: Tue May 27 16:14:15 BRT 2014<br>
&gt; -----------------------------------------<br>
&gt;<br>
&gt; OMP_NUM_THREADS =  12<br>
&gt;<br>
&gt; =======================================<br>
&gt; My parallel_options file<br>
&gt;<br>
&gt; setenv TASKSET &quot;no&quot;<br>
&gt; setenv USE_REMOTE 1<br>
&gt; setenv MPI_REMOTE 0<br>
&gt; setenv WIEN_GRANULARITY 1<br>
&gt; setenv WIEN_MPIRUN &quot;/home/ice/proj/proj546/ogando/OpenMPIexec/bin/mpirun -np<br>
&gt; _NP_ -machinefile _HOSTS_ _EXEC_&quot;<br>
&gt;<br>
&gt;<br>
<br>
<br>
<br>
</div></div>--<br>
Professor Laurence Marks<br>
Department of Materials Science and Engineering<br>
Northwestern University<br>
<a href="http://www.numis.northwestern.edu" target="_blank">www.numis.northwestern.edu</a> <a href="tel:1-847-491-3996" value="+18474913996">1-847-491-3996</a><br>
Co-Editor, Acta Cryst A<br>
&quot;Research is to see what everybody else has seen, and to think what<br>
nobody else has thought&quot;<br>
Albert Szent-Gyorgi<br>
_______________________________________________<br>
Wien mailing list<br>
<a href="mailto:Wien@zeus.theochem.tuwien.ac.at">Wien@zeus.theochem.tuwien.ac.at</a><br>
<a href="http://zeus.theochem.tuwien.ac.at/mailman/listinfo/wien" target="_blank">http://zeus.theochem.tuwien.ac.at/mailman/listinfo/wien</a><br>
SEARCH the MAILING-LIST at:  <a href="http://www.mail-archive.com/wien@zeus.theochem.tuwien.ac.at/index.html" target="_blank">http://www.mail-archive.com/wien@zeus.theochem.tuwien.ac.at/index.html</a><br>
</blockquote></div><br></div>