<html>
<head>
<style><!--
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 10pt;
font-family:Verdana
}
--></style>
</head>
<body class='hmmessage'>
Marks,<br><br>&nbsp;&nbsp; Thanks again for your quick reply. You are probably right that its a memory problem since <br>the system I am using for testing my jobs has very low memory (only 1GB per processor).<br>I will try to run the job in a better machine (4GB per processor) that is available in our system. <br><br>Best,<br>Fhokrul<br><br><br>&gt; Date: Sat, 30 Jan 2010 16:11:07 -0600<br>&gt; From: L-marks@northwestern.edu<br>&gt; To: wien@zeus.theochem.tuwien.ac.at<br>&gt; Subject: Re: [Wien] Fwd: MPI segmentation fault<br>&gt; <br>&gt; OK, looks like you have cleaned up many of the issues. The SIGSEV is<br>&gt; (I think) now one of two things:<br>&gt; <br>&gt; a) memory limitations (how much do you have, 8Gb or 16-24 Gb ?)<br>&gt; <br>&gt; While the process is running do a "top" and see how much memory is<br>&gt; allocated and whether this is essentially all. If you have ganglia<br>&gt; available you can use this to see readily. Similar information is also<br>&gt; available in  cat /proc/meminfo or using the nmon utility from IBM<br>&gt; (google it, it is easy to compile). I suspect that you are simply<br>&gt; running out of memory, running too many tasks at the same time on one<br>&gt; machine -- you would need to use more machines so the memory usage on<br>&gt; any one is smaller.<br>&gt; <br>&gt; b) stacksize issue (less likely)<br>&gt; <br>&gt; This is an issue with openmpi, see<br>&gt; http://www.open-mpi.org/community/lists/users/2008/09/6491.php . In a<br>&gt; nutshell, the stacksize limit is not an environmental parameter and<br>&gt; there is no direct way to set it correctly with openmpi except to use<br>&gt; a wrapper. I have a patch for this, but lets' try something simpler<br>&gt; first (which I think is OK, but I might have it slightly wrong).<br>&gt; <br>&gt; * Create a file called wrap.sh in your search path (e.g. ~/bin or even<br>&gt; $WIENROOT) and put in it<br>&gt; #!/bin/bash<br>&gt; source $HOME/.bashrc<br>&gt; ulimit -s unlimited<br>&gt; #write a line so we know we got here<br>&gt; echo "Hello Fhorkul"<br>&gt; $1 $2 $3 $4<br>&gt; <br>&gt; * Do a "chmod a+x wrap.sh" (appropriate location of course)<br>&gt; <br>&gt; * Edit parallel_options in $WIENROOT so it reads<br>&gt; setenv WIEN_MPIRUN "mpirun -x LD_LIBRARY_PATH -x PATH -np _NP_<br>&gt; -machinefile _HOSTS_ wrap.sh _EXEC_"<br>&gt; <br>&gt; This does the same as is described in the email link above, forcing<br>&gt; the Wien2k mpi commands to be executed from within a bash shell so<br>&gt; parameters are setup. If this works then I can provide details for a<br>&gt; more general patch.<br>&gt; <br>&gt; <br>&gt; 2010/1/30 Md. Fhokrul Islam &lt;fislam@hotmail.com&gt;:<br>&gt; &gt; Hi Marks,<br>&gt; &gt;<br>&gt; &gt; &nbsp;&nbsp;&nbsp; I have followed your suggestions and have used openmpi 1.4.1 compiled<br>&gt; &gt; with icc.<br>&gt; &gt; I also have compiled fftw with cc instead of gcc and recompiled Wien2k with<br>&gt; &gt; mpirun option<br>&gt; &gt; in parallel_options:<br>&gt; &gt;<br>&gt; &gt; current:MPIRUN:mpirun -np _NP_ -machinefile _HOSTS_ _EXEC_ -x<br>&gt; &gt; LD_LIBRARY_PATH<br>&gt; &gt;<br>&gt; &gt; Although I didn't get segmentation fault but the job still crashes at lapw1<br>&gt; &gt; with a different error<br>&gt; &gt; message. I have pasted case.dayfile and case.error below along with<br>&gt; &gt; ompi_info and stacksize<br>&gt; &gt; info. I am not even sure where to look for the solution. Please let me know<br>&gt; &gt; if you have any<br>&gt; &gt; suggestions regarding this MPI problem.<br>&gt; &gt;<br>&gt; &gt; Thanks,<br>&gt; &gt; Fhokrul<br>&gt; &gt;<br>&gt; &gt; case.dayfile:<br>&gt; &gt;<br>&gt; &gt; &nbsp;&nbsp;&nbsp; cycle 1&nbsp;&nbsp;&nbsp;&nbsp; (Sat Jan 30 16:49:55 CET 2010)&nbsp; (200/99 to go)<br>&gt; &gt;<br>&gt; &gt;&gt;&nbsp;&nbsp; lapw0 -p&nbsp;&nbsp;&nbsp; (16:49:55) starting parallel lapw0 at Sat Jan 30 16:49:56<br>&gt; &gt;&gt; CET 2010<br>&gt; &gt; -------- .machine0 : 4 processors<br>&gt; &gt; 1863.235u 21.743s 8:21.32 376.0%&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0+0k 0+0io 1068pf+0w<br>&gt; &gt;&gt;&nbsp;&nbsp; lapw1&nbsp; -c -up -p&nbsp;&nbsp;&nbsp; (16:58:17) starting parallel lapw1 at Sat Jan 30<br>&gt; &gt;&gt; 16:58:18 CET 2010<br>&gt; &gt; -&gt;&nbsp; starting parallel LAPW1 jobs at Sat Jan 30 16:58:18 CET 2010<br>&gt; &gt; running LAPW1 in parallel mode (using .machines)<br>&gt; &gt; 1 number_of_parallel_jobs<br>&gt; &gt; &nbsp;&nbsp;&nbsp;&nbsp; mn117.mpi mn117.mpi mn117.mpi mn117.mpi(1) 1263.782u 28.214s 36:47.58<br>&gt; &gt; 58.5%&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0+0k 0+0io 49300pf+0w<br>&gt; &gt; **&nbsp; LAPW1 crashed!<br>&gt; &gt; 1266.358u 37.286s 36:53.31 58.8%&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0+0k 0+0io 49425pf+0w<br>&gt; &gt; error: command&nbsp;&nbsp; /disk/global/home/eishfh/Wien2k_09_2/lapw1cpara -up -c<br>&gt; &gt; uplapw1.def&nbsp;&nbsp; failed<br>&gt; &gt;<br>&gt; &gt; Error file:<br>&gt; &gt;<br>&gt; &gt; &nbsp;LAPW0 END<br>&gt; &gt; &nbsp;LAPW0 END<br>&gt; &gt; &nbsp;LAPW0 END<br>&gt; &gt; &nbsp;LAPW0 END<br>&gt; &gt; --------------------------------------------------------------------------<br>&gt; &gt; mpirun noticed that process rank 0 with PID 8837 on node mn117.local exited<br>&gt; &gt; on signal 9 (Killed).<br>&gt; &gt;<br>&gt; &gt; stacksize:<br>&gt; &gt;<br>&gt; &gt; &nbsp;[eishfh@milleotto s110]$ ulimit -a<br>&gt; &gt;<br>&gt; &gt; file locks&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (-x) unlimited<br>&gt; &gt;<br>&gt; &gt;<br>&gt; -- <br>&gt; Laurence Marks<br>&gt; Department of Materials Science and Engineering<br>&gt; MSE Rm 2036 Cook Hall<br>&gt; 2220 N Campus Drive<br>&gt; Northwestern University<br>&gt; Evanston, IL 60208, USA<br>&gt; Tel: (847) 491-3996 Fax: (847) 491-7820<br>&gt; email: L-marks at northwestern dot edu<br>&gt; Web: www.numis.northwestern.edu<br>&gt; Chair, Commission on Electron Crystallography of IUCR<br>&gt; www.numis.northwestern.edu/<br>&gt; Electron crystallography is the branch of science that uses electron<br>&gt; scattering and imaging to study the structure of matter.<br>&gt; _______________________________________________<br>&gt; Wien mailing list<br>&gt; Wien@zeus.theochem.tuwien.ac.at<br>&gt; http://zeus.theochem.tuwien.ac.at/mailman/listinfo/wien<br>                                               <br /><hr />Your E-mail and More On-the-Go. Get Windows Live Hotmail Free. <a href='https://signup.live.com/signup.aspx?id=60969' target='_new'>Sign up now.</a></body>
</html>