<div dir="ltr"><p style="font-size:14px"><span lang="EN-US">I have checked that case.vsp/vns are up-to-date. I guess lawp0_mpi runs properly.</span></p><p style="font-size:14px">I compiled the source codes with ifort and please find the following for the linking options:</p><p style="font-size:14px">current:FOPT:-FR -mp1 -w -prec_div -pc80 -pad -ip -DINTEL_VML -traceback</p><p style="font-size:14px">current:FPOPT:-FR -mp1 -w -prec_div -pc80 -pad -ip -DINTEL_VML -Dmkl_scalapack -traceback</p><p style="font-size:14px">current:FFTW_OPT:-DFFTW3 -I/usr/local/include</p><p style="font-size:14px">current:FFTW_LIBS:-lfftw3_mpi -lfftw3 -L/usr/local/lib</p><p style="font-size:14px">current:LDFLAGS:$(FOPT) -L/opt/intel/Compiler/11.1/046/mkl/lib/em64t -pthread</p><p style="font-size:14px">current:DPARALLEL:'-DParallel'</p><p style="font-size:14px">current:R_LIBS:-lmkl_lapack -lmkl_intel_lp64 -lmkl_intel_thread -lmkl_core -openmp -lpthread -lguide</p><p style="font-size:14px">current:RP_LIBS:-lmkl_scalapack_lp64 -lmkl_solver_lp64 -lmkl_blacs_intelmpi_lp64 $(R_LIBS)</p><p style="font-size:14px">current:MPIRUN:/usr/local/mvapich2-icc/bin/mpirun -np _NP_ -hostfile _HOSTS_ _EXEC_</p><p style="font-size:14px">current:MKL_TARGET_ARCH:intel64</p><p style="font-size:14px"><br></p><p style="font-size:14px">Is it ok to use -lmkl_blacs_intelmpi_lp64?</p><p style="font-size:14px"><br></p><p style="font-size:14px">Thanks a lot for all the suggestions.</p><p style="font-size:14px">Regards,</p><p style="font-size:14px">Fermin</p><p style="font-size:14px"><br></p><p style="font-size:14px"><span lang="EN-US">-----Original Message-----<br>From: <a href="mailto:wien-bounces@zeus.theochem.tuwien.ac.at" target="_blank">wien-bounces@zeus.theochem.tuwien.ac.at</a> [mailto:<a href="mailto:wien-bounces@zeus.theochem.tuwien.ac.at" target="_blank">wien-bounces@zeus.theochem.tuwien.ac.at</a>] On Behalf Of Peter Blaha<br>To: A Mailing list for WIEN2k users<br>Subject: Re: [Wien] Error in mpi+k point parallelization across multiple nodes</span></p><p style="font-size:14px"><span lang="EN-US"> </span></p><p style="font-size:14px"><span lang="EN-US">It seems as if lapw0_mpi runs properly ?? Please check if you have NEW (check date with ls -als)!! valid case.vsp/vns files, which can be used in eg. a sequential lapw1 step.</span></p><p style="font-size:14px"><span lang="EN-US"> </span></p><p style="font-size:14px"><span lang="EN-US">This suggests that   mpi and fftw are ok.</span></p><p style="font-size:14px"><span lang="EN-US"> </span></p><p style="font-size:14px"><span lang="EN-US">The problems seem to start in lapw1_mpi, and this program requires in addition to mpi also scalapack.</span></p><p style="font-size:14px"><span lang="EN-US"> </span></p><p style="font-size:14px"><span lang="EN-US">I guess you compile with ifort and link with the mkl ??</span></p><p style="font-size:14px"><span lang="EN-US">There is one crucial blacs library, which must be adapted to your mpi, since they are specific to a particular mpi (intelmpi, openmpi, ...):</span></p><p style="font-size:14px"><span lang="EN-US">Which blacks-library do you link ?   -lmkl_blacs_lp64   or another one ??</span></p><p style="font-size:14px"><span lang="EN-US">Check out the doku for the mkl.</span></p><p style="font-size:14px"><span lang="EN-US"> </span></p><p style="font-size:14px"><span lang="EN-US"> </span></p><p style="font-size:14px"><span lang="EN-US">Am 04.05.2015 um 05:18 schrieb lung Fermin:</span></p><p style="font-size:14px"><span lang="EN-US">> I have tried to set MPI_REMOTE=0 and used 32 cores (on 2 nodes) for</span></p><p style="font-size:14px"><span lang="EN-US">> distributing the mpi job. However, the problem still persist... but the error message looks different this time:</span></p><p style="font-size:14px"><span lang="EN-US">> </span></p><p style="font-size:14px"><span lang="EN-US">> $> cat *.error</span></p><p style="font-size:14px"><span lang="EN-US">> Error in LAPW2</span></p><p style="font-size:14px"><span lang="EN-US">> **  testerror: Error in Parallel LAPW2</span></p><p style="font-size:14px"><span lang="EN-US">> </span></p><p style="font-size:14px"><span lang="EN-US">> and the output on screen:</span></p><p style="font-size:14px"><span lang="EN-US">> Warning: no access to tty (Bad file descriptor).</span></p><p style="font-size:14px"><span lang="EN-US">> Thus no job control in this shell.</span></p><p style="font-size:14px"><span lang="EN-US">> z1-17 z1-17 z1-17 z1-17 z1-17 z1-17 z1-17 z1-17 z1-17 z1-17 z1-17</span></p><p style="font-size:14px"><span lang="EN-US">> z1-17 z1-17 z1-17 z1-17 z1-17 z1-18 z1-18 z1-18 z1-18 z1-18 z1-18</span></p><p style="font-size:14px"><span lang="EN-US">> z1-18 z1-18 z1-18 z1-18 z1-18 z1-18</span></p><p style="font-size:14px"><span lang="EN-US">> z1-18 z1-1</span></p><p style="font-size:14px"><span lang="EN-US">> 8 z1-18 z1-18</span></p><p style="font-size:14px"><span lang="EN-US">> number of processors: 32</span></p><p style="font-size:14px"><span lang="EN-US">>   LAPW0 END</span></p><p style="font-size:14px"><span lang="EN-US">> [16] Failed to dealloc pd (Device or resource busy) [0] Failed to</span></p><p style="font-size:14px"><span lang="EN-US">> dealloc pd (Device or resource busy) [17] Failed to dealloc pd (Device</span></p><p style="font-size:14px"><span lang="EN-US">> or resource busy) [2] Failed to dealloc pd (Device or resource busy)</span></p><p style="font-size:14px"><span lang="EN-US">> [18] Failed to dealloc pd (Device or resource busy) [1] Failed to</span></p><p style="font-size:14px"><span lang="EN-US">> dealloc pd (Device or resource busy)</span></p><p style="font-size:14px"><span lang="EN-US">>   LAPW1 END</span></p><p style="font-size:14px"><span lang="EN-US">> LAPW2 - FERMI; weighs written</span></p><p style="font-size:14px"><span lang="EN-US">> [z1-17:mpispawn_0][child_handler] MPI process (rank: 0, pid: 28291)</span></p><p style="font-size:14px"><span lang="EN-US">> terminated with signal 9 -> abort job [z1-17:mpispawn_0][readline] Unexpected End-Of-File on file descriptor 9. MPI process died?</span></p><p style="font-size:14px"><span lang="EN-US">> [z1-17:mpispawn_0][mtpmi_processops] Error while reading PMI socket. MPI process died?</span></p><p style="font-size:14px"><span lang="EN-US">> [z1-17:mpirun_rsh][process_mpispawn_connection] mpispawn_0 from node</span></p><p style="font-size:14px"><span lang="EN-US">> z1-17 aborted: Error while reading a PMI socket (4) [z1-18:mpispawn_1][read_size] Unexpected End-Of-File on file descriptor 21. MPI process died?</span></p><p style="font-size:14px"><span lang="EN-US">> [z1-18:mpispawn_1][read_size] Unexpected End-Of-File on file descriptor 21. MPI process died?</span></p><p style="font-size:14px"><span lang="EN-US">> [z1-18:mpispawn_1][handle_mt_peer] Error while reading PMI socket. MPI process died?</span></p><p style="font-size:14px"><span lang="EN-US">> cp: cannot stat `.in.tmp': No such file or directory</span></p><p style="font-size:14px"><span lang="EN-US">> </span></p><p style="font-size:14px"><span lang="EN-US">>  >   stop error</span></p><p style="font-size:14px"><span lang="EN-US">> </span></p><p style="font-size:14px"><span lang="EN-US">> </span></p><p style="font-size:14px"><span lang="EN-US">> ----------------------------------------------------------------------</span></p><p style="font-size:14px"><span lang="EN-US">> --------------------------------------</span></p><p style="font-size:14px"><span lang="EN-US">> </span></p></div>