<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
  </head>
  <body text="#000000" bgcolor="#FFFFFF">
    <p><font face="Times New Roman">The "Permission denied
        (publickey,gssapi-keyex,gssapi-with-mic,password)" comes up with
        different causes in a Google search.  One time, that error
        seemed to go away with a user by having them ssh into the nodes
        and fix the ssh file permissions following the webpage:</font></p>
    <p><font face="Times New Roman"><a class="moz-txt-link-freetext" href="https://serverfault.com/questions/253313/ssh-returns-bad-owner-or-permissions-on-ssh-config">https://serverfault.com/questions/253313/ssh-returns-bad-owner-or-permissions-on-ssh-config</a><br>
      </font></p>
    <p><font face="Times New Roman">However, since you are not able to
        ssh directly into the nodes, you would likely have to ask your
        admin how to indirectly do it or have them do it for you.<br>
      </font></p>
    <p><font face="Times New Roman"></font><br>
    </p>
    <div class="moz-cite-prefix">On 5/7/2019 3:33 AM, <a class="moz-txt-link-abbreviated" href="mailto:webfinder@ukr.net">webfinder@ukr.net</a>
      wrote:<br>
    </div>
    <blockquote type="cite"
      cite="mid:1557216764.803983337.s6ozncle@frv55.fwdcdn.com">
      <meta http-equiv="content-type" content="text/html; charset=UTF-8">
      <span style="display:block;" class="xfm_48592698"> Dear Prof.
        Blaha
        <div><br>
        </div>
        <div>thank you for the explanation!</div>
        <div>Sorry, I should put hostname in quotes. Script I used is
          based on that in the WIEN-FAQ and produce .machines based on
          the nodes provided by the slurm:<br>
        </div>
        <div>for k-points:<br>
        </div>
        <div>
          <div>#</div>
          <div>1:n270 </div>
          <div>1:n270 </div>
          <div>1:n270 </div>
          <div>1:n270 </div>
          <div>1:n270</div>
        </div>
        <div>....</div>
        <div>
          <div>granularity:1</div>
          <div>extrafine:1</div>
        </div>
        <div><br>
        </div>
        <div>for mpi:</div>
        <div>#</div>
        <div>
          <div>
            <div>1:n270 n270 n270 n270 n270 ....</div>
          </div>
          <div>
            <div>granularity:1</div>
            <div>extrafine:1</div>
          </div>
        </div>
        <div><br>
        </div>
        <div>After I changed <span style="white-space:pre-wrap;">USE_REMOTE to 1 the "Permission denied, please try again" appears also for k-point parallelization.</span></div>
        <div><span style="white-space:pre-wrap;">As it is stated in the userguide I did things like "ssh-keygen" and copy to "authorized_keys" but result is the same.</span></div>
        <div><span style="white-space:pre-wrap;">As a "low-level" user on a cluster I dont have any permission to login to the nodes.</span></div>
        <div><span style="white-space:pre-wrap;">
</span></div>
        <div><span style="white-space:pre-wrap;">For k-point parallelezation with </span><span style="white-space:pre-wrap;">USE_REMOTE=1 t</span><span style="white-space:pre-wrap;">he *.out file has the lines:</span></div>
        <div><span style="white-space:pre-wrap;">
</span></div>
        <div><span style="white-space:pre-wrap;">Got 96 cores
nodelist n[270-272]
tasks_per_node 32
jobs_per_node 32 because OMP_NUM_THREADS = 1
96 nodes for this job: n270 n270 n270 n270 n270 n270 ....</span><br>
        </div>
        <div><span style="white-space:pre-wrap;"> 10:04:01 up 18 days, 58 min,  0 users,  load average: 0.04, 0.04, 0.07
USER     TTY      FROM             LOGIN@   IDLE   JCPU   PCPU WHAT</span><br>
        </div>
        <div><span style="white-space:pre-wrap;">...</span></div>
        <div><span style="white-space:pre-wrap;">-------- .machine0 : processors</span><br>
        </div>
        <div><span style="white-space:pre-wrap;">running dstart in single mode
 C  T F
DSTART ENDS
22.030u 0.102s 0:22.20 99.6%    0+0k 0+0io 0pf+0w
 LAPW0 END
    full diagonalization forced
Permission denied, please try again.
Permission denied, please try again.
Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password).</span><br>
        </div>
        <div><span style="white-space:pre-wrap;">[1]  + Done                          ( ( $remote $machine[$p] "cd $PWD;$t $taskset0 $exe ${def}_$loop.def ;fixerror_lapw ${def}_$loop"; rm -f .lock_$lockfile[$p] ) >& .stdout1_$loop; if ( -f .stdout1_$loop ) bashtime2csh.pl_lapw .stdout1_$loop > .temp1_$loop; grep \% .temp1_$loop >> .time1_$loop; grep -v \% .temp1_$loop | perl -e "print stderr <STDIN>" )
Permission denied, please try again.
Permission denied, please try again.
Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password).</span><br>
        </div>
        <div><span style="white-space:pre-wrap;">...</span></div>
        <div><span style="white-space:pre-wrap;">
</span></div>
        <div><br>
        </div>
        <div>For mpi-parallelization with USE_REMOTE=1, MPI_REMOTE=0,
          WIEN_MPIRUN "srun ..."</div>
        <div>the output is:</div>
        <div>LAPW0 END<br>
        </div>
        <div>
          <div>Abort(0) on node 0 (rank 0 in comm 0): application called
            MPI_Abort(MPI_COMM_WORLD, 0) - process 0</div>
          <div>Abort(0) on node 0 (rank 0 in comm 0): application called
            MPI_Abort(MPI_COMM_WORLD, 0) - process 0</div>
        </div>
        <div>...</div>
        <div>
          <div>[1]  + Done                          ( cd $PWD; $t $ttt;
            rm -f .lock_$lockfile[$p] ) >> .time1_$loop</div>
          <div>bccTi54Htet.scf1up_1: No such file or directory.</div>
          <div>grep: No match.</div>
          <div>grep: No match.</div>
          <div>grep: No match.</div>
        </div>
        <div><br>
        </div>
        <div>if WIEN_MPIRUN "mpirun -n _NP_ -machinefile _HOSTS_ _EXEC_"</div>
        <div>the output is:<br>
        </div>
        <div>
          <div> LAPW0 END</div>
          <div>Abort(0) on node 0 (rank 0 in comm 0): application called
            MPI_Abort(MPI_COMM_WORLD, 0) - process 0</div>
          <div>w2k_dispatch_signal(): received: Terminated</div>
          <div>w2k_dispatch_signal(): received: Terminated</div>
          <div>Abort(9) on node 0 (rank 0 in comm 0): application called
            MPI_Abort(MPI_COMM_WORLD, 9) - process 0</div>
          <div>w2k_dispatch_signal(): received: Terminated</div>
        </div>
        <div>...</div>
        <div>
          <div>Abort(-1694629136) on node 11 (rank 11 in comm 0):
            application called MPI_Abort(MPI_COMM_WORLD, -1694629136) -
            process 11</div>
          <div>[cli_11]: readline failed</div>
          <div>Abort(2118074352) on node 2 (rank 2 in comm 0):
            application called MPI_Abort(MPI_COMM_WORLD, 2118074352) -
            process 2</div>
          <div>[cli_2]: readline failed</div>
          <div>WIEN2K ABORTING</div>
          <div>[cli_1]: readline failed</div>
          <div>WIEN2K ABORTING</div>
        </div>
        <div><br>
        </div>
        <div><br>
        </div>
        <div><br>
          <div style="font-size:0.9em;font-style:italic;"> --- Исходное
            сообщение ---<br>
            От кого: "Peter Blaha" <a class="moz-txt-link-rfc2396E" href="mailto:pblaha@theochem.tuwien.ac.at"><pblaha@theochem.tuwien.ac.at></a><br>
            Дата: 7 мая 2019, 09:14:44<br>
          </div>
          <br>
          <blockquote class="xfmc1" style="border-left:1px solid
            rgb(204, 204, 204);margin:0px 0px 0px
            0.8ex;padding-left:1ex;">
            <pre>When setting USE_REMOTE=0 it means, that you do not use "ssh" in 
k-parallel mode.
This has the following consequences:
What you write for "hostname" in .machines is not important, only the 
number of lines counts. And it will span as many k-parallel jobs as you 
have lines (1:hostname), but they all will run ONLY on the "masternode", 
i.e. you can use only ONE node within your slurm job.

When you use mpi-parallel (with MPI_REMOTE=0 AND MPIRUN command is the 
"srun ..." command), it will use a srun command to span the mpi job, not 
the usual mpirun command. In this case, however, "hostname" must be the 
real name of the nodes where you want to run. The slurm-script as to 
find out the node-names and insert them properly.

Am 06.05.<span data-ukrnet-code="2019">2019</span> um 14:23 schrieb <a href="mailto:webfinder@ukr.net" target="_self" rel="noreferrer noopener" moz-do-not-send="true">webfinder@ukr.net</a>:
> Dear wien2k users,

> wien2k_18.2
> I'm trying to run a test task on a cluster with slurm batch system using 
> mpi parallelization.

> In "parallel_options" USE_REMOTE=0, MPI_REMOTE=0.
> (during the siteconfig_lapw the slurm option was chosen)

> the k-point parallelization works well. But if I change the "slurm.job" 
> script to produce .machines file for mpi run
> (e.g. from
> 1: hostname
> 1: hostname
> ....
> to
> 1: hostname hostname ....)

> there is always a error message:
> permission_denied, please try again.
> permission_denied, please try again
> permission_denied, please try again (....)

> How can I solve this?
> How could it be that k-point parallelization works but mpi not?

> P.S. I have also tried after getting "nodelist" from batch system to 
> include ssh-copy-id command to slurm.job script to copy the keys but the 
> result is the same.

> Thank you for the answers!



> _______________________________________________
> Wien mailing list
> <a href="mailto:Wien@zeus.theochem.tuwien.ac.at" target="_self" rel="noreferrer noopener" moz-do-not-send="true">Wien@zeus.theochem.tuwien.ac.at</a>
> <a href="http://zeus.theochem.tuwien.ac.at/mailman/listinfo/wien" target="_blank" rel="noreferrer noopener" moz-do-not-send="true">http://zeus.theochem.tuwien.ac.at/mailman/listinfo/wien</a>
> SEARCH the MAILING-LIST at:  <a href="http://www.mail-archive.com/wien@zeus.theochem.tuwien.ac.at/index.html" target="_blank" rel="noreferrer noopener" moz-do-not-send="true">http://www.mail-archive.com/wien@zeus.theochem.tuwien.ac.at/index.html</a>


-- 
--------------------------------------------------------------------------
Peter BLAHA, Inst.f. Materials Chemistry, TU Vienna, A-<span data-ukrnet-code="1060">1060</span> Vienna
Phone: +43-1-58801-165300             FAX: +43-1-58801-165982
Email: <a href="mailto:blaha@theochem.tuwien.ac.at" target="_self" rel="noreferrer noopener" moz-do-not-send="true">blaha@theochem.tuwien.ac.at</a>    WIEN2k: <a href="http://www.wien2k.at" target="_blank" rel="noreferrer noopener" moz-do-not-send="true">http://www.wien2k.at</a>
WWW: 
<a href="http://www.imc.tuwien.ac.at/tc_blaha-------------------------------------------------------------------------" target="_blank" rel="noreferrer noopener" moz-do-not-send="true">http://www.imc.tuwien.ac.at/tc_blaha-------------------------------------------------------------------------</a> </pre>
          </blockquote>
        </div>
      </span></blockquote>
    <blockquote type="cite"
      cite="mid:1557216764.803983337.s6ozncle@frv55.fwdcdn.com">
    </blockquote>
  </body>
</html>