ADMIN pb nodes n6* # Migale up/down et d2r2 > [TOC] # Trace à partir du 5 juin ## pb nodes ? ``` mer. 05 juin 2024 08:07:03 CEST ---------------------------------------------------------------------------------------------- global - - - - - - - - - - frangen lx-amd64 24 2 12 24 - 755.8G - 8.0G - n63 lx-amd64 20 2 20 20 - 251.7G - 4.0G - #### deja sorti n64 lx-amd64 20 2 20 20 - 94.2G - 4.0G - n65 lx-amd64 20 2 20 20 - 94.2G - 4.0G - n69 lx-amd64 20 2 20 20 - 251.7G - 4.0G - n70 lx-amd64 28 2 28 28 - 251.7G - 4.0G - #### deja sorti le 4 juin ``` * Arret du n69 ==> suffit à redonner la main sans autre manip * n69 n'était pas utilisé, aucun job en cours ! ## nouveau plantage ``` mer. 05 juin 2024 11:58:57 CEST ---------------------------------------------------------------------------------------------- global - - - - - - - - - - frangen lx-amd64 24 2 12 24 - 755.8G - 8.0G - n63 lx-amd64 20 2 20 20 - 251.7G - 4.0G - n64 lx-amd64 20 2 20 20 - 94.2G - 4.0G - n65 lx-amd64 20 2 20 20 - 94.2G - 4.0G - n69 lx-amd64 20 2 20 20 - 251.7G - 4.0G - n70 lx-amd64 28 2 28 28 - 251.7G - 4.0G - ``` Je sors et eteinds les n64 et n65 Recherche du jobs sur la n64 : cat /work_projet/lsv/viro/diag/Run2EVIdanses3/log/snakejob.blastn_contigs.81.sh.e5337682 ``` The flag 'directory' used in rule sample_reports is only valid for outputs, not inputs. Building DAG of jobs... Using shell: /usr/bin/bash Provided cores: 64 Rules claiming more threads will be scaled down. Select jobs to execute... [Wed Jun 5 11:54:47 2024] rule blastn_contigs: input: RESULTS/21-4563_S6_L001/Assembly/contigs.fasta output: RESULTS/21-4563_S6_L001/Blast/blastn.tab jobid: 0 wildcards: sample=21-4563_S6_L001 resources: mem_mb=1000, disk_mb=1000, tmpdir=/tmp/5337682.1.long.q blastn -task blastn -query RESULTS/21-4563_S6_L001/Assembly/contigs.fasta -db /db/Phytovirus/current/blast/Phytovirus -evalue 0.00001 -outfmt 6 -out RESULTS/21-4563_S6_L001/Blast/blastn.tab -num_threads 14 -max_target_seqs 1 Activating conda environment: .snakemake/conda/8cd7b34cf5f7b6665641012bf0edcb24 [Wed Jun 5 11:55:43 2024] Finished job 0. 1 of 1 steps (100%) done ``` Console n64 ![Capture d’écran 2024-06-05 à 12.09.36](https://hackmd.io/_uploads/SyPSq26E0.png) Console n65 ![Capture d’écran 2024-06-05 à 12.19.11](https://hackmd.io/_uploads/ryFg2hTEC.png) # :warning: Migale d2r2 inaccessibles (6 juin) > [time=Thu, Jun 6, 2024 8:23 AM] Bien que les nodes n63 n64 n65 n69 et n70 soient arrêtes Migale d2r2 sont inaccessibles ! [color=#ff0000] * umount -a / mount -a sur banko ne change rien * d2r2 et migale depuis l'idrac NO SIGNAL !! Ca remet en cause les nodes je trouve ! Dois-je redémarrer d2r2 via l'idrac ????? - faudra-t-il mettre à jour le bios de d2r2 et migale ? # TODO > De : Valentin Loux Envoyé : jeudi 6 juin 2024 10:05 À : Veronique Martin Objet : Re: Migale up ! DOWN down !!!! migale et d2r2 donwn Salut véro, merci des efforts. Tu as essayé de te connecter sur l’iDRAC du chassis ? Si les noeuds ne répondent plus on peut tenter vers là … Je serais tenté de faire un reboot à froid du chassis. EN essayant d’arréter toutes les lames du chassis, puis en rebootant électriquement le chassis ? ``` qmod -d maiage.q@n66 maiage.q@n67 qmod -d short.q@n71 ``` * Arret de ces 3 nodes * Arret des nodes n60 n61 et n62 qui ne sont pas dans le cluster mais étaient alumés > [time=Thu, Jun 6, 2024 11:19 AM] [color=#ff0000] **Après verif migale et d2r2 sont accessibles sans avoir fait d'autre manip** - Arret du n68 - en attente du n71 pour eteindre - c'est un qlogin ! ``` --------------------------------------------------------------------------------- short.q@n71 BIP 0/2/28 0.05 lx-amd64 d 5338356 0.56690 QLOGIN kilchenko r 06/06/2024 10:18:21 2 --------------------------------------------------------------------------------- ``` ## > [time=Fri, Jun 7, 2024 7:49 AM] [color=#ff0000] reste un seul node allumé (n71) et les 2 serveurs d2r2, migale ``` [banko@banko ~]$ date ven. juin 7 07:49:30 CEST 2024 [banko@banko ~]$ qhost error: commlib error: got select error (No route to host) error: unable to contact qmaster using port 6444 on host "d2r2" [banko@banko ~]$ ``` n71 est libre je l'arrete... - d2r2 et migale accessibles à nouveau > [time=Tue, Jun 11, 2024 8:48 AM] [color=#ff0000] Depuis l'arrêt de tous les nodes vendride 7 juin et jusqu'à maintenant plus de problème !!! val 1/ redemarrer le reseau attendre 24H00 2/ remettre les nodes 1 par 1 > [time=Tue, Jun 11, 2024 4:48 PM][color=green] Toujours OK > [time=Wed, Jun 12, 2024 9:25 AM][color=red] Toujours ok ce matin, on redemarre le n71 et à 12h00 qmod -e (dans la file cluster) :-1: l**a simple remise sous tension du n71 à suffit à planter migale et d2r2** apres qlq herues de recherches... rien trouvé on met n71 hors Tension (HT) migale et d2r2, redmind sont OK 2eme essai avec n68 n68 sous tension (ST) > [time=Wed, Jun 12, 2024 3:34 PM] **** les ip privées pertubent les serveur ip public ***** 15h45 n71 ST 17h00 migale,... OUT n68 HT ==> ok > [time=Thu, Jun 13, 2024 9:25 AM] [color=red] migale,... OUT n71 HT