ADMIN pb nodes n6*
# Migale up/down et d2r2
> [TOC]
# Trace à partir du 5 juin
## pb nodes ?
```
mer. 05 juin 2024 08:07:03 CEST
----------------------------------------------------------------------------------------------
global - - - - - - - - - -
frangen lx-amd64 24 2 12 24 - 755.8G - 8.0G -
n63 lx-amd64 20 2 20 20 - 251.7G - 4.0G - #### deja sorti
n64 lx-amd64 20 2 20 20 - 94.2G - 4.0G -
n65 lx-amd64 20 2 20 20 - 94.2G - 4.0G -
n69 lx-amd64 20 2 20 20 - 251.7G - 4.0G -
n70 lx-amd64 28 2 28 28 - 251.7G - 4.0G - #### deja sorti le 4 juin
```
* Arret du n69 ==> suffit à redonner la main sans autre manip
* n69 n'était pas utilisé, aucun job en cours !
## nouveau plantage
```
mer. 05 juin 2024 11:58:57 CEST
----------------------------------------------------------------------------------------------
global - - - - - - - - - -
frangen lx-amd64 24 2 12 24 - 755.8G - 8.0G -
n63 lx-amd64 20 2 20 20 - 251.7G - 4.0G -
n64 lx-amd64 20 2 20 20 - 94.2G - 4.0G -
n65 lx-amd64 20 2 20 20 - 94.2G - 4.0G -
n69 lx-amd64 20 2 20 20 - 251.7G - 4.0G -
n70 lx-amd64 28 2 28 28 - 251.7G - 4.0G -
```
Je sors et eteinds les n64 et n65
Recherche du jobs sur la n64 :
cat /work_projet/lsv/viro/diag/Run2EVIdanses3/log/snakejob.blastn_contigs.81.sh.e5337682
```
The flag 'directory' used in rule sample_reports is only valid for outputs, not inputs.
Building DAG of jobs...
Using shell: /usr/bin/bash
Provided cores: 64
Rules claiming more threads will be scaled down.
Select jobs to execute...
[Wed Jun 5 11:54:47 2024]
rule blastn_contigs:
input: RESULTS/21-4563_S6_L001/Assembly/contigs.fasta
output: RESULTS/21-4563_S6_L001/Blast/blastn.tab
jobid: 0
wildcards: sample=21-4563_S6_L001
resources: mem_mb=1000, disk_mb=1000, tmpdir=/tmp/5337682.1.long.q
blastn -task blastn -query RESULTS/21-4563_S6_L001/Assembly/contigs.fasta -db /db/Phytovirus/current/blast/Phytovirus -evalue 0.00001 -outfmt 6 -out RESULTS/21-4563_S6_L001/Blast/blastn.tab -num_threads 14 -max_target_seqs 1
Activating conda environment: .snakemake/conda/8cd7b34cf5f7b6665641012bf0edcb24
[Wed Jun 5 11:55:43 2024]
Finished job 0.
1 of 1 steps (100%) done
```
Console n64

Console n65

# :warning: Migale d2r2 inaccessibles (6 juin)
> [time=Thu, Jun 6, 2024 8:23 AM] Bien que les nodes n63 n64 n65 n69 et n70 soient arrêtes Migale d2r2 sont inaccessibles ! [color=#ff0000]
* umount -a / mount -a sur banko ne change rien
* d2r2 et migale depuis l'idrac NO SIGNAL !!
Ca remet en cause les nodes je trouve !
Dois-je redémarrer d2r2 via l'idrac ?????
- faudra-t-il mettre à jour le bios de d2r2 et migale ?
# TODO
> De : Valentin Loux
Envoyé : jeudi 6 juin 2024 10:05
À : Veronique Martin
Objet : Re: Migale up ! DOWN down !!!! migale et d2r2 donwn
Salut véro,
merci des efforts. Tu as essayé de te connecter sur l’iDRAC du chassis ?
Si les noeuds ne répondent plus on peut tenter vers là …
Je serais tenté de faire un reboot à froid du chassis. EN essayant d’arréter toutes les lames du chassis, puis en rebootant électriquement le chassis ?
```
qmod -d maiage.q@n66 maiage.q@n67
qmod -d short.q@n71
```
* Arret de ces 3 nodes
* Arret des nodes n60 n61 et n62 qui ne sont pas dans le cluster mais étaient alumés
> [time=Thu, Jun 6, 2024 11:19 AM] [color=#ff0000] **Après verif migale et d2r2 sont accessibles sans avoir fait d'autre manip**
- Arret du n68
- en attente du n71 pour eteindre
- c'est un qlogin !
```
---------------------------------------------------------------------------------
short.q@n71 BIP 0/2/28 0.05 lx-amd64 d
5338356 0.56690 QLOGIN kilchenko r 06/06/2024 10:18:21 2
---------------------------------------------------------------------------------
```
##
> [time=Fri, Jun 7, 2024 7:49 AM] [color=#ff0000]
reste un seul node allumé (n71) et les 2 serveurs d2r2, migale
```
[banko@banko ~]$ date
ven. juin 7 07:49:30 CEST 2024
[banko@banko ~]$ qhost
error: commlib error: got select error (No route to host)
error: unable to contact qmaster using port 6444 on host "d2r2"
[banko@banko ~]$
```
n71 est libre je l'arrete...
- d2r2 et migale accessibles à nouveau
> [time=Tue, Jun 11, 2024 8:48 AM] [color=#ff0000]
Depuis l'arrêt de tous les nodes vendride 7 juin
et jusqu'à maintenant plus de problème !!!
val
1/ redemarrer le reseau attendre 24H00
2/ remettre les nodes 1 par 1
> [time=Tue, Jun 11, 2024 4:48 PM][color=green]
Toujours OK
> [time=Wed, Jun 12, 2024 9:25 AM][color=red]
Toujours ok ce matin, on redemarre le n71
et à 12h00 qmod -e (dans la file cluster)
:-1: l**a simple remise sous tension du n71 à suffit à planter migale et d2r2**
apres qlq herues de recherches... rien trouvé
on met n71 hors Tension (HT)
migale et d2r2, redmind sont OK
2eme essai avec n68
n68 sous tension (ST)
> [time=Wed, Jun 12, 2024 3:34 PM]
**** les ip privées pertubent les serveur ip public *****
15h45 n71 ST
17h00 migale,... OUT
n68 HT ==> ok
> [time=Thu, Jun 13, 2024 9:25 AM] [color=red]
migale,... OUT
n71 HT