GreenGenes2 - HackMD

# GreenGenes2 [Web](https://greengenes2.ucsd.edu/) info GreenGenes2 ### Instalando Primero lo instalé en la versión más nueva de qiime. (qiime2-amplicon-2024.2) Daba un error de: > Error: QIIME 2 has no plugin/command named 'greengenes2'. Cree un nuevo enviromennt con una versíon más antigua de qiime ``` wget https://data.qiime2.org/distro/core/qiime2-2023.2-py38-linux-conda.yml conda env create -n qiime2-2023.2 --file qiime2-2023.2-py38-linux-conda.yml ``` Instalé de nuevo el plugin ``` pip install q2-greengenes2 ``` Y ahora parece que funciona :) al menos no sale el error al ejecutar `qiime greengenes2` :woman-with-bunny-ears-partying: ## Uando greengenes2 ### Datos de amplicones desde la feature-table Uso los datos de Nutrision la feature table `conda activate qiime2-2023.2 ` Descargamos la ref adecuada: `wget http://ftp.microbio.me/greengenes_release/2022.10/2022.10.backbone.full-length.fna.qza` ```bash qiime greengenes2 non-v4-16s \ --i-table featureTable.qza \ --i-sequences featureSeqs.qza \ --i-backbone 2022.10.backbone.full-length.fna.qza \ --o-mapped-table nutrision.gg2.biom.qza \ --o-representatives nutrision.gg2.fna.qza ``` Siguiente paso: ```bash qiime greengenes2 taxonomy-from-table \ --i-reference-taxonomy 2022.10.taxonomy.asv.nwk.qza \ --i-table nutrision.gg2.biom.qza \ --o-classification nutrision.gg2.taxonomy.qza ``` Cambiar formato para visualizar: ``` qiime metadata tabulate \ --m-input-file nutrision.gg2.taxonomy.qza \ --o-visualization nutrision.gg2.taxonomy.qz ``` ``` qiime taxa barplot --i-table nutrision.gg2.biom.qza \ --i-taxonomy nutrision.gg2.taxonomy.qza \ --m-metadata-file metadata.tsv \ --o-visualization taxa_barplot.qzv ``` ``` qiime feature-table summarize \ --i-table nutrision.gg2.biom.qza \ --o-visualization nutrision.gg2.biom.qzv \ --m-sample-metadata-file metadata.tsv ``` Ya tengo mis datos analizados con GG2 :hamster: ## Shotgun data Descargar WoRL2 > Nota: No estoy segura si descargue la adecuada hay varias opciones para bowtie y no dice nada ._. Me descargué todos los archivos y los metí en una carpeta llamada `WoLr2` pero me daba un error de que no conseguía el indice. ```bash wget --no-check-certificate https://ftp.microbio.me/pub/wol2/databases/bowtie2/WoLr2.4.bt2l #Aqui toda la carpeta wget --no-check-certificate https://ftp.microbio.me/pub/wol2/databases/bowtie2/ ``` **Usar bowtie** Minimize output alignment file size (no header, no unaligned, no alignment sequences and scores, compress SAM file): Con mis datos Copiar un par de datos de AI4food limpios de host ``` scp -p laura@172.16.200.189:/disk2/Grogu/victor/AI4FOOD/CLEAN_READS/V1_783_1.fastq /home/lauramarcos/Laura/gg2 scp -p laura@172.16.200.189:/disk2/Grogu/victor/AI4FOOD/CLEAN_READS/V1_783_2.fastq /home/lauramarcos/Laura/gg2 ``` > Si nofunciona el indice, desacargar de `/genomes` all.fna y hacer el indice yo. Descargar genomas concatenados y descomprimir. ``` wget --no-check-certificate https://ftp.microbio.me/pub/wol2/genomes/all.fna.xz mkdir -p databases/bowtie2 xz -d -k all.fna.xz ``` Construir [indice](https://www.metagenomics.wiki/tools/bowtie2/index) ```bash bowtie2-build --seed 42 --threads 9 all.fna.xz /home/lauramarcos/Compubio/databases/bowtie2/WoLr2 #añadir al path export BOWTIE2_INDEXES=/home/lauramarcos/Compubio/databases/bowtie2/ cp *.bt2l $BOWTIE2_INDEXES ``` * No pude por falta de espacio... >Sigo intentando con el pre-built sino lo hago en BIOALM y me lo paso, pero es tontería Repito el alineamiento cn bowtie usando el indice pre-built de WoLr2 que me descargué y me di cuenta que el error puede ser que no estaba definiendo el `basename` es decir debía poner WoLr2 después del directorio, que le puse el mismo nombre :raised_hand_with_fingers_splayed: ```bash Este el codigo bowtie2 -p # -x WoLr2.4.bt2l -1 input.R1.fq -2 input.R2.fq --very-sensitive \ --no-head --no-unal | cut -f1-9 | sed 's/$/\t*\t*/' | gzip > output.sam.gz #Mi codigo con 7 cores y todo el directorio del indice ._. bowtie2 -p 7 -x ~lauramarcos/Laura/gg2/WoLr2/WoLr2 -1 V1_783_1.fastq -2 V1_783_2.fastq --very-sensitive --no-head --no-unal | cut -f1-9 | sed 's/$/\t*\t*/' | gzip > output.sam.gz ``` > Si esto funciona arreglar para que este el indice exportado en el path y no tenga que poner todo el directorio y solo WoLr2/WoLr2 o algo así. Creo que así funcionaría `export BOWTIE2_INDEXES=/home/lauramarcos/Compubio/databases/bowtie2/ cp *.bt2l $BOWTIE2_INDEXES` Entonces al llamarla por WoLr2 saltaría. Probar antes de llevar al cluster. #### Continuación con qiime2 Ver [aquí](https://forum.qiime2.org/t/introducing-greengenes2-2022-10/25291) info de uso con qiime2. Instalar Woltka ```bash pip install woltka #No se si hace falta qiime dev refresh-cache ``` Crear formato biom como imput para qiime2. Creamos **OGUs** (operational genomic unit) (Zhu et al., 2022) is a notion we proposed to define the minimum unit of microbiome composition allowed by shotgun metagenomic data. - con Woltka Primero descomprimí el archivo autput del alinemaniento `gzip -d output.sam.gz` ```bash woltka classify -i output.sam -o ogu.biom --no-demux ``` >Sino ponia --no-demux luego no me quedaba el ID de la meustra y petaba Poner tabla en formato qiime ```bash conda activate qiime2-2023.2 qiime tools import \ --input-path ogu.biom \ --output-path ogu.biom.qza \ --type FeatureTable[Frequency] ``` biom convert -i ogu.biom -o feature-table.tsv --to-tsv ``` qiime metadata tabulate \ --m-input-file ogu.biom.qza \ --o-visualization ogu.biom.qzv ``` Filtrar features que solo estan en GG2 y luego asignar la taxonomia adecuada. ``` qiime greengenes2 filter-features \ --i-feature-table ogu.biom.qza \ --i-reference 2022.10.taxonomy.asv.nwk.qza \ --o-filtered-feature-table woltka_gg2.biom.qza qiime greengenes2 taxonomy-from-table \ --i-reference-taxonomy 2022.10.taxonomy.asv.nwk.qza \ --i-table woltka_gg2.biom.qza \ --o-classification woltka_gg2.taxonomy.qza ``` Cambiar formato para visualizar: ``` qiime metadata tabulate \ --m-input-file woltka_gg2.taxonomy.qza \ --o-visualization woltka_gg2.taxonomy.qzv ``` Mas visualizaciones ``` qiime taxa barplot --i-table woltka_gg2.biom.qza \ --i-taxonomy woltka_gg2.taxonomy.qza \ --m-metadata-file metadata.tsv \ --o-visualization taxa_barplot.qzv ``` ``` qiime feature-table summarize \ --i-table woltka_gg2.biom.qza \ --o-visualization woltka_gg2.biom.qzv \ --m-sample-metadata-file metadata.tsv ``` :::spoiler Ejemplo de uso redbiom fetch samples-contained --context $ctx | \ head | \ redbiom fetch samples \ --context $ctx \ --resolve-ambiguities merge \ --output woltka.example.biom biom convert -i woltka.example.biom -o woltka.example.tsv --to-tsv qiime tools import \ --input-path woltka.example.biom \ --output-path woltka.example.biom.qza \ --type FeatureTable[Frequency] ::: --- Lanzar esto en el servidor user: ljmarcos ssh ljmarcos@login2.ccc.uam.es ### 1. Pedir que instalen/descarguen - [x] bowtie2 (ya estará) - [x] woltka - [x] qiime2 (ya estará), pero revisar plugin greengenes2 - [x] Index WorL2 bowtie y pedir que lo pongan en el path - [x] Index GG2 para qiime - creo que esto me lo paso yo misma (Pesa poco) - [x] Metamobilepicker ### 1.1 Pasar index bowtie ``` scp *.bt2l ljmarcos@login2.ccc.uam.es:/home/ljmarcos/WoLr2 ``` ### 2. Pasar datos filtrados de host de AI4Food - sólo V1 ``` scp *.fastq ljmarcos@login2.ccc.uam.es:/home/ljmarcos/clean_data ``` ### 3. Preprar scripts Deberia hacer uno para SLURM y luego uno para bowtie, otro para woltka y otro para qiime2. #### Bowtie2 `bowtie2 -p 7 -x ~lauramarcos/Laura/gg2/WoLr2/WoLr2 -1 *1.fastq -2 *_2.fastq --very-sensitive --no-head --no-unal | cut -f1-9 | sed 's/$/\t*\t*/' | gzip > output.sam.gz` #### Woltka ``` woltka classify -i *.sam -o ogu.biom --no-demux ``` #### Qiime2 Sale mas a cuenta hacer esto en Grogu, es rapido. :::spoiler Sería así ```bash=1 #!/bin/bash #SBATCH -p bioinfo #partition/queue name #SBATCH --job-name=woltka #Job name #SBATCH -N 1 #Un nodo #SBATCH -n 40 #Cuarenta cores #SBATCH -t 05:00:00 #Time limit hrs:min:sec #SBATCH --output=/home/ljmarcos/qiime/log-%j.o #Log de salida #SBATCH --error=/home/ljmarcos/qiime/log-%j.e #Log de errores #SBATCH --mail-user=judith.marcos@alimentacion.imdea.org #SBATCH --mail-type=END,FAIL module load qiime/2023.2 conda activate qiime2-2023.2 qiime tools import \ --input-path ogu.biom \ --output-path ogu.biom.qza \ --type FeatureTable[Frequency] #Filtrar features que solo estan en GG2 y luego asignar la taxonomia adecuada. qiime greengenes2 filter-features \ --i-feature-table ogu.biom.qza \ --i-reference 2022.10.taxonomy.asv.nwk.qza \ --o-filtered-feature-table woltka_gg2.biom.qza qiime greengenes2 taxonomy-from-table \ --i-reference-taxonomy 2022.10.taxonomy.asv.nwk.qza \ --i-table woltka_gg2.biom.qza \ --o-classification woltka_gg2.taxonomy.qza #Cambiar formato para visualizar: qiime metadata tabulate \ --m-input-file woltka_gg2.taxonomy.qza \ --o-visualization woltka_gg2.taxonomy.qzv ``` ::: ### 4. Lanzar trabajos Script bowtie2: ```perl=1 #!/usr/bin/perl foreach $ar (@ARGV) { $r1 = $ar; $r2 = $ar; $r2 =~ s/_1/_2/; $name = $ar; $name =~ s/_1.fastq//; system("bowtie2 -p 20 -x /usr/local/BBDD/WoLr2/WoLr2 -1 $r1 -2 $r2 --very-sensitive --no-head --no-unal | cut -f1-9 | sed 's/$/\t*\t*/' | gzip > $name.sam.gz"); } ``` Script Slurm ```bash=1 #!/bin/bash #SBATCH -p bioinfo #partition/queue name #SBATCH --job-name=alineamiento_WoRL2 #Job name #SBATCH -N 1 #Un nodo #SBATCH -n 20 #Veinte cores #SBATCH -t 2000:00:00 #Time limit hrs:min:sec #SBATCH --initialdir="/home/proyectos/imdeaalim/ljmarcos/clean_data" #SBATCH --output=/home/ljmarcos/WoRL2/log-%j.o #Log de salida #SBATCH --error=/home/ljmarcos/WoRL2/log-%j.e #Log de errores #SBATCH --mail-user=judith.marcos@imdea.org #SBATCH --mail-type=END,FAIL module load bowtie2/2.5.3 perl bowtie2.pl *_1.fastq echo "Job" $SLURM_JOB_NAME echo "ID" $SLURM_JOBID exit 0 ``` **Ejecutar** :computer: Conectar al servidor y ejecutar script slurm :snail: ```bash ssh ljmarcos@login2.ccc.uam.es cd .. cd proyectos/imdeaalim/ljmarcos/clean_data/ sbatch -A imdeaalim_serv -p bioinfo slurm_bowtie2.sh ``` ## Woltka Para sacar la lista de nombres de muestras: ```bash=1 #!/bin/bash # Directorio de entrada directorio="." # Archivo de salida archivo_salida="samples.txt" # Iterar sobre los archivos en el directorio for archivo in "$directorio"/*; do # Extraer solo el nombre del archivo sin la extensión nombre_archivo=$(basename "$archivo" | cut -d. -f1) # Concatenar los nombres con una coma nombres="$nombres$nombre_archivo," done # Eliminar la última coma nombres=${nombres%,} # Escribir los nombres de archivo en el archivo de salida echo "$nombres" > "$archivo_salida" echo "Proceso completado. Se ha generado el archivo '$archivo_salida'." ``` Script de slurm :snail: ```bash=1 #!/bin/bash #SBATCH -p bioinfo #partition/queue name #SBATCH --job-name=alineamiento_WoRL2 #Job name #SBATCH -N 1 #Un nodo #SBATCH -n 20 #Veinte cores #SBATCH -t 2000:00:00 #Time limit hrs:min:sec #SBATCH --initialdir="/home/proyectos/imdeaalim/ljmarcos/clean_data" #SBATCH --output=/home/ljmarcos/woltka/log-%j.o #Log de salida #SBATCH --error=/home/ljmarcos/woltka/log-%j.e #Log de errores #SBATCH --mail-user=judith.marcos@imdea.org #SBATCH --mail-type=END,FAIL module load woltka/0.1.6 woltka classify -i /home/proyectos/imdeaalim/ljmarcos/clean_data/alignment -s samples.txt -o ogu.biom --no-demux ``` Conectar al servidor y ejecutar script slurm :snail: ```bash ssh ljmarcos@login2.ccc.uam.es cd .. cd proyectos/imdeaalim/ljmarcos/clean_data/ sbatch -A imdeaalim_serv -p bioinfo slurm_woltka.sh ``` Me da un error y aunque diga que admite archivos comprimidos, ya me pasó en la prueba que no era así... modifico el script para que primero descomprima todo. ```bash=1 #!/bin/bash #SBATCH -p bioinfo #partition/queue name #SBATCH --job-name=woltka #Job name #SBATCH -N 1 #Un nodo #SBATCH -n 40 #Veinte cores #SBATCH -t 72:00:00 #Time limit hrs:min:sec #SBATCH --output=/home/ljmarcos/woltka/log-%j.o #Log de salida #SBATCH --error=/home/ljmarcos/woltka/log-%j.e #Log de errores #SBATCH --mail-user=judith.marcos@imdea.org #SBATCH --mail-type=END,FAIL #Cargar woltka module load woltka/0.1.6 # Directorio donde se encuentran los archivos de alineamiento directorio_alignment="/home/proyectos/imdeaalim/ljmarcos/clean_data/alignment" # Descomprimir archivos en el directorio de alineamiento gunzip -r "$directorio_alignment" # Ejecutar el comando Woltka woltka classify -i "$directorio_alignment" -s samples.txt -o ogu.biom --no-demux ``` Me sale un error raro, repito así: ```bash=1 #!/bin/bash #SBATCH -p bioinfo #partition/queue name #SBATCH --job-name=woltka #Job name #SBATCH -N 1 #Un nodo #SBATCH -n 40 #Cuarenta cores #SBATCH -t 72:00:00 #Time limit hrs:min:sec #SBATCH --output=/home/ljmarcos/woltka/log-%j.o #Log de salida #SBATCH --error=/home/ljmarcos/woltka/log-%j.e #Log de errores #SBATCH --mail-user=judith.marcos@imdea.org #SBATCH --mail-type=END,FAIL #Cargar woltka module load woltka/0.1.6 # Ejecutar el comando Woltka woltka classify -i /alignment -s samples.txt -o ogu.biom --no-demux ``` :memo: Actulización 20 de mayo 2024 El error era porque algunos archivos no se habian alineado, después demucho tiempo perdido, me dicuenta que habíaun error en el script de perl al poner que sustituyera *_1* por *_2* me cambiaba el nomnre de l amuestra y no existia y hacia el alinemaiento pero con el archivo vacio... Me dic centa que todas la smuestras llamadas "V1_1XX" estaban mal (Total 29 muestras) y esto l oque hacía es que lueg woltka no corriera. Estoy repitiendo con el script corregido (En vez de *_1* pone *_1.fastq") a ver si así funciiiona. La prueba con 4 alineamientos buenos funcionó, así que tengo fe. :pray: --- Me escriben del cluster pidiendo que modifique el script tal que así: ``` # Cargar woltka. module load woltka/0.1.6 # Copiar a temporal los ficheros de entrada necesarios para woltka. mkdir /temporal/$SLURM_JOB_USER/$SLURM_JOB_ID cp -r alineamientos /temporal/$SLURM_JOB_USER/$SLURM_JOB_ID cd /temporal/$SLURM_JOB_USER/$SLURM_JOB_ID # Ejecutar el comando Woltka. woltka classify -i alineamientos -f sam -o alineamientos/resultados/ogu.biom # Mover a imdeaalim los resultados del cálculo. mv alineamientos/resultados/ogu.biom /lustre/NodoBIO/imdeaalim/ljmarcos/clean_data/alineamientos/resultados # Eliminar los archivos temporales. rm -rf /temporal/$SLURM_JOB_USER/$SLURM_JOB_ID ``` El correo en cuestión: :::spoiler Estimada Laura Judith: Hemos comprobado que sus trabajos realizan un alto impacto en el sistema de ficheros centralizado, por lo que le rogamos realice una ligera modificación en sus scripts. De hecho es muy posible que con esta modificación encuentre una mejora de rendimiento en sus trabajos. Centrándonos en el trabajo que hemos tenido que parar por el comportamiento que hemos indicado, en su script tiene tras las líneas para SLURM el siguiente código: ``` #Cargar woltka module load woltka/0.1.6 # Ejecutar el comando Woltka woltka classify -i alineamientos -f sam -o alineamientos/resultados/ogu.biom ``` Necesitaríamos que lo cambiara por: ``` # Cargar woltka. module load woltka/0.1.6 # Copiar a temporal los ficheros de entrada necesarios para woltka. mkdir /temporal/$SLURM_JOB_USER/$SLURM_JOB_ID cp -r alineamientos /temporal/$SLURM_JOB_USER/$SLURM_JOB_ID cd /temporal/$SLURM_JOB_USER/$SLURM_JOB_ID # Ejecutar el comando Woltka. woltka classify -i alineamientos -f sam -o alineamientos/resultados/ogu.biom # Mover a imdeaalim los resultados del cálculo. mv alineamientos/resultados/ogu.biom /lustre/NodoBIO/imdeaalim/ljmarcos/clean_data/alineamientos/resultados # Eliminar los archivos temporales. rm -rf /temporal/$SLURM_JOB_USER/$SLURM_JOB_ID ``` Si se fija lo que intentamos hacer es que calcule en /temporal, que es un directorio local de las máquinas de cálculo accesible únicamente en el momento del cálculo, pero al ser local a la máquina ofrece mayor rendimiento. Para ello creamos un directorio propio en este sistema, si bien Slurm lo suele crear por defecto, y copiamos lo que necesitamos en él. Una vez finalizada la copia nos movemos a ese directorio y se ejecuta woltka. Al final se mueven los resultados al directorio original. Tenga presente que apenas conocemos el funcionamiento de woltka, por lo que por favor modifique estas líneas para copiar a temporal otros ficheros si son necesarios y para luego mover a su directorio de NodoBIO lo que considere que necesita. Por supuesto si necesita cualquier ayuda en este sentido, indíquenoslo. Lamentamos las molestias ocasionadas. Reciba un cordial saludo, Pablo Sanz ::: # Actualización Qiime/GreenGenes2 Sería esta BD: `2024.09.backbone.full-length.fna.qza ` Esta [aquí](http://ftp.microbio.me/greengenes_release/current/). Y la versión de qiime2 para amplicones `qiime2-amplicon-2024.2` ``` # Ejecutar qiime2 conda activate qiime2-amplicon-2024.2 qiime tools import \ --type 'SampleData[PairedEndSequencesWithQuality]' \ --input-path manifiest.csv \ --output-path demux.qza \ --input-format PairedEndFastqManifestPhred33 \ qiime demux summarize \ --i-data demux.qza \ --o-visualization demux.qzv # DADA2 #screen qiime qiime dada2 denoise-paired \ --i-demultiplexed-seqs demux.qza \ --p-n-threads 10 \ --p-trim-left-f 25 \ --p-trim-left-r 20 \ --p-trunc-len-f 250 \ --p-trunc-len-r 235 \ --o-table table.qza \ --o-representative-sequences rep-seqs.qza \ --o-denoising-stats denoising-stats.qza \ --p-min-fold-parent-over-abundance 10 #Con ptrunc-len-r a 240 mejora elporcentaje de merged de 30 a 50% todavia hay muchas quimeras, pruebo con 210 y luego veré con el parametro de filtrar quimeras, tambien quité mas del trim-f dejandolo en 25 210 mal, a ver 235 sino 240 y subimos el parent-over a 8 #Visualizaciones qiime feature-table summarize \ --i-table table.qza \ --o-visualization table.qzv \ --m-sample-metadata-file metadata.tsv qiime feature-table tabulate-seqs \ --i-data rep-seqs.qza \ --o-visualization rep-seqs.qzv qiime metadata tabulate \ --m-input-file denoising-stats.qza \ --o-visualization denoising-stats.qzv # GreenGenes2 para taxonomía #Instalé el plugin de GreenGenes2 para qiime pip install q2-greengenes2 #Usé el nuevo backbone actualizado además es para qiime-amplicon-2024 :) qiime greengenes2 non-v4-16s \ --i-table table.qza \ --i-sequences rep-seqs.qza \ --i-backbone 2024.09.backbone.full-length.fna.qza \ --o-mapped-table results.gg2.biom.qza \ --o-representatives results.gg2.fna.qza qiime greengenes2 taxonomy-from-table \ --i-reference-taxonomy 2024.09.taxonomy.asv.nwk.qza \ --i-table results.gg2.biom.qza \ --o-classification results.gg2.taxonomy.qza qiime metadata tabulate \ --m-input-file results.gg2.taxonomy.qza \ --o-visualization results.gg2.taxonomy.qzv qiime taxa barplot --i-table results.gg2.biom.qza \ --i-taxonomy results.gg2.taxonomy.qza \ --m-metadata-file metadata.tsv \ --o-visualization taxa_barplot.qzv qiime feature-table summarize \ --i-table results.gg2.biom.qza \ --o-visualization results.gg2.biom.qzv \ --m-sample-metadata-file metadata.tsv # Colapsar a nivel de género #Comandos en qiime para colapsar las features 16S qiime taxa collapse \ --i-table results.gg2.biom.qza \ --i-taxonomy results.gg2.taxonomy.qza \ --p-level 6 \ --o-collapsed-table 16Scollapsed.qza ```