Práctica: Obtención de secuencias de proteínas a partir de un alineamiento local - BLAST

## Práctica: Obtención de secuencias de proteínas a partir de un artículo corriendo un alineamiento local con BLAST. **Julio Antonio Hernández González** jahernan04@cibnor.mx ### 1. Crea un directorio y copia el archivo de IDs de genes: Se generó un archivo (Gene_ID.txt) a partir del articulo (https://doi.org/10.1186/s13099-014-0036-y), con los IDs de la tabla número 3, segunda columna. ``` $ mkdir 4Arte $ cd 4Arte $ cp /home/rvazquez/JulioHernadezTemp/Temp/Gene_ID.txt . ``` ### 2. Descarga y copia el genoma y la anotación del NCBI: Se descargó del NCBI el genoma del artículo antes mencionado y algunas de sus archivos resultados de la anotación. Y se nombró JDVW00000000_cds_from_genomic.fna ``` $ cp /home/rvazquez/JulioHernadezTemp/Temp/JDVW00000000_cds_from_genomic.fna . ``` ### 3. Obtención de las secuencias de proteínas de interés: Con el programa fasta_formatter se le cambió el formato del archivo fasta, observar el cambio. ``` $ while read -r line; do grep "$line" JDVW00000000_cds_from_genomic.fna >> Temp.txt; done < Gene_ID.txt $ cut -d "_" -f 4,5 Temp.txt > Protein-ID.txt $ cp /home/rvazquez/JulioHernadezTemp/Temp/JDVW00000000_protein.faa . $ fasta_formatter -i JDVW00000000_protein.faa -o JDVW00000000_protein.fa -w 0 $ while read -r line; do grep -A 1 "$line" JDVW00000000_protein.fa >> ProteinsInterest.fasta; done < Protein-ID.txt $ cd .. ``` ## Análisis empleando BLAST ### 4. Crea un directorio y prepara los archivos necesarios: ``` $ mkdir 5Blast $ cd 5Blast/ $ cp ../4Arte/ProteinsInterest.fasta . $ ln -s ../2Annotation/Pp16CC/Pp16CC.faa . ``` ### 5. Crear una base de datos para realizar un alineamiento local empleando BLAST: ``` $ makeblastdb -in Pp16CC.faa -dbtype prot -parse_seqids -out DB_Pp16CC -title "Base de Datos de Pp16CC" $ blastp -query ProteinsInterest.fasta -db DB_Pp16CC -evalue 1e-6 -outfmt '7 qseqid sseqid length qlen slen qstart qend sstart send evalue' -out BlastpResultado.txt -num_threads 32 ``` ### 6. Genera un resumen del resultado: ``` $ echo "query id, subject id, alignment length, query length, subject length, q. start, q. end, s. start, s. end, evalue" > BlastpResumen.txt $ grep "^WP_" BlastpResultado.txt >> BlastpResumen.txt ``` ### 7. Obtención de las secuencias de proteínas ``` $ cat BlastpResumen.txt | cut -f 2 | grep "^A" > IDs_Pp16CC.txt $ fasta_formatter -i Pp16CC.faa -o Pp16CC_prot.faa -w 0 $ while read -r line; do grep -A 1 "$line" Pp16CC_prot.faa >> ProteinsInterestPp16CC.fasta; done < IDs_Pp16CC.txt more ProteinsInterestPp16CC.fasta ``` ### 8. Análisis Exploratorio de Resultados ``` cat BlastpResumen.txt ``` ### 9. Se seleccionan los IDs repetidos. Los IDs repetidos se buscaran en nuestra anotación. $ cat BlastpResumen.txt | cut -f 1 | sort | uniq -c | sort $ grep -E 'WP_002833446.1|WP_002833317.1' BlastpResumen.txt | cut -f 2 > temp.txt $ while read -r line; do grep "$line" ../3Annotation/Pp16CC/Pp16CC.tsv; done < temp.txt $ grep -E 'WP_002833446.1|WP_002833317.1' ../4Arte/JDVW00000000_cds_from_genomic.fna | grep "locus_tag=BB06" ```