## Práctica: Obtención de secuencias de proteínas a partir de un artículo corriendo un alineamiento local con BLAST.
**Julio Antonio Hernández González**
jahernan04@cibnor.mx
### 1. Crea un directorio y copia el archivo de IDs de genes:
Se generó un archivo (Gene_ID.txt) a partir del articulo (https://doi.org/10.1186/s13099-014-0036-y), con los IDs de la tabla número 3, segunda columna.
```
$ mkdir 4Arte
$ cd 4Arte
$ cp /home/rvazquez/JulioHernadezTemp/Temp/Gene_ID.txt .
```
### 2. Descarga y copia el genoma y la anotación del NCBI:
Se descargó del NCBI el genoma del artículo antes mencionado y algunas de sus archivos resultados de la anotación. Y se nombró JDVW00000000_cds_from_genomic.fna
```
$ cp /home/rvazquez/JulioHernadezTemp/Temp/JDVW00000000_cds_from_genomic.fna .
```
### 3. Obtención de las secuencias de proteínas de interés:
Con el programa fasta_formatter se le cambió el formato del archivo fasta, observar el cambio.
```
$ while read -r line; do grep "$line" JDVW00000000_cds_from_genomic.fna >> Temp.txt; done < Gene_ID.txt
$ cut -d "_" -f 4,5 Temp.txt > Protein-ID.txt
$ cp /home/rvazquez/JulioHernadezTemp/Temp/JDVW00000000_protein.faa .
$ fasta_formatter -i JDVW00000000_protein.faa -o JDVW00000000_protein.fa -w 0
$ while read -r line; do grep -A 1 "$line" JDVW00000000_protein.fa >> ProteinsInterest.fasta; done < Protein-ID.txt
$ cd ..
```
## Análisis empleando BLAST
### 4. Crea un directorio y prepara los archivos necesarios:
```
$ mkdir 5Blast
$ cd 5Blast/
$ cp ../4Arte/ProteinsInterest.fasta .
$ ln -s ../2Annotation/Pp16CC/Pp16CC.faa .
```
### 5. Crear una base de datos para realizar un alineamiento local empleando BLAST:
```
$ makeblastdb -in Pp16CC.faa -dbtype prot -parse_seqids -out DB_Pp16CC -title "Base de Datos de Pp16CC"
$ blastp -query ProteinsInterest.fasta -db DB_Pp16CC -evalue 1e-6 -outfmt '7 qseqid sseqid length qlen slen qstart qend sstart send evalue' -out BlastpResultado.txt -num_threads 32
```
### 6. Genera un resumen del resultado:
```
$ echo "query id, subject id, alignment length, query length, subject length, q. start, q. end, s. start, s. end, evalue" > BlastpResumen.txt
$ grep "^WP_" BlastpResultado.txt >> BlastpResumen.txt
```
### 7. Obtención de las secuencias de proteínas
```
$ cat BlastpResumen.txt | cut -f 2 | grep "^A" > IDs_Pp16CC.txt
$ fasta_formatter -i Pp16CC.faa -o Pp16CC_prot.faa -w 0
$ while read -r line; do grep -A 1 "$line" Pp16CC_prot.faa >> ProteinsInterestPp16CC.fasta; done < IDs_Pp16CC.txt
more ProteinsInterestPp16CC.fasta
```
### 8. Análisis Exploratorio de Resultados
```
cat BlastpResumen.txt
```
### 9. Se seleccionan los IDs repetidos.
Los IDs repetidos se buscaran en nuestra anotación.
$ cat BlastpResumen.txt | cut -f 1 | sort | uniq -c | sort
$ grep -E 'WP_002833446.1|WP_002833317.1' BlastpResumen.txt | cut -f 2 > temp.txt
$ while read -r line; do grep "$line" ../3Annotation/Pp16CC/Pp16CC.tsv; done < temp.txt
$ grep -E 'WP_002833446.1|WP_002833317.1' ../4Arte/JDVW00000000_cds_from_genomic.fna | grep "locus_tag=BB06"
```