# BLAST (Basic Local Alignment Search Tool) ## direct by Merih Birtanem Zeren ![image](https://hackmd.io/_uploads/S1srqf9wp.png) ### Giriş ##### BLAST Nedir? ##### Temel Yerel Hizalama Arama Aracı ##### BLAST, genetik ve moleküler biyolojide kullanılan bir araştırma aracıdır. Benzer dizileri bulma ve hizalama yapma amacı güder. ## Temel Prensipler #### BLAST'ın Temelleri BLAST, genetik ve moleküler biyoloji alanlarında kullanılan bir araştırma aracıdır. Temel amacı, bir veri kümesindeki bir diziyi (örneğin, DNA veya protein) alıp, bu diziyi büyük veritabanları içindeki diğer dizilerle karşılaştırarak benzerlikleri bulmaktır. ![image](https://hackmd.io/_uploads/ryLvqf9vT.png) #### İşte BLAST'ın temel prensipleri: 1. *Yerel Hizalama:* Veri kümesindeki bir bölgenin, veritabanındaki diğer dizilerle benzerliklerini bulur. 2. *Skorlama Sistemi:* Benzerlikleri değerlendirmek için bir skorlama sistemi kullanır, diziler arasındaki eşleşme ve uyuşmama durumlarını değerlendirir. 3. *Veritabanları ile Etkileşim:* Kullanıcı, BLAST'a bir sorgu dizisi ve bir veya birden fazla veritabanı seçer. BLAST, sorgu dizisini seçilen veritabanındaki diğer dizilerle karşılaştırır. 4. *İstatistiksel Analiz:* Çıktıları istatistiksel olarak analiz eder, benzerlik skorlarının rastgele olup olmadığını değerlendirir ve sonuçların güvenilirliğini belirler. BLAST'ın temel prensipleri, genetik araştırmalardan protein karşılaştırmalarına kadar birçok alanda hızlı ve etkili bir şekilde benzer dizileri bulmak ve analiz etmek üzerine odaklanır. ## BLAST Türleri blastp: bir protein dizisini aprotein dizisi veritabanıyla karşılaştırır. blastn: bir nükleotid dizisini anükleotid dizisi veritabanına karşı karşılaştırır. blastx: bir protein veritabanına karşı bir anükleotid dizisinin altı çerçeve çevirisini karşılaştırır tblastn: bir protein dizisini bir nükleotid veritabanının altı çerçeve çevirisiyle karşılaştırır tblastx: bir nükleotit dizisinin altı çerçeve çevirisini bir nükleotit veritabanının altı çerçeve çevirisiyle karşılaştırır. ![image](https://hackmd.io/_uploads/HJzj9GqD6.png) ## BLAST Nasıl Çalışır Blast aramaları, kullanıcı tarafından belirtilen dizilenmiş veritabanlarıyla eşleştirilecek bir sorgu dizisiyle başlar. Sorgu dizisini bir dizi kısa örtüşen "kelimeye" ayırarak başlar BLAST N için varsayılan kelime boyutu 28 nükleotittir BLAST P için varsayılan kelime boyutu 3 amino asittir-Elde edilen sonuçlar kullanılan puanlama matrisine bağlıdır. BLOSUM 62 matrisi BLASTP için varsayılan puanlama matrisidir ![image](https://hackmd.io/_uploads/rkkaczcDT.png) ## BLASTP Algoritması Sorgu dizisi, hareketli bir pencere kullanılarak tüm olası 3 harfli kelimelere ayrılır BLOSUM62 matrisinden amino asitlerin değerleri toplanarak her kelime için sayısal puan hesaplanır Skoru 12 veya daha fazla olan kelimeler ilk BLASTP arama setinde toplanır. Arama kümesi, kelimelerden bir konumda farklı olan eşanlamlılar eklenerek genişletilir. Arama kümesine yalnızca bir eşik değerinin üzerinde puan alan eşanlamlılar eklenir. NCBI BLASTP eşanlamlılar için varsayılan 10 eşik değerini kullanır Sorgu dizisi, hareketli bir pencere kullanılarak tüm olası 3 harfli kelimelere ayrılır BLOSUM62 matrisinden amino asitlerin değerleri toplanarak her kelime için sayısal puan hesaplanır Skoru 12 veya daha fazla olan kelimeler ilk BLASTP arama setinde toplanır. Arama kümesi, kelimelerden bir konumda farklı olan eşanlamlılar eklenerek genişletilir. Arama kümesine yalnızca bir eşik değerinin üzerinde puan alan eşanlamlılar eklenir. NCBI BLASTP eşanlamlılar için varsayılan 10 eşik değerini kullanır ![image](https://hackmd.io/_uploads/BJq0cMqPp.png) BLAST, bu arama setini kullanarak bir veritabanını tarar ve eşiğin üzerinde puan alan kelime isabetlerini/eşleşmelerini belirler. Bu kısa eşleşmeler tohum görevi görür. BLAST algoritması, eşleşmeyi yakın sekans komşuluğunda genişletmeye çalışır BLAST, eşleşmeleri genişlettikçe puanlama matrislerini kullanarak çalışan bir ham puan tutar. Her yeni amino asit ham puanı artırır ya da azaltır Yanlış eşleşmeler ve iki hizalama arasındaki boşluklar için cezalar atanır. BLAST, bu arama setini kullanarak bir veritabanını tarar ve eşiğin üzerinde puan alan kelime isabetlerini/eşleşmelerini belirler. Bu kısa eşleşmeler tohum görevi görür. BLAST algoritması, eşleşmeyi yakın sekans komşuluğunda genişletmeye çalışır BLAST, eşleşmeleri genişlettikçe puanlama matrislerini kullanarak çalışan bir ham puan tutar. Her yeni amino asit ham puanı artırır ya da azaltır İki hizalama arasındaki uyumsuzluklar ve boşluklar için cezalar atanır. NCBI varsayılan ayarlarında, bir boşluk 11'lik bir başlangıç cezası getirir ve bu ceza her eksik amino asit için 1 artar. Puan belirli bir seviyenin altına düştüğünde, hizalama sona erer ve blast hizalamayı genişletmeye çalışmayı durdurur. Başlangıçta bir kelime isabeti tarafından tohumlanan genişletilmiş bir dizi hizalaması üretilir -bir hsp veya yüksek puanlı segment çifti olarak adlandırılır Eşik puanının üzerinde kümülatif puanı olan tüm HSP'ler BLAST sonuçlarında rapor edilir. Ham skorlar daha sonra kullanılan skorlama matrisi için düzeltilerek bit skorlarına dönüştürülür. ![image](https://hackmd.io/_uploads/BkAyoMqwT.png) The Blast çıktısı Her hizalama için bit puanlarını (S) içeren bir tablo ve E-değeri veya "beklenti puanı" puan (S) bir hizalamanın kalitesinin bir ölçüsüdür (hizalanmış her bir kalıntı için ikame ve boşluk puanlarının toplamı olarak hesaplanır) E-değeri (E) veya beklenti değeri, hizalamanın öneminin bir ölçüsüdür. E-değeri, farklı hizalamaların sayısıdır. Bir veritabanı aramasında tesadüfen ortaya çıkması beklenen S'ye eşdeğer veya daha iyi puanlara sahip hizalamalar. E-değeri ne kadar düşükse, hizalama sonucu o kadar önemlidir. En yüksek bit puanlarına ve en düşük E-değerlerine sahip hizalamalar tablonun en üstünde listelenir. ## Bir BLAST Sonucu Nasıl Görünür ![image](https://hackmd.io/_uploads/BkfWiGqvp.png) Sorgu dizisi - şeklin üst kısmında numaralandırılmış kırmızı çubuk. Veritabanı isabetleri kırmızı çubuğun altında sorguyla hizalanmış olarak gösterilmiştir. Hizalanan diziler arasında en çok benzerleri sorguya en yakın olarak gösterilir. Bu durumda, üç yüksek puanlama vardır sorgu dizisinin çoğuyla hizalanan veritabanı eşleşmeleri. Sonraki on iki çubuk sorgunun iki bölgesine hizalanan daha düşük puanlı eşleşmeleri temsil eder, yaklaşık 3-60 kalıntıları ve 220-500 kalıntıları. Bu çubukların çapraz çizgili kısımları iki benzerlik bölgesinin aynı protein üzerinde olduğunu gösterir, ancak bu araya giren bölge eşleşmiyor. Kalan çubuklar daha düşük puanları göstermektedir hizalamalar. Çubukların üzerine fare ile gelindiğinde o dizinin tanım satırı görüntülenir. grafiğin üzerindeki pencerede gösterilecektir. ![image](https://hackmd.io/_uploads/rJQGof9vT.png) BLAST raporunda tek satırlık açıklamalar Her satır dört alandan oluşur: (a) dikey çubuklarla ayrılmış gi numarası, veritabanı tanımı, erişim numarası ve eşleşen sekans için lokus adı (ek 1); (b) sekansın kısa bir metinsel açıklaması, tanım. Bu genellikle dizinin türetildiği organizma, dizinin türü (örneğin, mRNA veya DNA) hakkında bilgi içerir, ve işlev veya fenotip hakkında bazı bilgiler. Tanım satırı, görüntüyü kompakt tutmak için genellikle tek satırlık açıklamalarda kesilir; (c) bit cinsinden hizalama puanı. Daha yüksek puanlı isabetler listenin en üstünde bulunur; ve (d) istatistiksel anlamlılığın bir tahminini sağlayan e-değeri. Listedeki ilk isabet için gi numarası 116365, veritabanı tanımı ise sp (SWISS-PROT için), erişim numarası P26374, lokus adı RAE2_HUMAN, tanım satırı rab proteinleri, skor 1216 ve e-değeri 0,0'dır. İlk 17 eşleşmenin çok düşük e-değerlerine (1'den çok daha az) sahip olduğunu ve ya RABproteinleri ya da GDP ayrışma inhibitörleri olduğunu unutmayın. Diğer veritabanı eşleşmeleri 0,5 ve üzeri gibi çok daha yüksek e-değerlerine sahiptir, bu da şu anlama gelir Bu dizilerin sadece şans eseri eşleşmiş olabileceği. ![image](https://hackmd.io/_uploads/Sk_Qsf9vp.png) BLAST raporundan çift yönlü bir dizi hizalaması Hizalamadan önce dizi tanımlayıcısı, tam tanım satırı ve amino asit cinsinden eşleşen dizi. Daha sonra bit puanı gelir (ham puan parantezler) ve ardından E-değeri. Bir sonraki satır, aşağıdaki sayılar hakkında bilgi içerir Bu hizalamadaki özdeş kalıntılar (Özdeşlikler), muhafazakar ikamelerin sayısı (Pozitifler) ve varsa hizalamadaki boşlukların sayısı. Son olarak, gerçek hizalama, üstte sorgu ile gösterilir ve veritabanı eşleşmesi aşağıda Sbjct olarak etiketlenir. Sol ve sağdaki sayılar amino asit dizisindeki pozisyonu ifade eder. Bir veya daha fazla Bir sekans içindeki çizgiler (-) ekleme veya çıkarmaları gösterir. Dizideki amino asit kalıntıları Düşük karmaşıklık nedeniyle maskelenen sorgu dizisi X'lerle değiştirilir (bkz, örneğin, dördüncü ve son bloklar). İki dizi arasındaki çizgi, iki dizi arasındaki diziler arasındaki benzerlikler. Sorgu ve konu aynı amino aside sahipse belirli bir konumda, kalıntının kendisi gösterilir. Muhafazakar ikameler, tarafından değerlendirildiği gibi ikame matrisi, + ile gösterilir. ## Detaylı Kullanım Sunumu İçin; ### Kaynakça ### https://slideplayer.com/slide/16115779/ ### https://teresas.ac.in/wp-content/uploads/2018/10/BLAST-ppt.pdf