ENCODE eCLIP re-analysis

# ENCODE eCLIP re-analysis ENCODEに登録されている全eCLIPデータからそれぞれのRBPの結合モチーフを解析する ## eCLIPのメタデータをENCODE APIから取得 ``` # eCLIPデータのメタデータを取得するためのエンドポイント api_endpoint="https://www.encodeproject.org/metadata/?type=Experiment&assay_title=eCLIP" # curlを使用してAPIにリクエストを送信してメタデータを取得 curl -s "$api_endpoint" > eclip_metadata.json ``` 以下のフィルターでピークコールのbedファイルの情報のみを選択 File format -> bed narrowPeak File assembly -> GRCh38 Biosample term name -> HepG2 and K562 Biological replicate(s) -> 1,2 #### 結果、重複を除くと272個のbedファイル ## ピークコールbedファイルのダウンロードメタデータからダウンロードurlを記載したファイルを作る (-> url.txt) ``` 改行コード削除 cat url.txt | tr -d '\r' > url_tr.txt head -n 5 url_tr.txt https://www.encodeproject.org/files/ENCFF293IZG/@@download/ENCFF293IZG.bed.gz https://www.encodeproject.org/files/ENCFF341XMP/@@download/ENCFF341XMP.bed.gz https://www.encodeproject.org/files/ENCFF945NFS/@@download/ENCFF945NFS.bed.gz https://www.encodeproject.org/files/ENCFF027MEO/@@download/ENCFF027MEO.bed.gz https://www.encodeproject.org/files/ENCFF950VZO/@@download/ENCFF950VZO.bed.gz ``` 遺伝子名(ファイル名)のファイルを作る (-> name.txt) ``` 改行コード削除 cat name.txt | tr -d '\r' > name_tr.txt head -n 5 name_tr.txt HepG2_RBM22.bed.gz HepG2_LIN28B.bed.gz HepG2_WDR43.bed.gz HepG2_CDC40.bed.gz HepG2_SF3A3.bed.gz ``` Download & rename ``` while IFS= read -r url && IFS= read -r name <&3; do wget "$url" -O bed/"$name" ; done <url_tr.txt 3<name_tr.txt ``` ダウンロードしたファイル数の確認 ``` ls bed/ | wc -l 271 ``` 1個ダウンロードできていないダウンロードできていないファイルの確認 ``` ls bed/ > downloaded.txt grep -v -F -f downloaded.txt name_tr.txt > failed.txt cat failed.txt K562_GNL3.bed.gz #K562のGNL3のファイルがダウンロードできていないのでマニュアルでダウンロード wget https://www.encodeproject.org/files/ENCFF048RLZ/@@download/ENCFF048RLZ.bed.gz -o K562_GNL3.bed.gz ``` ## homerでモチーフ解析 ``` #解凍 gunzip bed/*.bed.gz # inputファイルの準備 ls bed | sed 's/.bed//g' > input.txt ``` ``` mkdir motif while IFS= read -r i; do findMotifsGenome.pl bed/$i.bed hg38 motif/$i -rna ; done < input.txt ```