# InterProScan 環境建立與使用指南 (v5.76-107.0) [TOC] ## 1. 環境前置準備 (Java 與 Python) InterProScan 5 核心依賴 **Java 11**,且內部 helper script 需要 **Python 3**。 在開始之前,請務必確認伺服器環境是否符合需求。 ### 1.1 檢查 Java 版本 請在終端機輸入以下指令: ```bash java --version ``` :::info **判斷標準:** * ✅ **環境OK**:出現 `openjdk version "11.x.x"` * ❌ **需安裝**:出現 `command not found` 或版本顯示為 `1.8.x` (Java 8) 或其他版本。 ::: ### 1.2 安裝 Java 11 (若上述檢查未通過) 若環境沒有 Java 11,請執行下列指令: ```bash sudo apt-get update sudo apt-get install openjdk-11-jdk ``` 安裝後請再次執行 `java --version` 確認版本。 --- ## 2. 下載與安裝 InterProScan 我們使用的版本為 **v5.76-107.0** (64-bit Linux)。 建議安裝在空間充足的硬碟 (解壓後約需 80GB+)。 ### 2.1 下載指令 ```bash # 1. 建立並進入工作目錄 mkdir interproscan cd interproscan # 2. 下載主程式 (壓縮檔約8G) wget https://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.76-107.0/interproscan-5.76-107.0-64-bit.tar.gz ``` ### 2.3 解壓縮 ```bash # 1. 解壓縮 tar -pxvzf interproscan-5.76-107.0-64-bit.tar.gz # 2. 進入解壓後的資料夾 cd interproscan-5.76-107.0 ``` --- ## 3. 使用說明與參數詳解 主要的執行檔是資料夾內的 `interproscan.sh`。 ### 3.1 快速測試 在跑正式數據前,先用內建範例測試環境是否正常: ```bash ./interproscan.sh -i test_all_appl.fasta -f tsv -dp ``` * 若成功產生 `test_all_appl.fasta.tsv` 且無報錯,代表安裝成功。 ### 3.2 常用參數說明 基本語法: `./interproscan.sh -i [輸入檔] -f [格式] -d [輸出目錄] [其他選項]` | 參數 | 完整名稱 | 必填 | 功能說明 | | :--- | :--- | :--- | :--- | | **-i** | `--input` | YES | 輸入序列檔案 (FASTA 格式,避免特殊字元) | | **-f** | `--formats` | NO | 輸出格式,多選用逗號隔開 (如: `tsv,json,gff3,xml`) | | **-d** | `--output-dir` | NO | 指定輸出資料夾 (建議使用) | | **-b** | `--output-file-base` | NO | 指定輸出檔名(不含附檔名) (建議使用) | | **-dp** | `--disable-precalc` | NO | 強制在本地運算,不連網查詢 (避免網路報錯) | | **-cpu**| `--cpu` | NO | 指定使用的核心數 (預設會使用系統可用資源) | | **-goterms** | `--goterms` | NO | 若需 Gene Ontology (GO) 註釋請加上此參數 | | **-pa** | `--pathways` | NO | 若需 KEGG/Reactome Pathway 註釋請加上此參數 | ### 3.3 範例指令 假設您的蛋白序列檔名為 `protein_seq.fasta`,想要輸出 `TSV` 和 `GFF3` 檔,並包含 GO 與 Pathway 資訊: ```bash ./interproscan.sh -i protein_seq.fasta \ -f tsv,gff3 \ -d ./results \ -b test_Result \ -goterms \ -pa \ -cpu 8 ``` 便會輸出: * test_Result.tsv * test_Result.gff3 在指定路徑 **./results** --- :::warning **常見問題與注意事項:** 1. **FASTA Header 限制**:序列名稱 (`>Name`) **不能包含星號(*)** 或過長的特殊符號,否則程式可能會中斷。 2. 建議使用 **Tmux**運行,原因是跑一次流程約1個多小時,避免非預期中段流程。 :::