# Qiime2 | 05 Alpha和Beta多樣性分析 | 微生物體16S擴增子定序(16S Amplicon Sequencing) ###### tags: `Qiime2 - 16S Amplicon Sequencing` ###### tags: `Tag(change me!)` > 利用宏基因組、16SrRNA測序等高通量測序技術分析微生物群體結構的時候,常見的有α和β多樣性兩個指標。 ## :memo: Where do I start? ### Alpha多樣性分析 > Alpha多樣性主要反映樣本內多樣性。在腸道菌群分析中,是用來衡量個體內菌群的多樣性,注意是單個個體,不涉及個體間的比較。Alpha多樣性主要與兩個因素有關:一是種類數目,即豐富度;二是多樣性,群落中個體分配上的均勻性。通常有三類相關指數,測序深度指數(Observed spieces 和Good's coverage)、菌群豐度指數(Chao1 和ACE)和菌群多樣性指數(shannon 和simpson)。 > Observed spieces:代表實際觀測到的OTUs數量。 > Good's coverage:反應了測序的深度,指數越接近1,說明測序深度已經覆蓋到樣本中的所有物種。 >Chao指數和Ace指數:都是用來估計群落中含有OTU數目的指數。Chao和Ace越大,說明群落中含有的OTU數目越多,群落的豐富度越大。 >Simpson指數:指隨機抽取的兩個個體屬於不同種的概率,用來估算微生物群落的多樣性。Simpson數值越大,說明群落多樣性越高。 >Shannon指數:用來估算樣品中微生物的多樣性指數之一。包括豐富度richness和均勻度evenness兩個層面。Shannon值越大,說明群落多樣性越高。 ### QIIME2中重要的Alpha多樣性指數: * Evenness:群落均勻度的定性度量。 * Observed OTUs可觀測的OTU:群落豐富度的定性度量,只包括豐富度。 * Faith's系統發育多樣性:群落豐富度的定性度量,包含特徵之間的系統發育關係。 * Shannon香農多樣性指數:群落豐富度的定量度量,包括豐富度richness和均勻度evenness兩個層面,較常用。 ### Beta多樣性分析 > Beta多樣性指的是樣本間多樣性。在腸道菌群分析中,Beta多樣性是衡量個體間微生物組成相似性的一個指標。個體之間物種的有無和不一致性通常影響β多樣性指數,α多樣性指數也會影響β多樣性指數。我們通過計算樣本間距離可以獲得β多樣性計算矩陣,後續一般會利用PCoA、進化樹聚類等分析對此數值關係進行圖形展示。通過Unifrac計算出樣本間的Beta值,數值為0時表示兩個樣本間不存在多樣性差異,數值越接近1表示樣本間的Beta多樣性差異越大。 >Beta多樣性計算中主要基於OTU的群落比較方法,有歐式距離、bray curtis距離、Jaccard距離,這些方法優勢在於算法簡單,考慮物種豐度(有無)和均度(相對豐度),但其沒有考慮OTUs之間的進化關係,認為OTU之間不存在進化上的聯繫,每個OTU間的關係平等。另一種算法Unifrac距離法,是根據系統發生樹進行比較,並根據16s的序列信息對OTU進行進化樹分類,一般有加權和非加權分析。 ![](https://i.imgur.com/4MIQqLT.png) ### QIIME2中重要的Beta多樣性指數: * Jaccard距離:群落差異的定性度量,即只考慮種類,不考慮豐度。 * Bray-Curtis距離:群落差異的定量度量,較常用。 * Unweighted UniFrac距離:包含特徵之間的系統發育關係的群落差異定性度量。 * Weighted UniFrac距離:包含特徵之間的系統發育關係的群落差異定量度量。 ### 計算核心多樣性 ``` qiime diversity core-metrics-phylogenetic \ --i-phylogeny rooted-tree.qza \ --i-table table.qza \ --p-sampling-depth 1414 \ --m-metadata-file metadata.tsv \ --output-dir core-metrics-results ``` > 需要提供給這個腳本的一個重要參數是–p-sampling-depth,它是指定重採樣(即稀疏rarefaction)深度。因為大多數多樣指數對不同樣本的不同測序深度敏感,所以這個腳本將隨機地將每個樣本的測序量重新採樣至該參數值。例如,提供–p-sampling-depth 500,則此步驟將對每個樣本中的計數進行無放回抽樣,從而使得結果表中的每個樣本的總計數為500。如果任何樣本的總計數小於該值,那麼這些樣本將從多樣性分析中刪除。 > 選擇這個值很棘手。建議通過查看table.qzv文件中呈現的信息,並選擇一個盡可能高的值,即每個樣本保留更多的序列,同時盡可能少地排除樣本。如果數據量都很大,選最小的即可。如果有個別數據量非常小,去除最小值再選最小值。(故本分析選擇1414) ![](https://i.imgur.com/LjZzgMZ.png) ### 輸出對象(13個數據文件): * arefied_table.qza:等量重採樣後的特徵表。 * observed_otus_vector.qza: Alpha多樣性observed otus指數。 * faith_pd_vector.qza: Alpha多樣性考慮進化的faith指數。 * shannon_vector.qza: Alpha多樣性香農指數。 * evenness_vector.qza: Alpha多樣性均勻度指數。 * bray_curtis_distance_matrix.qza: Bray-Curtis距離矩陣。 * jaccard_distance_matrix.qza: jaccard距離矩陣。 * weighted_unifrac_distance_matrix.qza:有權重的unifrac距離矩陣。 * unweighted_unifrac_distance_matrix.qza:無權重unifrac距離矩陣。 * bray_curtis_pcoa_results.qza:基於Bray-Curtis距離PCoA的結果。 * jaccard_pcoa_results.qza: jaccard距離PCoA結果。 * weighted_unifrac_pcoa_results.qza:基於有權重的unifrac距離的PCoA結果。unweighted_unifrac_pcoa_results.qza:無權重的unifrac距離的PCoA結果。 ### 輸出對象(4種可視化結果): * bray_curtis_emperor.qzv: Bray-Curtis距離PCoA結果採用emperor可視化。 * jaccard_emperor.qzv: jaccard距離PCoA結果採用emperor可視化。 * weighted_unifrac_emperor.qzv: 有權重的unifrac距離PCoA結果採用emperor可視化。 * unweighted_unifrac_emperor.qzv: 無權重的unifrac距離PCoA結果採用emperor可視化 ### Alpha多樣性組間顯著性分析和可視化 ``` qiime diversity alpha-group-significance \ --i-alpha-diversity core-metrics-results/faith_pd_vector.qza \ --m-metadata-file metadata.tsv \ --o-visualization core-metrics-results/faith-pd-group-significance.qzv qiime diversity alpha-group-significance \ --i-alpha-diversity core-metrics-results/shannon_vector.qza \ --m-metadata-file metadata.tsv \ --o-visualization core-metrics-results/shannon-group-significance.qzv ``` > 輸出結果: > shannon-group-significance.qzv 以shannon指數為例探究不同元數據條件下組間差異 ![](https://i.imgur.com/SADicNQ.png) ![](https://i.imgur.com/BnOuCVE.png) ### Alpha稀釋曲線 使用qiime diversity alpha-rarefaction可視化工具來探索alpha多樣性與採樣深度的關係。該可視化工具在多個採樣深度處計算一個或多個alpha多樣性指數,範圍介於1(或選擇–p-min-depth進行控制)和最大採樣深度–p-max-depth提供值之間。在每個採樣深度,將生成10個抽樣表,並對錶中的所有樣本進行alpha多樣性指數計算。迭代次數可以通過–p-iterations來控制。 qiime diversity alpha-rarefaction \ --i-table table.qza \ --i-phylogeny rooted-tree.qza \ --p-max-depth 4000 \ --m-metadata-file metadata.tsv \ --o-visualization alpha-rarefaction.qzv 輸出結果: Alpha rarefaction.qzv查看分組下的3種稀疏箱線圖 ![](https://i.imgur.com/b4QMTxq.png) > 頂部圖是α稀疏圖(rarefaction plot),主要用於確定樣品的豐度是否已被完全觀察或測序。如果圖中的線條在沿x軸的某個採樣深度處看起來“平坦”(即斜率接近於零),這表明收集超過該採樣深度的附加序列不太可能觀測到新特徵。如果繪圖中的線條沒有變平,這可能是因為尚未充分觀察樣本的豐富度(由於測序的序列太少),或者可能是在數據中仍然存在許多測序錯誤(被誤認為是新的多樣性) 。 > > 當通過元數據對樣本進行分組時,底部的繪圖結果非常重要。它說明了當特徵表被細化到每個採樣深度時,每個組中剩餘的樣本數量。如果給定的採樣深度d大於樣本s的總頻率(即針對樣本s獲得的序列數),則不可能計算採樣深度d下樣本s的多樣性。頂部繪圖將不可靠,因為它將計算基於相對少的樣本。因此當通過元數據對樣本進行分組時,必須查看底部圖表,以確定頂部圖表中顯示的數據是否可靠。 > > 注意:提供的–p-max-depth參數的值應該通過查看上面創建的table.qzv文件中呈現的“每個樣本的測序量”信息來確定。一般來說,選擇一個在中位數附近的值似乎很好用。如果得到的稀疏圖中的線看起來沒有變平,那麼你可能希望增加該值。如果由於大於最大採樣深度而丟失了許多樣本,則減少該值。 ### Beta多樣性組間顯著性分析和可視化 ``` qiime diversity beta-group-significance \ --i-distance-matrix core-metrics-results/unweighted_unifrac_distance_matrix.qza \ --m-metadata-file metadata.tsv \ --m-metadata-column group \ --o-visualization core-metrics-results/unweighted-unifrac-group-significance.qzv \ --p-pairwise #--p-pairwise参数,执行成对检验,所以这个程序运行得相对较慢 ``` 輸出結果: unweighted-unifrac-group-significance.qzv ![](https://i.imgur.com/6FgEbaG.png) ![](https://i.imgur.com/AcO9QYd.png) ### Emperor可視化 > 排序是在樣本元數據分組間探索微生物群落組成差異的流行方法。可以使用Emperor工具在示例元數據下探索主坐標分析(PCoA)繪圖。雖然我們的core-metrics-phylogenetic命令已經生成了一些Emperor圖,但我們希望傳遞一個可選的參數–p-custom-axes,這對於探索時間序列數據非常有用。採於core-metrics-phylogeny的PCoA結果也是一樣的,這使得很容易與Emperor生成新的可視化。 ``` #三维分析图,但由于没有时间序列,故删去第三个参数,生成二维图 qiime emperor plot \ --i-pcoa core-metrics-results/bray_curtis_pcoa_results.qza \ --m-metadata-file metadata.tsv \ --p-custom-axes group \ --o-visualization core-metrics-results/bray-curtis-emperor-group.qzv qiime emperor plot \ --i-pcoa core-metrics-results/unweighted_unifrac_pcoa_results.qza \ --m-metadata-file metadata.tsv \ --p-custom-axes group \ --o-visualization core-metrics-results/unweighted-unifrac-emperor-group.qzv ``` 輸出結果: bray_curtis_emperor-group.qzv ![](https://i.imgur.com/CQZncV4.png) unweighted-unifrac-emperor-group.qzv ![](https://i.imgur.com/OmG83KL.png) 每一個點代表一個樣本,相同顏色的點來自同一個分組,兩點之間距離越近表明兩者的群落構成差異越小。 ### PCA與PCoA的區別: PCA(Principalcomponent analysis)主成分分析是一種研究數據相似性或差異性的可視化方法,採取降維的思想。PCA可以找到距離矩陣中最主要的坐標,把複雜的數據用一系列的特徵值和特徵向量進行排序後,選擇主要的前幾位特徵值,來表示樣品之間的關係。PC後面的百分數表示對應特徵向量對數據的解釋量,此值越大越好; PCoA(Principal Co-ordinates Analysis)主坐標分析,與PCA類似,通過一系列的特徵值和特徵向量進行排序後,選擇主要排在前幾位的特徵值,找到距離矩陣中最主要的坐標,結果是數據矩陣的一個旋轉,它沒有改變樣本點之間的相互位置關係,只是改變了坐標系統。 在微生物分析中我們會基於beta多樣性分析得到的距離矩陣,進行PCA和PCoA分析。PCA是基於樣本的相似矩陣(如歐式距離)來尋找主成分,而PCoA是基於相異距離矩陣(歐式距離以外的其他距離,包括binary_jaccard ,bray_curtis ,unweighted_unifrac和weighted_unifrac距離)來尋找主坐標。因此,如果樣本數目比較多,而物種數目比較少,那肯定首選PCA;如果樣本數目比較少,而物種數目比較多,那肯定首選PCoA。