# 報告小抄 ## X-Transformer 圖解 首先,語義標籤索引(SLI)通過**標籤聚類(相似度計算)** 將原始的棘手的XMC問題分解成一組輸出空間小得多的可行子問題(**引入具有語義意義的潛在集群為我們的框架帶來了幾個優勢。我們可以對標籤進行聚類**),這緩解了標籤稀疏性問題(有些標籤很多有些標籤資料很少),減少了大的輸出空間。如圖1右側所示。 第二,深度神經匹配組件為每個SLI誘發的XMC子問題微調變換器模型,導致從輸入文本到標籤簇集合的更好映射。然後在將實例映射到標籤集群的 XMC 子問題上微調轉換器。 最後,集成排序組件在來自轉換器的實例到集群分配和神經嵌入上被有條件地訓練,並且被用來匯集從各種SLI引起的子問題中得到的分數,訓練線性排序器有條件地根據集群和 Transformer 的輸出來重新排列預測集群中的標籤。 我們可以進一步整合來自不同的分數X-Transformer 模型,在不同的語義感知標籤集群或不同的預訓練 Transformer 模型上訓練例如 BERT、RoBERTa 和 XLNet,用於進一步的性能改進。 ## X-Transformer 優缺 優化:計算挑戰 標籤稀疏導致輸出空間過大 為了解決這些問題, 1. 成本太高 2. 訓練速度太慢 ## XR-transformer 步驟 1. 利用標籤之間的相關性來生成標籤分區或分層標籤樹(HLT),可用於在訓練和推理中考慮的候選標籤短名單(在訓練過程中,XR-Transformer只關注辨別那些有很高機會成為正面的標籤或集群)。 3. 其中預訓練的transformer在一系列由分層標籤樹定義的由易到難的訓練目標上進行遞歸微調。 4. 並減輕transformer文本截斷的資料損失,我們在模型中除了考慮transformer文本嵌入外,還考慮了統計文本特徵(統計特徵表示和語義特徵表示。詞頻和同音不同意…)。 統計特徵,如TFIDF,在考慮到整個輸入的情況下可以快速構建。 語義特徵表示。特別是transformer模型,但self-attention機制使得transformer在序列長度上無法擴展,文本會被截斷資料損失。 4. 推理。 XR-Transformer的推理成本主要由兩部分組成:計算transformer嵌入的成本和通過beam search檢索相關標籤的成本。請注意,即使推理是通過精煉HLT的beam search完成的,transformer文本嵌入也只需要在每個實例上計算一次。 ## AttendtionXML 比較 XR-Transformer 特別是,給定一個深度為D的分層標籤樹,AttentionXML將在樹的每一層上訓練D個不同的文本編碼器這種差異 導致AttentionXML的推理時間長於XR-Transformer,因為在推理過程中需要查詢多個文本編碼器。 ## X-Transformer 比較 XR-Transformer 與其他基於transformer的XMC模型相比,XRTransformer需要的訓練時間明顯減少,同時產生了更好的最先進的結果。 特別是,在有300萬個標籤的公共Amazon-3M數據集上,XR-Transformer不僅比X-Transformer快20倍,而且還將精確度@1從51%提高到54%。