多標籤各類名詞解釋

# 多標籤各類名詞解釋 ## X-Transformer https://blog.csdn.net/qq_41485273/article/details/114889858 ![](https://i.imgur.com/rnpscL7.png) 圖 3：提議的 X-Transformer 框架。首先，語義標籤索引(SLI)通過標籤聚類(相似度計算)將原始的棘手的XMC問題分解成一組輸出空間小得多的可行子問題(引入具有語義意義的潛在集群為我們的框架帶來了幾個優勢。我們可以對標籤進行聚類)，這緩解了標籤稀疏性問題(有些標籤很多有些標籤資料很少)，減少了大的輸出空間。如圖1右側所示。第二，深度神經匹配組件為每個SLI誘發的XMC子問題微調變換器模型，導致從輸入文本到標籤簇集合的更好映射。然後在將實例映射到標籤集群的 XMC 子問題上微調轉換器。最後，集成排序組件在來自轉換器的實例到集群分配和神經嵌入上被有條件地訓練，並且被用來匯集從各種SLI引起的子問題中得到的分數，訓練線性排序器有條件地根據集群和 Transformer 的輸出來重新排列預測集群中的標籤。我們可以進一步整合來自不同的分數X-Transformer 模型，在不同的語義感知標籤集群或不同的預訓練 Transformer 模型上訓練例如 BERT、RoBERTa 和 XLNet，用於進一步的性能改進。 ## X-Transformer 總結 X-Transformer和LightXML都採用了類似的方法，將L個標籤分成K個大小大致相同的集群，用B表示，並在任務上微調transformer以識別相關的標籤集群（而不是標籤本身）。如果B≈√L和K≈√L，那麼訓練時間和微調的內存要求都可以從O(L)減少到O( L)。然而，正如文獻[8]所指出的，**由於標籤聚合的資料損失，模型的性能會變差。** 因此，XTransformer和LightXML仍然選擇一個小常數B（≤100）作為標籤集合的大小。因此，transformer仍然在具有大約L/100個集群的任務上進行微調，**這導致與基於非transformer的模型相比，訓練時間要長很多。** 例如，即使使用8個Nvidia V100 GPU，X-Transformer在Amazon-3M和Wiki-500K上的訓練也分別需要23和25天。 ## XR-Transformer ![](https://i.imgur.com/dGb7jXJ.png) 極端多標籤文本分類（XMC）就是給一篇文本適合或是最相關的分類標籤，。許多現實世界的應用可以被表述為XMC問題，如推薦系統、文檔tagging和語義搜索。最近，基於transformer的XMC方法，如XTransformer和LightXML，已經顯示出比其他XMC方法的顯著改善。但是儘管利用預訓練的transformer模型進行文本表示，但即使使用強大的GPU，**大標籤空間上的transformer模型的微調過程仍然有很長的計算時間。** 在論文中，我們提出了一種新的遞歸方法，即XR-Transformer，通過在一系列與原始XMC目標函數相關的多分辨率目標上遞歸微調transformer模型來加速該程序。經驗結果表明，與其他基於transformer的XMC模型相比，XRTransformer需要的**訓練時間明顯減少，同時產生了更好的最先進的結果。** 特別是，在有300萬個標籤的公共Amazon-3M數據集上，XR-Transformer不僅比X-Transformer快20倍，而且還將精確度@1從51%提高到54%。許多現實世界的應用，如開放域問答、電子商務動態搜索廣告和語義匹配，可以被表述為極端多標籤文本分類（XMC）問題：給定一個文本輸入，從大小為L的巨大標籤集合中預測相關標籤。**利用標籤之間的相關性來生成標籤分區或分層標籤樹（HLT），可用於在訓練和推理中考慮的候選標籤短名單。** 雖然這些方法在**標籤池化的大小方面是可擴展的**，但它們中的大多數只依賴於統計表示（如詞袋法）或從預先生成的標註嵌入（如word2vec）中池化來對文本輸入進行矢量化。鑑於最近深度預訓練的transformer模型，如BERT[9]、XLNet[10]和RoBerta[11]在各種NLP應用中的成功，X-Transformer[12]和LightXML[13]提出在XMC任務上微調預訓練的transformer模型，以獲得比前述方法更先進的新結果。儘管與統計表示相比，**transformer能夠更好地捕捉文本輸入的語義，但在實踐中往往需要對文本進行截斷，以減少GPU內存佔用並保持模型效率。** 例如，X-Transformer在將輸入文本送入transformer模型之前，將其截斷為包含前128個token。 transformer微調的效率給XMC應用帶來了另一個挑戰。 ### XR-Transformer 步驟為了解決這些問題， 1. 成本太高 2. 訓練速度太慢我們提出了XR-Transformer，這是一種XMC架構，利用預訓練的transformer模型，與其他基於transformer的XMC方法相比，它的訓練成本要小很多。受圖像生成和課程學習中多分辨率學習的啟發，我們將XMC問題表述為一系列具有多分辨率標籤信號的子問題，並在粗到細的目標上遞歸地微調預訓練的transformer。在本文中，我們的貢獻如下: - 我們提出了XR-Transformer，一個基於transformer的極端多標籤文本分類框架，**其中預訓練的transformer在一系列由分層標籤樹定義的由易到難的訓練目標上進行遞歸微調。** 這使得transformer可以快速地對具有非常多的標籤集合的XMC問題進行逐步微調。 - 為了獲得更好的文本表示，**並減輕transformer文本截斷的資料損失**，我們在模型中除了考慮transformer文本嵌入外，**還考慮了統計文本特徵。** 此外，我們還提出了一個通過標籤聚合的成本敏感的學習方案，以引入更豐富的粗化標籤信息。 - 我們在6個公共的XMC基準數據集上進行了實驗，與其他基於transformer的XMC模型相比，我們的模型需要的訓練時間明顯減少，產生了更好的最先進的結果。例如，我們將X-Transformer在Amazon-3M上建立的最先進的Prec@1結果從51.20%提高到54.04%，同時使用相同的硬件將所需訓練時間從23天減少到29小時。 https://zhuanlan.zhihu.com/p/445661903 ## XML的應用：對這方面的關注主要來自與數據挖掘和NLP領域，其中比較值得一提的是Attention（AttentionXML）機制、Transformer-Based Models（X-Transformer）成為了最前沿的工作。參考資料 https://www.thepaper.cn/newsDetail_forward_10283375 ## XLNet 使用permutation實現上下文對於單詞的預測，其實訓練方式還是transfomer的self-attention，只是對輸入與attention matrix進行一點修飾。 XLNet最主要的貢獻在於使用PLM讓AR和learning bidirectional contexts共存，並另外使用一個Query stream來代替BERT的***Mask***，接著借鑑Transformer-XL實現大型文本學習，其中最令筆者驚嘆和在意的還是PLM與AR之間的衝突，因為PLM會隨機把單詞順序打亂，而AR的預測方式是有順序性的，所以表示XLNet是用AR的方式來實現PLM，單詞順序在XLNet眼前感覺根本沒必要，只需要Attention搭配預測Target，就能夠無視單詞順序之間的關係參考資料 https://blog.csdn.net/u012526436/article/details/93196139 https://medium.com/ai-academy-taiwan/2019-nlp%E6%9C%80%E5%BC%B7%E6%A8%A1%E5%9E%8B-xlnet-ac728b400de3 ## GLUE GLUE九項任務涉及到自然語言推斷、文本蘊含、情感分析、情感分析、語意相似等多個任務。像BERT、XLNet、RoBERTa、ERINE、T5等知名模型都會在此基準上進行測試。參考資料 https://zhuanlan.zhihu.com/p/135283598 ## TF-IDF（term frequency–inverse document frequency）資料參考 https://zh.wikipedia.org/wiki/Tf-idf ###### TF-IDF:是一種用於資訊檢索與文字挖掘的常用加權技術。例如，稀疏線性[(one-vs-all (OVA))](https://chih-sheng-huang821.medium.com/%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92-%E5%A6%82%E4%BD%95%E5%9C%A8%E5%A4%9A%E9%A1%9E%E5%88%A5%E5%88%86%E9%A1%9E%E5%95%8F%E9%A1%8C%E4%B8%8A%E4%BD%BF%E7%94%A8%E7%94%A8%E4%BA%8C%E5%85%83%E5%88%86%E9%A1%9E%E5%99%A8%E9%80%B2%E8%A1%8C%E5%88%86%E9%A1%9E-multiclass-strategy-for-binary-classifier-b4e5017202ff)方法，如 DiSMEC(Distributed Sparse Machines for Extreme Multi-label Classification) 、ProXML 和 [(PPDSparse)](https://blog.csdn.net/abc13526222160/article/details/87936459)探索並行性以加速算法並減少通過截斷模型權重來鼓勵稀疏性。 ![](https://i.imgur.com/Dlbt4u7.png) >上述圖表示字典學習（Dictionary Learning）和稀疏表示（Sparse Representation）在學術界的正式稱謂應該是稀疏字典學習（Sparse Dictionary Learning）。 OVA方法也被廣泛用作許多其他方法的構建塊方法，例如，在 **Parabel**和 **SLICE**中，線性 OVA使用具有較小輸出域的分類器。通過結合不同的劃分技術，可以進一步提高稀疏線性模型的效率和可擴展性在標籤空間上。例如，Parabel 對標籤進行分區通過使用從實例構造的標籤特徵的平衡 2 均值標籤樹。最近，提出了幾種改進 Parabel 的方法。 Bonsai 放寬了兩個主要約束在 Parabel 中：1）允許多路而不是二進制分區上的平衡約束。 SLICE考慮構建一個近似最近鄰（ANN）圖作為索引標籤上的結構。對於給定的實例，相關標籤可以從實例的最近鄰居中快速找到通過ANN圖。 ### ELMo ELMo（“Embeddings from Language Model”）是一種詞嵌入方法，用於將詞序列表示為對應的向量序列。[1]字符級標記作為雙向LSTM的輸入，生成詞級嵌入。與BERT一樣（但不同於“詞袋”方法產生的詞嵌入，以及早期的向量方法，如Word2Vec和GloVe），ELMo 嵌入是上下文敏感的，對拼寫相同但含義不同的詞產生不同的表示（同音詞），參考資料 https://en.wikipedia.org/wiki/ELMo ### RoBERTa 簡單的來說，就是優化BRET的模型，並去討論如何優化。參考資料 https://medium.com/nlp-tsupei/roberta-%E8%AB%96%E6%96%87%E6%95%B4%E7%90%86-8bcf8a33a5d0 ### GPT2 是一個GitHub上的開放原始碼工具，使用Python程式語言開發，可以用來訓練中文語料，其生成文字的風格，取決於訓練語料的格式。