SaulLM-54B & SaulLM-141B: Scaling Up Domain Adaptation for the Legal Domain

# SaulLM-54B & SaulLM-141B: Scaling Up Domain Adaptation for the Legal Domain * paper link: https://arxiv.org/pdf/2407.19584 在本文中，我們介紹了 SaulLM-54B 和 SaulLM-141B，這兩個專為法律領域量身定制的大型語言模型 (LLM)。這些模型分別具有 540 億和 1,410 億個參數的架構，基於 Mixtral 架構。 SaulLM-54B和SaulLM-141B的開發以大規模域適應為指導，分為三種策略： 1. 利用包含超過 5,400 億合法代幣的基礎語料庫進行持續預訓練 2. 實施專門的法律指令遵循協議 3. 模型輸出與法律解釋中人類偏好的一致性。第二步和第三步中綜合產生的數據的整合增強了模型解釋和處理法律文本的能力，有效達到了最先進的性能，並超越了 LegalBench-Instruct 上之前的開源模型。這項工作探索了這種規模的特定領域適應所涉及的權衡，提供了一些見解，可以為未來使用強大的解碼器模型進行領域適應的研究提供資訊。本研究以 SaulLM-7B 為基礎，完善了方法，以便更好地完成法律任務。我們將在 MIT 許可下發布 SaulLM-54B 和 SaulLM-141B 的基礎版本、指導版本和對齊版本，以促進重複使用和協作研究。 ## 1. Introduction LLM 在各個領域都表現出了卓越的能力，擅長語言翻譯、醫療診斷和自動代碼生成等。這些成就凸顯了透過大型語言模型（LLM）進行類人溝通的潛力。儘管有巨大的潛在好處，但最近的LLM對法律任務的適應尚未得到廣泛的研究，僅引用了兩項最近的研究，其對社會的影響可能是巨大的。事實上，在許多國家的法律體系負擔過重的時候，強而有力的、高績效的法律LLM可以為律師和司法系統提供關鍵支援。然而，使LLM適應法律領域提出了獨特的挑戰，特別是因為涉及規模龐大，現有法律數據有數千億條。先前為法律領域定制LLM的努力遇到了重大挑戰：首先，模型規模有限，上限為 7/12B 參數，這比最大的開源模型要小得多 ;其次，訓練資料集限制為不超過 300 億個 tokens，明顯少於潛在可用的 tokens。 > 鑑於規模和廣度對於LLM有效適應新領域的重要性，本文旨在回答以下研究問題： > 透過擴大模型和語料庫規模，我們可以在多大程度上提高通用LLM在法律任務上的專業化？在本文中，我們對法律領域LLM的可擴展性和領域適應性進行了實證研究。依靠超過 500B 個代幣的語料庫和多達 141B 個參數的模型，我們的研究旨在解決法律應用審查中的空白。我們方法的一個新穎之處是採用具有54B 和141B 參數的大規模專家混合(MoE) 模型，該模型在最近幾個月獲得了顯著的關注。從形式上來說，這項研究有兩個主要貢獻： 1. 法律LLM領域適應仍然是一個具有挑戰性且尚未充分探索的領域。這項工作透過專業化現代LLM開發過程中的每一步（從持續的預訓練到指令微調和對齊），依賴合成數據和真實數據，推動了該領域的發展。本文對每個步驟的功效及其適應法律領域的價值提供了全新的視角，有可能指導法律領域以及其他專家領域的進一步研究。 2. SaulLM-54B 和 SaulLM-141B：與 SaulLM-7b 一起組成許可許可下的法律LLM系列，我們專注於法律領域的通用、大規模LLM。這項工作代表了在規模和利用日益流行的 MoE 架構方面的雄心勃勃的進步。雖然這種架構被廣泛使用，但其在重點領域（特別是法律領域）的具體應用仍然很大程度上未被探索。透過發布這些模型，我們的目標是促進法律 NLP 的進一步研究，並有助於釋放LLM 的全部潛力 ## 2. Related work LLM在領域專業化方面的進展在醫學、科學、翻譯或程式碼等領域展現了良好的成果。像SciBERT 、PubMedBERT、Galactica 和Meditron 這些模型專門在相關領域的語料上進行訓練，以提升其性能。研究發現，模型的規模和領域內數據的大小對於實現強大的領域適應非常關鍵。在法律領域，早期的模型如LegalBERT 、InCaseLawBERT和SaulLM-7B等，儘管具有先驅性，但因其相對較小的規模以及訓練數據的特定性而受限，僅涵蓋有限數量的文件和法域。我們的工作旨在在此基礎上進一步發展，部署規模空前的LLM，使用多達141B參數的模型和超過5000億個標記的基本語料庫，以顯著增強法律語言理解和生成的深度和廣度。法律領域的適應傳統上專注於通過在專業語料庫上進行預訓練來改進模型。然而，在當前的範式中，預訓練僅代表解決方案的一個方面，因為LLM經常使用指令微調和對齊等技術，並使用**DPO、PPO或RLHF** 等算法。近期的領域適應模型，如SaulLM或Legal-FLAN-T5（一個封閉模型），試圖改善與法律指令的對齊。然而，SaulLM是一個較小的模型，而Legal-FLAN-T5基於過時的架構，並未利用當代模型所進行的極端規模預訓練。此外，它不公開的狀態阻礙了對法律領域研究和應用至關重要的進展。我們相信，這項工作開創了一種全面的領域適應方法，專門為法律領域訓練現代LLM，從預訓練到指令微調和法律偏好對齊。我們證明了合成數據可以有效地用於對齊，超越了SaulLM-7B僅使用指令微調的範疇。最終的模型SaulLM-54B和SaulLM-141B奠定了進一步研究和開發的基礎，並擴大了高性能法律LLM的可及性。 ## 3. Data Collection and Corpus Construction 本節概述了我們為法律領域的大型語言模型訓練組裝和精煉全面法律文本語料庫的方法。 --- ### 3.1 預訓練語料庫世界各地多樣化的法律系統，從普通法到大陸法的傳統，帶來了獨特的挑戰和機遇。為了應對這一挑戰，我們從包括美國、歐洲、澳大利亞等在內的各個法域中編輯了一個廣泛的英語語料庫，其在清理和去重前包含了5000億個標記。 #### 3.1.1 法律來源我們的基礎語料庫結合了各種法律數據集和新收集的公共領域文檔。它包括了大量的集合，如FreeLaw子集和MultiLegal Pile，並增強了大量從網絡抓取的內容。下表總結了我們數據集的組成和規模。 ![image](https://hackmd.io/_uploads/BkLaTPwtA.png) #### 3.1.2 其他來源為了減少模型訓練期間災難性遺忘的風險，我們重新引入了早期訓練分佈的數據。這種回放策略包括像Wikipedia、StackExchange和GitHub這樣的一般數據來源，約佔總訓練混合的2%。這些數據集從SlimPajama中抽樣。此外，我們在預訓練混合中加入了5%的數學數據集，這些數據集來自商業可用的數學來源。我們發現這種方法對保持最終模型的推理性能非常有用，並避免了之前研究如SaulLM-7B觀察到的較弱性能。在我們的實驗中，用高質量、領域相關的數據進行模型退火顯著提高了性能。相反，初始指令微調的重複合成數據會損害性能。因此，我們使用LawInstruct數據集的商業部分進行模型退火(model annealing)，這比指令微調更為有效。我們還在退火階段包括了UltraChat(https://blog.csdn.net/gitblog_00076/article/details/136961436 )作為通用指令。 #### 3.1.3 數據預處理我們的數據處理流程緊隨"Saullm-7b: A pioneering large language model for law"。具體而言，我們進行以下步驟： 1. **文本提取**：收集的數據中有相當一部分是PDF格式。我們使用Poppler(https://pypi.org/project/python-poppler/) 提取文本。 2. **數據清理**：從PDF文件中提取會產生一些偽影，如句子中間的頁面和行號，以及斷裂的文本行、未標準化的Unicode字符等。 - **文本標準化** ：我們使用unicodedata Python包提供的NFKC方法對所有文本進行標準化。 - **基於規則的過濾器** ：我們創建了正則表達式規則，以過濾常見但不需要的模式，如文本中間的頁面和行號、HTML標籤等。 - 根據Saullm-7b，我們發現數據集中最常見的10-grams是重複字符和空格，並將它們移除。 - **困惑度過濾(Text deduplication)** ：類似於Saullm-7b，我們使用KenLM 模型，該模型在精心清理的法律數據的小子集上訓練，用來過濾困惑度高的文檔。具體來說，我們過濾掉任何標準化困惑度超過1500的文檔。 3. **文本去重** ：我們使用 https://github.com/ChenghaoMou/text-dedup 去除訓練集中的重複和近似重複的例子。我們使用默認參數，除了相似度閾值設定為0.5。最後，我們將各個文檔打包在一起，構建了8192個標記長的訓練示例。超過此值的文檔被分割為多個示例。 --- ### 3.2 Instruction Data 指令微調對於讓LLM遵循指令並優化預訓練模型在各種任務中的性能至關重要。為此，我們採用了一種綜合的一般指令和特定領域（法律）指令的方法，旨在增強模型精確解讀和執行命令的能力，特別是在法律場景中。 #### 一般指令我們的通用指令來源方法涉及整合多樣化的數據集，每個數據集的選擇都旨在增強模型在各個領域的不同能力： 1. UltraInteract中的一般指令：UltraInteract是一個廣泛的高質量數據集，旨在促進複雜推理，特點是包括偏好樹、推理鏈和多輪交互軌跡的結構化指令(preference trees, reasoning chains, and multi-turn interaction trajectories)。 2. Dolphin中的一般指令：這個數據集提供了額外的對話數據，進一步拓寬了模型接觸到多樣化交流風格和上下文的範圍。每個數據集都經過嚴格的過濾、去重和策劃過程，最終形成約1,000,000個精心準備的指令，為指令微調階段做準備。 #### 法律指令構建對於法律指令，我們合成對話和問答對，以捕捉關鍵的法律概念和文件類型，模仿法律分析。根據模型規模，我們使用以下配對方式: Mistral-54B-Instruct為SaulLM-54B 生成， Mistral-141B-Instruct為SaulLM-141生成。生成過程遵循Saullm-7b中的方法，從三輪對話序列開始： (1)用戶詢問有關法律文件的問題 (2)助手通過整合文件類型或發佈日期等元數據來重新表述這個問題 (3)用戶要求進一步解釋助手的推理。對話逐漸深入，助手有條不紊地解釋法律推理，以回應用戶提出的越來越細微的問題。 --- ### 3.3 Preference Data 我們通過納入來自一般和法律特定來源的偏好數據來增強模型的適應性和精確性。一般數據集包括UltraFeedback 和Orca。在法律領域，我們使用合成場景來模擬複雜的法律推理並生成接受/拒絕的回應。Mixtral-142B-Instruct模型基於事實準確性、相關性和邏輯一致性來評估這些回應，選擇最合適的回應作為首選結果。 ## 4. Implementation Details & Evaluation Protocol ### 4.1 模型選擇我們使用了Mixtral模型，該模型基於Transformer架構，並增強了專家混合（Mixture of Experts, MoE）以提高計算效率和處理大範圍上下文的適應性。Mixtral-54B和Mixtral-141B架構分別由32層（或56層）、模型維度4096（或6144）、以及隱藏維度14336（或16384）組成。儘管它支持最多32,768（或65,536）個標記的上下文長度，我們仍然在8192個標記上進行預訓練。擴展上下文長度超出了本文的範疇。Mixtral中的MoE層依賴於8個專家，其中2個專家根據輸入進行選擇性激活，有效利用計算資源並提供顯著的模型容量。有趣的是，Mixtral是唯一以雙重配置（Mixtral-54B和Mixtral-141B）提供的模型，使我們能夠評估我們領域適應方法的可擴展性。在訓練時，Mixtral是其類別中最強大的解碼器，超越了包括Llama 、Yi、Qwen和CroissantLLM 在內的所有競爭對手，在成本效益和性能方面均優於其他模型。 ### 4.2 Engineering Details #### 代碼庫配置我們的訓練框架使用PyTorch。集成了DeepSpeed和Flash attention機制，以提高我們的訓練效率和可擴展性。我們通過Huggingface hub 提供我們的模型。 #### 計算基礎設施我們項目持續預訓練階段的計算基礎設施由384個AMD MI250 GPU組成。我們的實現可以達到40%的GPU利用率。對於指令微調和偏好優化，我們依賴64個AMD MI250 GPU。評估協議在單個AMD MI250 GPU節點上執行。 #### 合成數據生成對於合成數據生成，我們使用了vLLM在NVIDIA A100節點上進行，主要是因為MI250上對libraries 的支持有限。 ### 4.3 Training Details 模型訓練過程分為三個不同階段：持續預訓練、指令微調（IFT）和使用領域特定優化的偏好對齊（DPO）。完整的流程示意圖見下圖。 ![image](https://hackmd.io/_uploads/ryR_ZODFC.png) #### 持續預訓練在持續預訓練階段，我們使用AdamW 優化器，超參數設定為β1 = 0.99、β2 = 0.90，學習率為2 × 10^−5。我們使用交叉熵損失函數來優化模型預測。訓練協議將梯度累積設為4，並為SaulLM-54B和SaulLM-141B分別設置了8和4的批量大小，以優化GPU利用率和訓練效率。 #### 指令微調（IFT） IFT階段使用AdamW優化器（學習率為1 × 10^−5），重新初始化以重置訓練狀態並保持訓練穩定性。我們將這一階段限制為單次訓練時期，因為實驗結果表明這樣可以最大化性能提升。 #### 使用DPO的偏好訓練在DPO階段，我們將AdamW優化器的學習率調整為1 × 10^−6。我們選擇DPO而不是IPO、KTO或ORPO，是基於初步實驗的結果。 ### 4.4 Evaluation protocol #### LegalBench-Instruct 我們依賴於LegalBench-Instruct，這是一個通過去除干擾元素和指定回應格式來提升精確度的工具，該工具改進了LegalBench 。與LegalBench一樣，LegalBench-Instruct評估LLMs在六種類型的法律推理中的表現：問題識別、規則回憶、規則應用、規則結論、解釋和修辭理解。這些分類基於美國法律框架但具有全球適用性，提供了對模型法律推理能力的全面評估。這種結構化方法有助於準確評估並指導LLMs在美國法律背景內外的改進。我們遵循先前的工作，並將平衡準確性作為所有任務中的主要度量標準。 #### Massive Multitask Language Understanding (MMLU) 先前的工作使用了MMLU ，這是一個廣泛認可的基準，專注於國際法、專業法和法理學中的法律特定任務，分別有120、1500和110個示例。這些任務對於評估我們模型對複雜法律概念的理解和應用至關重要，突顯了它們在細微法律環境中的熟練程度。 #### 基線選擇與模型命名在我們的評估中，我們旨在直接比較模型。需要注意的是，並非所有競爭模型都是開源的，且詳細的對齊程序和指令微調過程信息並不可用。這種不透明性使得建立完全公平的基線比較變得複雜。以下，我們使用的是OpenAI的GPT-4（截至2024年5月10日）、Meta的Llama3（指令變體）以及Mixtral-54B和Mixtral-141B的指令變體。此外，SaulLM-54B-IFT是基於SaulLM-54B-base構建的IFT版本，SaulLM-medium則是基於SaulLM-54B-IFT的DPO版本。SaulLM-large是基於SaulLM-141B的最終版本，包含DPO和IFT。 ## 5 Experimental Results ### 5.1 Global Results #### Domain adaptation works across scales and MoE models 來自SaulLM-medium和SaulLM-large的結果確認了SaulLM-7B 中的先前發現，並證實了領域適應在不同規模上都是有效的，包括在MoE模型上。有趣的是，本工作中收集的大部分數據來自公共來源，這些數據很可能在基礎模型的預訓練過程中已經被見過。 #### A Path Towards Stronger Models. LLama3-70B的結果以及我們方法的可擴展性表明，將相同的方法應用於LLama3-70B基礎模型可能會比我們的最佳模型SaulLM-141B獲得更好的性能。值得注意的是，SaulLM-141B僅有44B活躍參數，使其在高效服務方面具有吸引力 ### 5.2 How much does continued pretraining help for the legal domain? 先前關於通過持續預訓練進行領域適應的工作主要集中在指令微調。在圖3和圖4中，我們報告了使用子節3.2中描述的IFT混合訓練的Mixtral-54B（Mixtral-54-IFT）以及隨後使用子節3.3中描述的DPO數據集進行對齊的結果（Mixtral-54-IFT+DPO）。我們還將這些結果與Mixtral的指令版本（Mixtral-54B）進行了比較，如中所述。 ![image](https://hackmd.io/_uploads/B1_IH_DYA.png) 持續預訓練顯著提升了模型在法律領域的性能，對IFT和DPO階段都有所裨益。從圖3中，我們可以觀察到IFT和DPO都顯著提升了約7%的性能。有趣的是，這一改進在所有五個類別中都保持一致，如圖4所示。將法律數據添加到IFT和DPO數據集中提升了模型的法律能力。通過比較Mixtral-54-IFT+DPO和Mixtral-54的性能，我們觀察到使用法律數據增強的IFT和DPO混合導致比Mixtral-54（未公開描述對齊方法）更強的法律性能。這一結果與Saullm-7b中的發現一致。 ### 5.3 How Much Does Legal Preference Alignment Help? 我們從圖3的發現表明，對齊顯著改善了結果。特別是，DPO的改進在任務和類別間基本一致。正如表2所示，對齊版本SaulLM-medium在大多數任務中相比IFT版本顯示出了顯著的改進，包括結論、修辭、規則和問題任務。然而，我們觀察到在一些解釋任務中性能有所下降。經過仔細檢查，我們發現這一下降通常是由於模型變得更加冗長，導致評估過程無法正確解析答案，即這個問題主要來自基準的限制。處理模型冗長性和更可靠基準的挑戰超出了本文的範疇，但這是一個在許多並行研究中已知的問題。改進評估過程是我們未來計劃貢獻的關鍵之一 ### 5.4 Can We Achieve Further Improvements by Continuing Pretraining? 訓練時間的延長有可能改善結果。圖5展示了SaulLM-54B-base和SaulLM-141B-base兩種模型在標準化時期下的標準化對數損失。該圖顯示了原始和光滑的損失曲線，這些曲線在整個訓練期間顯示出明顯的下降趨勢，且沒有飽和的跡象。這一觀察表明，延續目前SaulLM-base的預訓練過程可能會帶來進一步的改進。損失的持續減少暗示著模型尚未達到其全部潛力，額外的預訓練可能會進一步提升其性能，這與其他研究中的發現一致。 ![image](https://hackmd.io/_uploads/HyFZUdvF0.png) ### 5.5 How Much Does Scaling Help? 表3量化了模型擴展的影響，並比較了SaulLM-medium和SaulLM-large之間的性能。主要的結論是，擴展通常能改善整體結果，但我們也觀察到在某些法律任務上存在逆擴展現象。對於大多數任務來說，增加模型大小會帶來改進，但在涉及結論、解釋和規則的任務中，我們觀察到約20%的任務遵循逆擴展定律。 ![image](https://hackmd.io/_uploads/BywOU_DK0.png) ## 6 Conclusion & Limitations ### 6.1 Conclusion 本研究發布了兩個新的法律LLM，SaulLM-54B和SaulLM-141B，均在MIT許可下公開。這些模型利用了Mixtral架構，並在大規模法律語料庫上進行了持續預訓練。我們的發現顯示，在處理和理解複雜法律文件方面有了顯著的進步。通過持續預訓練、指令微調和使用領域專門優化的偏好對齊，我們在LegalBench-Instruct上顯示了與GPT-4、Llama3和原始Mixtral模型相比的實質性改進。 ### 6.2 Limitations 我們的實驗表明，Mixtral-Instruct和Llama3所使用的指令微調和對齊過程先進且難以複製。這些過程通常依賴於專有數據集和大量計算資源，而這些資源在開源框架中並不易得。儘管SaulLM-54B和SaulLM-141B在法律基準上比Llama3和Mixtral Instruct取得了更強的表現，但我們發現它們在遵循通用指令方面稍顯薄弱。展望未來，我們旨在繼續提升SaulLM系列，特別是著重於整合Llama3並改善對齊過程。我們的目標是進一步提高這些模型在法律任務中的對齊度，改進其處理和理解法律語言的準確性和相關性。未來的工作將致力於解決當前的限制，開發更強大的指令微調和對齊方法，使其能夠被更廣泛的研究社區使用。