加速大語言模型訓練的第一手經驗和美國工作經驗談

# 加速大語言模型訓練的第一手經驗和美國工作經驗談 > 與其在網際網路中迷失於眾多紛亂且難以判定真偽的說法，不如親臨現場，得知資訊科技產業關於大語言模型訓練的第一手消息！ > :information_source: 不用事先報名，準時出席即可，詳閱下方 > :timer_clock: 2024 年 12 月 24 日晚間 ## 活動概況大型語言模型 (LLM) 的訓練與運行仰賴龐大的計算資源，往往在硬體與系統層面造成高昂的成本與負擔。為了徹底發揮 GPU 的運算潛能，降低參數存放所需的記憶體空間並提升存取效率有其必要，不僅有助於降低系統建置成本，也能減輕運行時期的負擔。 [Liger Kernel](https://github.com/linkedin/Liger-Kernel) 是套開放原始碼的 Triton 核心程式框架，專為大型語言模型的訓練設計，藉由核心操作的融合 (operation fusing) 與輸入分塊 (input chunking) 等效能改善機制，Liger Kernel 得以提升約 20% 的訓練吞吐量，並減少約 60% 的 GPU 記憶體使用量，意味著企業在相同的硬體資源下，能以更低的成本、更快的速度完成大型語言模型的訓練。以美國規模的公司為例，透過 Liger Kernel 每年可節省數百萬美元的開支。 ![image](https://hackmd.io/_uploads/B10WGeA4Jl.png) [Liger Kernel](https://github.com/linkedin/Liger-Kernel) 具備模組化、易用性和高度彈性，得以滿足多種使用者的需求，並內建完整的效能評估與整合測試，確保在不同運算環境與模型架構下都有出色的相容性、效能、正確性與收斂性。該專案自上線僅四個月內，便躍居 GitHub 星數排名前四，接近百萬次下載，已用於 Hugging Face Trainer 和 PyTorch 一類的開發框架，並獲得 AMD, Intel, Meta, Microsoft 等多家公司的採納。Liger Kernel 的使用方式極其簡單，僅需添加一行程式碼即可達成模型加速，大幅降低使用門檻。同時，該工具的效果極為顯著，能將模型訓練速度提升三至四倍，甚至在算力資源有限的情況下完成原本不可能的任務。 ![liger-arch](https://hackmd.io/_uploads/BySPsm0NJl.png) 本次活動由 [Liger Kernel](https://github.com/linkedin/Liger-Kernel) 的催生者許秉倫主講，不僅回到家鄉台灣暢談他的第一手產業經驗，他對台灣的產學界也有豐富的想法，希望藉此促進台灣學界對於大語言模型背後運算系統的重視，也促成更多產業的投入，無論是硬體加速器或者軟體生態系統，尚有延伸多年在開放原始碼技術的投入經驗，在台灣也能建立對應的技術社群。本次活動除了向會眾介紹資訊科技產業關於大語言模型訓練的第一手消息外，也安排赴美從業人員的心得分享和對談，希望藉由這些問答，讓與會者在瞬息萬變的資訊科技產業中，得以察覺機會並在 AI 時代得以乘風破浪。延伸閱讀: [Liger-Kernel: Empowering an open source ecosystem of Triton Kernels for Efficient LLM Training](https://www.linkedin.com/blog/engineering/open-source/liger-kernel-open-source-ecosystem-for-efficient-llm-training) ## 大語言模型訓練議題 1. Why LLM training is inefficient? 2. How Liger Kernel saves millions of cost for enterprise? 3. The story of Liger Kernel and how it becomes popular? 4. The observation of current LLM system industry ## 主講人簡介許秉倫 aka [Byron (Pin-Lun) Hsu](https://www.linkedin.com/in/byronhsu1230/) 自台大電機系畢業後，前往加州柏克萊大學攻讀碩士，隨後加入 LinkedIn，並領導大規模 GPU 叢集的效能提升和分散式訓練。針對大語言模型，他主導 [Liger Kernel](https://github.com/linkedin/Liger-Kernel) 的發展，不同於發表學術論文或者概念驗證，許秉倫領導的這項專案提供立即可用來加速大語言模型訓練的工具，使得模型訓練變得更親民。在此之前，許秉倫已貢獻程式碼到 Apache 軟體基金會旗下 [Flyte](https://github.com/flyteorg/flyte) 一類的大型開放原始碼專案。 ## 與談人介紹詹康彬 aka [Kang-Pin (Tom) Chan](https://www.linkedin.com/in/kang-pin-chan-bb99901a7/) 畢業於成功大學資訊系，後來前往美國 USC 和 CMU 深造，並於 Google 實習，投入機器學習團隊所需 GPU 系統管理。 > [Summer 2024 intern summary](https://medium.com/@jhan1998/summer-2024-intern-summary-b6ab14d0c253) 黃敬群 aka [jserv](https://www.linkedin.com/in/jserv/) 任教於國立成功大學資訊工程系，專注作業系統、編譯器，和虛擬機器等領域。曾任聯發科技、台達電子、鴻海科技集團，和工業技術研究院，和國家太空中心的技術顧問，並長期投入開放原始碼軟體開發。 ## 時程規劃 12 月 24 日 (週二) * 17:30 - 18:00 : 歡迎進入會場，提前與講者進行熱絡的交流討論 * 18:00 - 19:30 : Byron 開講 * 19:30 - 21:30 : 座談問答，與談人: Byron, Tom 和 jserv ## 地點國立成功大學資訊工程系新館 65405 階梯教室 (位於 4 樓，大樓中間的空橋) ![image](https://hackmd.io/_uploads/SyFGMeANyg.png =60%x) ![image](https://hackmd.io/_uploads/S1LmMgANJg.png =50%x) 從火車站後站步行至成大資訊系的大致路線： ![image](https://hackmd.io/_uploads/r144zeR4Je.png) ## 注意事項 * 本次活動全程免費，也不用報名，但請務必及早入場，教室座位有限 * 活動不提供錄影，但備有文字紀錄和重點提示，讓會眾事後得以回顧，請留意本頁面 * 請善用本頁面下方的問答，事先提問。建議討論大語言模型、GPU 訓練、效能分析和改進、美國進修和工作，和第一線軟體公司見聞 * 聯絡人: 邱繼寬 `<f44101355@gs.ncku.edu.tw>` {%hackmd Qt1iJxGEQOe5xdpWrTvJvw %}