# SC25 Student Cluster Competition 參加 SC25 (Supercomputing Conference 2025) 的 **Student Cluster Competition (SCC,學生叢集電腦競賽)**,對這些學生來說,基本上就是要在 **48 小時內**,扮演一群「微型超級電腦中心的營運者」。 簡單來說,這不只是單純的寫程式比賽,而是一場**軟硬體整合、科學計算應用、以及極限壓力測試**的總合。 這次台灣代表的 NTU 團隊,他們今年具體在現場(以及賽前)做了哪些事?我用簡單的方式拆解成幾個階段來說明: --- ### 第一階段:造一台「跑車」(硬體建置) 在比賽開始的一兩天前,學生們抵達現場後,第一件事就是「做苦工」。 * **從零組裝:** 今年的贊助廠商技嘉會把伺服器、GPU(顯示卡)、網路交換器等昂貴器材運到現場。學生要像組樂高一樣,把這些價值數百萬甚至上千萬台幣的設備,親手組裝進機櫃(Rack)裡。 * **接線與開機:** 這是最容易出錯的環節。幾百條網路線、電源線要接得整齊且正確。一開機,如果發現哪張卡抓不到、網路不通,就要現場立刻除錯(Debug)。 * **安裝系統:** 硬體好了,要灌 Linux 作業系統,並安裝各種驅動程式。這步如果沒弄好,後面的軟體都會跑不動。 > **直白比喻:** 就像F1賽車手不只要會開車,還得先把整台車的引擎和輪胎在現場組裝起來,確認能發動。 --- ### 第二階段:證明這台車夠快(基準測試 Benchmarks) 這是比賽正式開始後的第一個搶分點。大會規定要跑幾個標準的測試軟體,用來給這台電腦的「極速」打分數。 1. **HPL (High Performance Linpack):** 這是全世界超級電腦排名(TOP500)用的標準。就是讓電腦瘋狂算數學(矩陣運算),看它每秒能算多少次。分數越高越好。 2. **HPCG (Conjugate Gradient):** 另一種更貼近實際物理模擬的數學測試,比 HPL 更難跑出高分,考驗記憶體讀取速度。 3. **MLPerf (AI 效能測試):** 考驗這台電腦訓練 AI 模型(如辨識圖片或語言模型)的速度。 > **學生要做什麼:** 他們要在賽前就寫好腳本,在現場不斷微調參數,榨乾硬體的每一滴效能,哪怕只快 1% 都要爭取。 --- ### 第三階段:用車子送貨(科學應用程式 Applications) 這才是比賽的**核心靈魂**。超級電腦不是拿來跑分自爽的,是用來做科學研究的。大會會指定 3-4 個「真實世界的科學軟體」,要學生在現場跑出結果。 這些軟體通常來自於: * **氣候模擬:** 預測颱風路徑或大氣變化。 * **物理/化學模擬:** 模擬新藥物的分子結構,或黑洞的引力波。 * **流體力學:** 模擬飛機原本的氣流設計。 > **學生要做什麼:** > 1. **正確性:** 跑出來的結果必須是對的(算出颱風往北偏,結果你算出往南,就零分)。 > 2. **速度:** 在有限時間內,跑完越多的數據越好。 > 3. **優化:** 這是最難的。這些科學軟體通常很古老或很複雜,學生要讀懂程式碼,修改它,讓它在最新的 GPU 上跑得飛快。 --- ### 第四階段:接變化球(Mystery App & Reproducibility) 這是讓學生最崩潰但也最刺激的部分。 1. **神秘應用(Mystery Application):** 比賽開始時,大會才會當場公布一個「神秘軟體」。之前完全沒看過,沒準備過。學生要現場閱讀說明書(Documentation),現場學會怎麼用,然後現場跑出結果。這考驗的是**臨場反應和學習能力**。 2. **再現性挑戰(Reproducibility Challenge):** 學生要拿一篇去年發表的頂級學術論文,試著用自己的電腦重現論文裡的實驗結果。這是在考驗學生是否具備**科學家的嚴謹度**。 --- ### 第五階段:帶著腳鐐跳舞(限制條件) 如果只是把硬體堆到最強然後跑軟體,那就不叫競賽了。整個比賽有一個**絕對天條**: * **功耗限制(Power Limit):** 這是最殘酷的規則。整台機器的用電量通常被限制在 **3000瓦 或 4500瓦**(依該年規則而定,相當於3-4台吹風機或微波爐的電量)。由於硬體的逐年進步,今年的總電量被限制在 **10000瓦**。 * **隨時監控:** 現場有儀器隨時盯著。如果你的電腦運算跑太猛,瞬間超過這個瓦數,就會被**罰分**甚至**強制斷電**。 > **學生要做什麼(這是指揮官/隊長的重任):** > 他們要隨時盯著儀表板。如果現在要跑 AI 運算,極耗電,就要把 CPU 降頻;如果現在的軟體只吃 CPU,就把 GPU 的電關小。這就是所謂的「能源管理策略」。 --- ### 總結:48小時不睡覺是在做什麼? 比賽期間是 **48小時不關機**(Non-stop)。 * **白天:** 跑那種需要人盯著看、隨時調整參數的任務。接受評審(Judges)的巡場提問(Interview),評審會問:「你為什麼這樣調整?你對這個科學原理了解多少?」 * **半夜:** 學生會輪班(通常留 1-2 人守夜,其他人睡在會場地板或睡袋)。守夜的人要盯著螢幕,確認程式沒有當掉(Crash)。如果半夜程式當了,沒人發現,早上起來發現白白空轉了 6 小時,那比賽就輸一半了。 **簡單一句話總結:** 這群學生要在 **48小時內**,把一堆昂貴的**零件組起來**,在**限電**的狀況下,讓它跑出**世界級的運算速度**,解決**諾貝爾獎等級的科學難題**,而且還要面對評審的**靈魂拷問**。 這就是為什麼能在 SCC 奪冠(甚至只是順利完賽),都會被視為具備了頂尖的系統工程與抗壓能力。