2025 7月2日日常報告主題：NVLink、NVSwitch

# 2025 7月2日日常報告主題：NVLink、NVSwitch ## Ref [深入PCI与PCIe之一：硬件篇](https://zhuanlan.zhihu.com/p/26172972) [PCI/PCIe(1): 基礎篇](https://hackmd.io/@RinHizakura/rklZtud9T) [NV A100 Tensor Core GPU Architecture](https://images.nvidia.com/aem-dam/en-zz/Solutions/data-center/nvidia-ampere-architecture-whitepaper.pdf#:~:text=Ampere%20architecture,GPU%20communication%20bandwidth%2C%20and%20improved) [P100](https://zhuanlan.zhihu.com/p/635788964) ## NVLink 點對點高速連接與協定原理 NVLink是一種高帶寬的近距離序列介面，用於GPU之間（或GPU與CPU之間）進行資料和控制訊息傳輸。與傳統的PCIe集中式匯流排不同，NVLink採用**多條差分對線**組成點對點（Point-to-Point）的**網狀拓撲連接**，沒有中央交換樞紐。每對NVLink裝置之間建立直接高速連結，可視為在電路板上多對銅線承載的專屬通信通道，由強健的軟體協定控制資料傳送 ![v2-352487d20e575deeca69f0b16b81f3e6_1440w](https://hackmd.io/_uploads/H15vDSWBeg.jpg) ### 簡易版的的網狀拓撲（Mesh Topology） ```t [GPU0]───┬────[GPU1] │ │ │ │ [GPU3]───┴────[GPU2] ``` 在 DGX 系統裡，會加入一顆叫做 NVSwitch 的晶片，用來讓：所有 GPU 都能彼此直接連通就像一個高速交換器，把每張 GPU 都用 NVLink 連到交換器上 ``` ┌─────────────┐ │ NVSwitch │ └─────┬───────┘ │ ┌───────┼───────┐ [GPU0] [GPU1]...[GPU7] ``` ### 原理 >在運作原理上，NVLink類似一條高速記憶體共享匯流排：它允許處理器之間以幾乎共用記憶體的方式交換資料，並透過循環冗餘校驗（CRC）和封包重傳機制確保資料可靠傳輸 * CRC（Cyclic Redundancy Check）：是一種檢查資料有沒有出錯的數學方法每一包資料在送出前都會加上一組「CRC 校驗碼」接收端收到資料後會重新計算一次 CRC 如果不一致 → 表示資料有損壞 * 封包重傳（Retransmission）：如果 CRC 檢查不過，NVLink 會自動要求重傳那一包資料這樣就確保：即使在高速運作下，資料也能保證正確送達 > 其實很像是網路協議中的checksum機制，但運作方式不同 | 項目 | CRC | TCP checksum | | ---- | ----------------- | ------------------------------- | | 運算方式 | 多項式除法（XOR 位元運算） | 加總（16-bit one's complement sum） | | 偵測能力 | 強（可發現連續錯誤） | 弱（易漏抓某些錯誤） | | 用途 | 高速實體層 / 封包校驗 | 傳輸層 / 基本資料校驗 | | 常見應用 | Ethernet、PCIe、USB | TCP、UDP | > 問題又來了，記憶體共用不會導致記憶體污染？ NVLink 本身「不處理記憶體一致性」問題，它只是傳輸通道。真正控制一致性的是上層架構與軟體 API。 ### 差分對線差分對線 = 兩條訊號線，一正一負，同步傳送資料不像早期的電路只用一條訊號線 + 接地線（single-ended），差分傳輸會用一對信號線（+ 和 -）傳送相同但反向的訊號。 #### 🔒 優點一：抗干擾能力強（Noise Immunity）外部電磁干擾（EMI）會同時影響 D+ 和 D− 但接收端只看「兩者的差值」，共通干擾會被自動消除 👉 所以適合高速傳輸（GHz 級別） #### ⚡ 優點二：訊號完整性高（Signal Integrity）差分線對的阻抗匹配 + 緊密佈線，減少反射和串音可以傳很快、很遠的數據 #### IN NVLINK 每個 NVLink Link = 多個 Sub-Link 每個 Sub-Link = 多個差分對（differential pairs）每個差分對傳一組資料位（bit）串流 #### 由來 PCI 發展後期，資料傳輸量增大，因此產生PCI-X和AGP PCI-X -> 提高頻率 AGP -> 在同頻率下想辦法塞更多資料(一個clock下傳更多) ![截圖 2025-06-30 晚上7.26.48](https://hackmd.io/_uploads/HyDsVlgrxe.png) 但由於是並行傳輸，干擾的問題增加 -> 因此採用差分傳輸來穩定訊號不過現在的SATA/SAS/PCIe基本改用串行而非並行 #### 並行串行 | 傳輸方式 | 說明 | | -------------- | -------------------- | | 並行傳輸（Parallel） | 多條資料線同時傳送多個 bit | | 串行傳輸（Serial） | 一條資料線一次傳送一個 bit，依序送出 | 兩者差異 | 項目 | 並行傳輸 | 串行傳輸 | | -------- | -------------------- | ----------- | | 傳輸線數 | 多條（8、16、32條） | 少條（常為1\~4條） | | 硬體成本 | 高（需多線、多插針） | 低 | | 同步難度 | 高（需同時到達，會有「偏移/時序問題」） | 易同步 | | 抗干擾能力 | 差（線多易串音） | 好（差分對+編碼） | | 傳輸距離 | 短（訊號衰減大） | 遠（可數公尺以上） | | 傳輸速度（現代） | 比串行慢（受限於同步難度） | 非常快（GHz級） | 速度上很不直覺，因為 ``` 並行傳輸：需要 8 條資料線一個時鐘周期內傳送 8 bit 串行傳輸：只用 1 條資料線每個時鐘傳 1 bit，要 8 個時鐘周期 ``` 不過要把實際狀況考慮進去 ``` 並行傳輸像「8 條腳踏車道」：同時 8 輛車出發 → 傳 8 個資料但：每輛車要同時抵達目的地（要同步）每條車道長短不能差（要等長）車多時會互相干擾（串音）串行傳輸像「1 條磁浮列車高速軌道」：一次一個車廂，但車廂速度極快，毫無干擾抵達速度遠超腳踏車 → 雖然一次只傳 1 bit，但一秒內可以送數十億 bit（GHz 等級） 👉 所以「並行頻率受限、同步困難」，而「串行可拉到超高頻率，單線也能贏」 ``` 這就回到了一開始的問題，當吞吐量增高，並行會有干擾的問題導致頻率上不去，而這使得雖然一次可以送多，但容易錯誤且缺漏，且要求同步到達的前提過高故改為串行，雖然一次少量，但穩固且抗干擾，頻率自然能拉高，使得吞吐量上升且 CDR、SerDes(資料bit串化)+encode、差分使得串行變得可靠 #### CDR CDR = Clock Data Recovery 意思是：「在資料線上，沒有獨立的時脈線，但接收端仍然能從資料中恢復出正確的時脈」，用來判斷資料 bit 的切換時機。 >這是由於各個硬體之間的clock不一定相同，所以資料傳輸過程中，接收方會不知道怎麼處理這些bits 如果很難想像，你可以試著用DFF的角度思考，如果今天有10hz與20hz的DFF分別放在接收與發送端，10hz那邊一定會漏資料，對吧而因為在串行中 ✅ 只有一條資料線（或差分對） 🚫 沒有獨立的時脈線（不像並行總線會配一條 Clock 線）所以我們要設計能讓接收端知道發送端的clock的協議 >「從資料流的節奏，估出原本的時脈，自己重建出來」這就是encode的用處，你增加了一個bits，作用是用來跟對方說我的頻率是多少，用來識別資料流 * 專業一點來說 - 資料編碼：串行資料通常會使用編碼技術（例如 8b/10b、64b/66b、128b/130b）來保證資料中有足夠「變化」（例如不能一直是 0 或 1） - 相位比較器（Phase Detector）：比對資料變化發生的時間和本地時脈，調整對齊 (調整成local端的clock) - 鎖相迴路（PLL / CDR Circuit）：使用電子電路「拉近」接收端的內部時脈與資料變化的相位，最後達到同步(增加或減少local的頻率，達到同步) ``` 發送端資料（Serial bit stream）： ---|‾‾‾|___|‾‾‾|___|‾‾‾|___| ← 每個 | 是資料變化點接收端： ↑ ↑ ↑ ↑ CDR 偵測變化點，調整內部 clock，相位漸漸對齊 ------------------------------------------------ 發送端資料（Serial bit stream）： ---|‾‾‾|___|‾‾‾|___|‾‾‾|___| ← 每個 | 是資料變化點接收端： ↑ ↑ ↑ ↑ CDR 偵測變化點，調整內部 clock，相位漸漸對齊 ``` ## NVHS - NVLink中的物理層 | 特性 | 解釋 | | ------------ | -------------------------------- | | 串列傳輸（Serial） | 使用高速差分對線，一對一對跑 bit stream | | 高頻寬 | NVHS 支援每條 link 高達 50+ GB/s（單向） | | 低延遲 | 比 PCIe 還低，支援高效率 GPU-GPU 傳輸 | | 差分對傳輸 | 使用 Differential Pairs，抗干擾、訊號穩定 | | 自訂時脈/協定 | 不像 PCIe 要遵守標準，NVHS 完全為 NVLink 優化 | | 支援 CDR | 從資料流中恢復時脈，確保同步 | ### 架構 ```t [NVLink Protocol Layer] ↓ [NVHS PHY Layer: SerDes + CDR + EQ] ↓ [高速差分對線路] ↓ [另一張 GPU 上的 NVHS 接收端] ``` > * NVIDIA Hopper Architecture Whitepaper 說明了 NVLink 4.0 使用的 NVHS 技術（PHY 層） PDF 下載（頁 41~42）： 🔗 https://resources.nvidia.com/en-us/architecture/hopper-whitepaper > * NVIDIA Grace Hopper Superchip Whitepaper 說明 NVLink/NVHS 如何應用於 CPU-GPU 間 🔗 https://www.nvidia.com/en-us/data-center/grace-hopper-superchip/ ## Topology 拓撲結構在Topology中，常見的動作有幾個 * Broadcast：A 發資料給所有 GPU * All-Reduce：所有 GPU 彼此交換資料並彙總 ### 第一代的DGX-1 (8張GPU 連結方式：Hybrid Cube-Mesh 混合立方體 #### 具體結構：每張 GPU 最多有 6 條 NVLink 每張 GPU 連接 4 張 GPU（不是全部 7 張）構成一個類似 3D 立方體的網路部分連線用了雙 NVLink → 提升頻寬不考慮全連接(Fully Connected) 太貴：一張 GPU 要有 7 條 NVLink → 超過硬體極限超出硬體極限環狀(Ring)，使得最大步數 = 3 #### 問題然而，由於8卡網絡中並非每對GPU都有直接鏈路連接，在全對全（All-to-All）通信中某些GPU對仍需經過中介轉 hop 或回落到較慢的PCIe通道，導致瓶頸 (這很像NOC中以processor當作router的solution) ## NVSwitch : 為了解決中介的Switch >Switch = 同個net中的轉送 Router = 不同net的傳送 ![截圖 2025-07-01 晚上8.05.24](https://hackmd.io/_uploads/HJbU1L-Heg.png) ![截圖 2025-07-01 晚上7.39.49](https://hackmd.io/_uploads/ByyScB-Bxx.png) ![截圖 2025-07-01 晚上7.40.48](https://hackmd.io/_uploads/HynB9H-Hll.png) ![截圖 2025-07-01 晚上7.58.21](https://hackmd.io/_uploads/H1tO6H-rge.png) ![截圖 2025-07-01 晚上7.59.02](https://hackmd.io/_uploads/ry2o6Hbrxe.png) > Ref : [NVDIA NVSWITCH](https://images.nvidia.com/content/pdf/nvswitch-technical-overview.pdf?utm_source=chatgpt.com) > Ref : [NVSWITCH BLOCK](https://www.fibermall.com/blog/analysis-nv-switch.htm?srsltid=AfmBOopfIcm4C-Cnk_U7EVM2tUaA7J7-uKUEz5WzVaiQUySdRXI69-VK&utm_source=chatgpt.com) NVSwitch可以理解為一顆內建NVLink埠的高效能交換器ASIC晶片。第一代NVSwitch晶片內部實作了一個18×18全連接交叉交換架構，提供18個NVLink埠，每埠全雙工速度50 GB/s（雙向總和）簡單來說 * 18×18 完全連接交叉交換器（crossbar）：交換器內部每個埠能與其他 17 個埠進行直接連接，屬於非阻塞（non-blocking）結構 * 每埠全雙工 50 GB/s：包含上行 25 GB/s + 下行 25 GB/s，總計 50 GB/s → 全交換總頻寬達 900 GB/s * 應用於 DGX 系列： DGX‑2 系統中以多顆 NVSwitch 串接 16 張 V100 GPU；每張 GPU 有 6 個 NVLink 埠，可透過 NVSwitch 形成高頻寬的 GPU 互連網絡 ### 非阻塞式交換矩陣：任意埠對任意埠都可在全速進行資料轉發，不會因其他連線的存在而損失頻寬 >非阻塞式交換矩陣是指：在任何輸入端與輸出端連線的組合中，都可以同時全速傳輸資料，互不干擾。 ->所有輸入埠與所有輸出埠之間都有一條獨立的交換路徑但這就跟網路運作的方式一樣，一定會有同時多個unit要傳送到同一個終點的情況，只是因為中間的通道互相獨立，因此不需要用到網路實作上用於路徑分配的演算法這種情況下，處理方式差異不大，buffer、queue、priority、round-robin(排隊)、QoS(權重分配) > 這樣每條通信通道不會被分割？就算是通過switch ，我不是還是得要分出多條線路接入switch？先上規格 | GPU 型號 | 支援的 NVLink 埠數 | 每埠頻寬（雙向） | | -------- | ------------- | -------------------------- | | **H100** | 18 埠 | 50 GB/s（單向） / 100 GB/s（雙向） | | **V100** | 6 埠 | 25 GB/s（單向） / 50 GB/s（雙向） | 可以確定的是，物理上的port數限制還是存在的 ### 點對點每張 H100 有 18 個 NVLink 埠直連 8 張 GPU，形成點對點拓撲 **每張 GPU 要接其他 7 張 → 每張要用掉 7 條線** 所以 H100 雖然總頻寬有 900 GB/s，但它得分給這 7 條鏈路 → 每條只有大約 128 GB/s >「因為這次只傳一張 GPU，所以我可以用全部 900 GB/s」這樣不行，因為 900 GB/s 是總埠數頻寬，而每條是 point-to-point，不能動態合併簡而言之，每個port的頻寬是固定的，你想要增加吞吐量，那你就只能從物理層面下手，而非動態分配各個port的流量 -> 你想要更多，那就多接幾條線 > 那為什麼不動態分配port的頻寬呢？不像網路 switch 或 PCIe fabric 可以動態選路，這是硬體層面，不是軟體一開始佈線就綁死了該線路的位置與方向，所以物理特性就決定了頻寬的上限 > 為什麼不用大頻寬再動態分配 * 原因1：SerDes 串列技術本身的物理限制 * NVLink 使用的是高速差分對訊號（SerDes）每一對差分線配有專屬的發射端 & 接收端，時脈同步是獨立校準的 * 若你想合併成一個「超寬通道」，你就得設計： 1. 一個多位元同時傳送的大型串列引擎 2. 一組更高頻、更大擴展範圍的 SerDes 這在高速下（>50GHz）幾乎不可行： >同步難度極高容易產生時脈偏移（skew）無法像你說的「水龍頭」一樣精確控制出水大小 ## 實際案例 | 技術 | 說明 | | ---------------------- | ------------------------------------------------ | | **Thunderbolt 3/4** | 多條 PCIe + DisplayPort 信號在單條 Type-C 線路中「多工傳輸」 | | **PCIe Gen5/6** | 支援 link width 調整（x1, x4, x8, x16），但仍是靠多條 lane 串接 | | **InfiniBand HDR/NDR** | 用多個 100Gbps lane 聚合成單一連接 | ## 各代架構比較 > [Picture ref](https://developer.nvidia.com/blog/nvidia-ampere-architecture-in-depth/?utm_source=chatgpt.com) > [Content ref](https://blog.csdn.net/asialee_bird/article/details/145998718) P100 ![v2-847d92db0a0bf42b37c1fd7bf109f5c6_1440w](https://hackmd.io/_uploads/H14oIr-rle.jpg) GA100 ![gaEfOQD6l3q8p4TzybT7gMVZc8YQkni-0-9ClI9Ei4epE4aHSLjg9-3ON8bkRFZxvm1G-nOCZ9CPy_zqw-EmBWje-sOiSem0oFWA4J7HnhdVdF5RUbrLB7n5-XGKDGznfh6R3xna](https://hackmd.io/_uploads/BknaISZHee.png) > [ref SM pascal](https://blog.csdn.net/asialee_bird/article/details/145998718) ![v2-ef0c719d48878b1a2c17d13566750289_1440w](https://hackmd.io/_uploads/r1S4HSWHge.jpg) > [ref SM ampere](https://developer.nvidia.com/blog/nvidia-ampere-architecture-in-depth/?utm_source=chatgpt.com) ![raD52-V3yZtQ3WzOE0Cvzvt8icgGHKXPpN2PS_5MMyZLJrVxgMtLN4r2S2kp5jYI9zrA2e0Y8vAfpZia669pbIog2U9ZKdJmQ8oSBjof6gc4IrhmorT2Rr-YopMlOf1aoU3tbn5Q](https://hackmd.io/_uploads/BJp5BHbHxg.png) | 架構名稱 | 推出時間 | 製程技術 | 代表 GPU | 新功能特色 | | ---------- | ---- | -------------- | -------------------- | ------------------------------------------ | | **Pascal** | 2016 | 16nm FinFET | GTX 1080, Tesla P100 | 高效能/瓦數比、首次支援 NVLink、FP16 支援 | | **Volta** | 2017 | 12nm FFN | Tesla V100 | 首次加入 Tensor Core、針對 AI 加速設計 (tensor for matrix calculate) | | **Ampere** | 2020 | 7nm + 8nm 混合製程 | RTX 30 系列、A100、H100 | 第二代 Tensor Core、第一代 RT Core、超大頻寬、改進多運算資源排程 | > GPU = 多個 CUDA Core（通用計算單元） + Tensor Core（專用矩陣運算單元） + 其他硬體模塊。 ``` GPU（整張顯示卡） ├── SM0（Streaming Multiprocessor） │ ├── 64 個 CUDA Cores（做算術） │ ├── 4 個 Tensor Cores（做 AI 加速） │ ├── 32 KB Shared Memory（多線程共用） │ ├── Register File（暫存器） │ └── Scheduler + Warp Dispatcher ├── SM1 ├── ... └── SM N ``` 一張 NVIDIA GPU 裡面有很多個 SM，每個 SM 裡面有很多 CUDA 核心（ALU）可以同時處理數據，所以 GPU 才能「大量平行計算」。 ### DPX 是什麼？ DPX 是 Hopper 架構中新增的 Dynamic Programming eXtensions 指令集。 ✅ 定義 DPX 指令 = 專門為動態規劃演算法（Dynamic Programming）設計的加速器指令加速像是： DNA 比對（如 Smith-Waterman 演算法）路徑搜尋（如最短路徑、序列比對）多階段決策問題 ## Driver & Software Layer ### NCCL與集體通信優化 #### NCCL（NVIDIA Collective Communication Library）是針對多GPU通信優化的函式庫，專門充分利用NVLink/NVSwitch拓撲進行集體運算。NCCL會自動探知系統中GPU互聯拓撲，為例如DGX-1的8卡混合立方網配置最佳的通信路徑它實作了高效的環形（ring）和樹形（tree）算法來執行 All-Reduce、Broadcast、All-Gather 等集體操作，並隱式地將GPU編號排列成最佳環路順序，確保充分利用NVLink帶寬 NCCL通過拓撲感知及最佳路由，在軟體層將NVLink網路的潛力發揮到極致，使多GPU協同的通信開銷顯著降低。 #### Fabric Manager 可以在大型拓撲（例如包含多顆NVSwitch的集群）下管理交換路由，確保資料封包沿最佳路徑傳送，同時實現對不同使用者/任務的隔離（例如在複雜環境中限制某些GPU之間不可互訪） ### 驅動與路由管理 NVIDIA驅動程式內建了對NVLink與NVSwitch的支援。驅動在啟動時會枚舉系統中的NVLink連接情況，將直連的GPU標記為P2P可直訪（P2P Accessible）。應用層可以透過CUDA API查詢哪些GPU對之間有NVLink相連，從而決定資料放置和傳輸策略（例如MPI或NCCL可利用此資訊構造拓撲感知的通信計畫）