當 Elon Musk 的 20 萬 GPU 遇上中國的 2000 GPU：AI 訓練成本的驚人真相

--- tags: - ai-model - blog - grok - deepseek - cost-analysis - 人工智慧 aliases: - Grok vs DeepSeek 成本分析 - AI 算力成本 created: 2026-01-04 updated: 2026-01-04 status: published --- # 當 Elon Musk 的 20 萬 GPU 遇上中國的 2000 GPU：AI 訓練成本的驚人真相 ![grok-deepseek-cover](https://hackmd.io/_uploads/B189KvvV-e.jpg) 4.9 億美元 vs 560 萬美元。這是訓練一個頂尖 AI 模型的成本差距。一邊是 Elon Musk 的 xAI，另一邊是中國的 DeepSeek。差距整整 88 倍。更讓人玩味的是，便宜那個的性能幾乎一樣好。我第一次看到這個數據的時候，說實話，有點懷疑自己是不是看錯了。畢竟這個產業的敘事一直是「誰有更多 GPU，誰就能訓練出更強的模型」。Nvidia 的股價為什麼能衝上天？不就是因為大家都在搶著買他們的晶片嗎？但 DeepSeek 的出現，狠狠打了這個敘事一巴掌。 --- ## 兩個完全不同的故事讓我先講兩個故事。 2024 年夏天，田納西州曼菲斯市郊區，一座廢棄的 Electrolux 工廠正在經歷它的第二次生命。Elon Musk 的團隊用了 122 天——比任何人預期的都快——把這裡改造成了全球最大的 AI 超級電腦。他們叫它「Colossus」。 Colossus 裡面塞滿了 20 萬顆 Nvidia 的頂級 GPU。每顆要價 3 萬美元左右，光是晶片的採購成本就超過 30 億美元。這還不算機房建設、冷卻系統、電力供應。Musk 甚至買下了一座關閉的發電廠來確保有足夠的電力。這是暴力美學的極致展現。不夠快？加更多 GPU。不夠強？再加。計畫是把 Colossus 擴展到 100 萬顆 GPU。與此同時，在太平洋的另一邊，一群中國工程師正在用完全不同的方式解決同樣的問題。 DeepSeek 的團隊只有 2048 顆 GPU——而且還是受美國晶片禁令限制、性能打折的 H800，不是頂級的 H100。他們沒有幾十億美元的預算，沒有獨立的發電廠，沒有 122 天建成的超級資料中心。但他們有別的東西：聰明的工程方案。 --- ## 數字說話：差距到底有多大 ![grok-deepseek-scale-compare](https://hackmd.io/_uploads/SJ_stPwN-g.jpg) 讓我把這些數字攤開來看。 ### 訓練成本 | 項目 | xAI Grok 4 | DeepSeek V3 | |------|-----------|-------------| | 訓練成本 | 約 4.9 億美元 | 560 萬美元 | | GPU 數量 | 200,000 顆 | 2,048 顆 | | 訓練時間 | 未公開 | 約 55 天 | Epoch AI（一個專門追蹤 AI 訓練資源的研究機構）估算，訓練 Grok 4 花了大約 4.9 億美元。這比 Meta 訓練 Llama 3 還貴 9 倍。 DeepSeek 呢？他們在技術報告裡公開了詳細的成本明細： - 預訓練：266.4 萬 GPU 小時 = 532.8 萬美元 - 上下文延伸：11.9 萬 GPU 小時 = 23.8 萬美元 - 微調：5000 GPU 小時 = 1 萬美元 - **總計：278.8 萬 GPU 小時 = 557.6 萬美元** 你可能會問，這個數字可信嗎？說實話，有爭議。SemiAnalysis（一個半導體產業分析機構）發了一篇很長的報告質疑這個數字，說 560 萬只是「GPU 租用成本」，不包括研發、失敗的實驗、基礎設施投資。他們估計 DeepSeek 的實際硬體投資超過 5 億美元。這個質疑有道理。但即使把 DeepSeek 的真實成本放大 10 倍到 5000 萬美元，跟 xAI 的 4.9 億相比，差距仍然是 10 倍。怎麼說呢，就算 DeepSeek 沒有他們聲稱的那麼省，他們確實做到了用明顯更少的資源達到類似的效果。 ### 基礎設施投資 xAI 的 Colossus 超級電腦規格： - GPU 總數：20 萬顆（15 萬 H100 + 5 萬 H200 + GB200） - 記憶體頻寬：194 PB/s - 儲存容量：超過 1 EB - 計畫擴展：100 萬顆 GPU DeepSeek 的訓練集群： - GPU 總數：2,048 顆 H800 - 網路架構：節點內 NVLink + 節點間 InfiniBand 差距是 100 倍。 --- ## 為什麼會這樣：Dense vs MoE 這裡要講一點技術了，但我盡量說得簡單。 xAI 的 Grok 用的是傳統的「Dense Transformer」架構。什麼意思？想像一個有 2.7 兆個神經元的大腦，每次你問它問題，所有 2.7 兆個神經元都會同時啟動來處理你的問題。很強大，但也很耗資源。 DeepSeek 用的是「MoE」架構，全名是 Mixture of Experts（混合專家）。同樣想像一個 6710 億神經元的大腦，但這個大腦被分成很多個「專家小組」。每次你問問題，大腦只會叫相關的專家小組來處理，其他專家繼續休息。實際上，DeepSeek 每處理一個 token（大約一個字詞），只會啟動 370 億個參數——大約是總量的 5.5%。這就像一家公司：xAI 的做法是每個專案都讓全公司 1000 個員工一起開會；DeepSeek 的做法是每個專案只找 50 個相關的人來處理。結果呢？DeepSeek 的每兆 token 訓練成本只需要 18 萬 H800 GPU 小時，遠低於業界平均。 --- ## API 定價戰：誰在虧本賺吆喝看完訓練成本，再來看使用成本。這裡的故事更有意思。 | 模型 | 輸入價格 ($/百萬 token) | 輸出價格 ($/百萬 token) | |------|------------------------|------------------------| | Grok 4.1 Fast | $0.20 | $0.50 | | Grok 4 完整版 | $3.00 | $15.00 | | DeepSeek V3.2 | $0.028-0.28 | $0.42 | | DeepSeek R1 | $0.55 | $2.19 | | GPT-5 (對比) | $1.25 | $10.00 | | Claude Sonnet 4.5 | $3.00 | $15.00 | 看到沒有？Grok 4.1 Fast 的定價 ($0.20/$0.50) 幾乎跟 DeepSeek 一樣低，比 GPT-5 便宜好幾倍。但這裡有個問題。 xAI 每個月虧損大約 10 億美元。根據投資人通訊，他們預計 2025 年全年虧損 130 億美元。自從 2023 年成立以來，他們募了 140 億美元的資金，到 2025 年 3 月只剩 40 億現金。換句話說，Grok 4.1 Fast 那個便宜的價格，是燒錢補貼出來的。這是「先虧本搶市場，以後再說」的打法。 DeepSeek 呢？因為他們的訓練和推論成本本來就低，低價是有成本結構支撐的。這是「我就是便宜，而且還能賺錢」的打法。 OpenAI 的 CEO Sam Altman 在 2025 年初公開承認，DeepSeek 的推論成本比 OpenAI 便宜 20 到 50 倍。這話從競爭對手嘴裡說出來，份量不一樣。 --- ## 這意味著什麼說到這裡，你可能會問：所以 DeepSeek 更好？xAI 在浪費錢？沒那麼簡單。 Grok 4.1 在 LMArena（一個 AI 模型排名平台）上排名第一，ELO 分數 1483，比第二名高出 31 分。在某些複雜推理任務上，暴力堆算力確實有效果。但問題是：那 31 分的領先，值 88 倍的成本嗎？而且 xAI 的商業模式有個根本性的問題：可持續性。每月燒 10 億美元，全靠融資維持。如果哪天投資人的態度變了呢？如果利率上升、科技投資降溫呢？ DeepSeek 則代表了另一條路：用聰明的工程方案解決問題，而不是用錢砸。這條路可能走得更遠。 2025 年 1 月，DeepSeek 發布的消息引發了所謂的「DeepSeek Shock」——美國科技股一天內蒸發了 3.1 兆美元市值。投資人開始質疑：如果訓練一個頂級模型不需要那麼多 GPU，那 Nvidia 的估值還撐得住嗎？那些砸幾百億建資料中心的公司，是不是砸錯了？這個問題到現在還沒有答案。 --- ## 如果你要選，怎麼選最後講點實用的。 **如果你是開發者：** - 需要頂尖性能、預算充足：Grok 4.1 - 成本敏感、高吞吐量需求：DeepSeek V3.2 - 想要自己部署：DeepSeek（MIT 開源授權，可以自己跑） **如果你是企業決策者：** - 評估供應商風險：xAI 高度依賴融資，如果資金鏈出問題會怎樣？ - 考慮開源選項：DeepSeek 開源意味著不會被鎖死在一個供應商 - 盯緊 API 定價變化：Grok 目前的低價可能不可持續 --- ## 最後的話回到開頭那個問題：花更多錢真的能得到更好的結果嗎？在 AI 訓練這件事上，答案似乎是「不一定」。 DeepSeek 證明了，用 1/88 的成本、1/100 的硬體，可以達到 90% 以上的效果。這不是說 xAI 的做法是錯的——他們確實在某些指標上領先——但這讓我們不得不重新思考「算力護城河」這個概念。也許真正的護城河不是誰有更多 GPU，而是誰能更聰明地使用 GPU。這場「暴力美學 vs 效率創新」的對決，才剛剛開始。 --- ## 參考資料 - [xAI Grok 4.1 官方發布頁](https://x.ai/news/grok-4-1) - [DeepSeek-V3 Technical Report](https://arxiv.org/pdf/2412.19437) - [Epoch AI: Grok 4 Training Resources](https://epoch.ai/data-insights/grok-4-training-resources) - [SemiAnalysis: DeepSeek Debates](https://newsletter.semianalysis.com/p/deepseek-debates) - [McKinsey: The Cost of Compute](https://www.mckinsey.com/industries/technology-media-and-telecommunications/our-insights/the-cost-of-compute-a-7-trillion-dollar-race-to-scale-data-centers) - [VentureBeat: Grok 4.1 Release](https://venturebeat.com/ai/musks-xai-launches-grok-4-1-with-lower-hallucination-rate-on-the-web-and) --- *本文基於 2025 年 1 月的公開資料撰寫。AI 產業變化極快，部分數據可能在發布後更新。*