--- tags: - ai-model - blog - grok - deepseek - cost-analysis - 人工智慧 aliases: - Grok vs DeepSeek 成本分析 - AI 算力成本 created: 2026-01-04 updated: 2026-01-04 status: published --- # 當 Elon Musk 的 20 萬 GPU 遇上中國的 2000 GPU:AI 訓練成本的驚人真相  4.9 億美元 vs 560 萬美元。 這是訓練一個頂尖 AI 模型的成本差距。一邊是 Elon Musk 的 xAI,另一邊是中國的 DeepSeek。差距整整 88 倍。 更讓人玩味的是,便宜那個的性能幾乎一樣好。 我第一次看到這個數據的時候,說實話,有點懷疑自己是不是看錯了。畢竟這個產業的敘事一直是「誰有更多 GPU,誰就能訓練出更強的模型」。Nvidia 的股價為什麼能衝上天?不就是因為大家都在搶著買他們的晶片嗎? 但 DeepSeek 的出現,狠狠打了這個敘事一巴掌。 --- ## 兩個完全不同的故事 讓我先講兩個故事。 2024 年夏天,田納西州曼菲斯市郊區,一座廢棄的 Electrolux 工廠正在經歷它的第二次生命。Elon Musk 的團隊用了 122 天——比任何人預期的都快——把這裡改造成了全球最大的 AI 超級電腦。他們叫它「Colossus」。 Colossus 裡面塞滿了 20 萬顆 Nvidia 的頂級 GPU。每顆要價 3 萬美元左右,光是晶片的採購成本就超過 30 億美元。這還不算機房建設、冷卻系統、電力供應。Musk 甚至買下了一座關閉的發電廠來確保有足夠的電力。 這是暴力美學的極致展現。不夠快?加更多 GPU。不夠強?再加。計畫是把 Colossus 擴展到 100 萬顆 GPU。 與此同時,在太平洋的另一邊,一群中國工程師正在用完全不同的方式解決同樣的問題。 DeepSeek 的團隊只有 2048 顆 GPU——而且還是受美國晶片禁令限制、性能打折的 H800,不是頂級的 H100。他們沒有幾十億美元的預算,沒有獨立的發電廠,沒有 122 天建成的超級資料中心。 但他們有別的東西:聰明的工程方案。 --- ## 數字說話:差距到底有多大  讓我把這些數字攤開來看。 ### 訓練成本 | 項目 | xAI Grok 4 | DeepSeek V3 | |------|-----------|-------------| | 訓練成本 | 約 4.9 億美元 | 560 萬美元 | | GPU 數量 | 200,000 顆 | 2,048 顆 | | 訓練時間 | 未公開 | 約 55 天 | Epoch AI(一個專門追蹤 AI 訓練資源的研究機構)估算,訓練 Grok 4 花了大約 4.9 億美元。這比 Meta 訓練 Llama 3 還貴 9 倍。 DeepSeek 呢?他們在技術報告裡公開了詳細的成本明細: - 預訓練:266.4 萬 GPU 小時 = 532.8 萬美元 - 上下文延伸:11.9 萬 GPU 小時 = 23.8 萬美元 - 微調:5000 GPU 小時 = 1 萬美元 - **總計:278.8 萬 GPU 小時 = 557.6 萬美元** 你可能會問,這個數字可信嗎? 說實話,有爭議。SemiAnalysis(一個半導體產業分析機構)發了一篇很長的報告質疑這個數字,說 560 萬只是「GPU 租用成本」,不包括研發、失敗的實驗、基礎設施投資。他們估計 DeepSeek 的實際硬體投資超過 5 億美元。 這個質疑有道理。但即使把 DeepSeek 的真實成本放大 10 倍到 5000 萬美元,跟 xAI 的 4.9 億相比,差距仍然是 10 倍。 怎麼說呢,就算 DeepSeek 沒有他們聲稱的那麼省,他們確實做到了用明顯更少的資源達到類似的效果。 ### 基礎設施投資 xAI 的 Colossus 超級電腦規格: - GPU 總數:20 萬顆(15 萬 H100 + 5 萬 H200 + GB200) - 記憶體頻寬:194 PB/s - 儲存容量:超過 1 EB - 計畫擴展:100 萬顆 GPU DeepSeek 的訓練集群: - GPU 總數:2,048 顆 H800 - 網路架構:節點內 NVLink + 節點間 InfiniBand 差距是 100 倍。 --- ## 為什麼會這樣:Dense vs MoE 這裡要講一點技術了,但我盡量說得簡單。 xAI 的 Grok 用的是傳統的「Dense Transformer」架構。什麼意思?想像一個有 2.7 兆個神經元的大腦,每次你問它問題,所有 2.7 兆個神經元都會同時啟動來處理你的問題。 很強大,但也很耗資源。 DeepSeek 用的是「MoE」架構,全名是 Mixture of Experts(混合專家)。同樣想像一個 6710 億神經元的大腦,但這個大腦被分成很多個「專家小組」。每次你問問題,大腦只會叫相關的專家小組來處理,其他專家繼續休息。 實際上,DeepSeek 每處理一個 token(大約一個字詞),只會啟動 370 億個參數——大約是總量的 5.5%。 這就像一家公司:xAI 的做法是每個專案都讓全公司 1000 個員工一起開會;DeepSeek 的做法是每個專案只找 50 個相關的人來處理。 結果呢?DeepSeek 的每兆 token 訓練成本只需要 18 萬 H800 GPU 小時,遠低於業界平均。 --- ## API 定價戰:誰在虧本賺吆喝 看完訓練成本,再來看使用成本。這裡的故事更有意思。 | 模型 | 輸入價格 ($/百萬 token) | 輸出價格 ($/百萬 token) | |------|------------------------|------------------------| | Grok 4.1 Fast | $0.20 | $0.50 | | Grok 4 完整版 | $3.00 | $15.00 | | DeepSeek V3.2 | $0.028-0.28 | $0.42 | | DeepSeek R1 | $0.55 | $2.19 | | GPT-5 (對比) | $1.25 | $10.00 | | Claude Sonnet 4.5 | $3.00 | $15.00 | 看到沒有?Grok 4.1 Fast 的定價 ($0.20/$0.50) 幾乎跟 DeepSeek 一樣低,比 GPT-5 便宜好幾倍。 但這裡有個問題。 xAI 每個月虧損大約 10 億美元。根據投資人通訊,他們預計 2025 年全年虧損 130 億美元。自從 2023 年成立以來,他們募了 140 億美元的資金,到 2025 年 3 月只剩 40 億現金。 換句話說,Grok 4.1 Fast 那個便宜的價格,是燒錢補貼出來的。這是「先虧本搶市場,以後再說」的打法。 DeepSeek 呢?因為他們的訓練和推論成本本來就低,低價是有成本結構支撐的。這是「我就是便宜,而且還能賺錢」的打法。 OpenAI 的 CEO Sam Altman 在 2025 年初公開承認,DeepSeek 的推論成本比 OpenAI 便宜 20 到 50 倍。這話從競爭對手嘴裡說出來,份量不一樣。 --- ## 這意味著什麼 說到這裡,你可能會問:所以 DeepSeek 更好?xAI 在浪費錢? 沒那麼簡單。 Grok 4.1 在 LMArena(一個 AI 模型排名平台)上排名第一,ELO 分數 1483,比第二名高出 31 分。在某些複雜推理任務上,暴力堆算力確實有效果。 但問題是:那 31 分的領先,值 88 倍的成本嗎? 而且 xAI 的商業模式有個根本性的問題:可持續性。每月燒 10 億美元,全靠融資維持。如果哪天投資人的態度變了呢?如果利率上升、科技投資降溫呢? DeepSeek 則代表了另一條路:用聰明的工程方案解決問題,而不是用錢砸。這條路可能走得更遠。 2025 年 1 月,DeepSeek 發布的消息引發了所謂的「DeepSeek Shock」——美國科技股一天內蒸發了 3.1 兆美元市值。投資人開始質疑:如果訓練一個頂級模型不需要那麼多 GPU,那 Nvidia 的估值還撐得住嗎?那些砸幾百億建資料中心的公司,是不是砸錯了? 這個問題到現在還沒有答案。 --- ## 如果你要選,怎麼選 最後講點實用的。 **如果你是開發者:** - 需要頂尖性能、預算充足:Grok 4.1 - 成本敏感、高吞吐量需求:DeepSeek V3.2 - 想要自己部署:DeepSeek(MIT 開源授權,可以自己跑) **如果你是企業決策者:** - 評估供應商風險:xAI 高度依賴融資,如果資金鏈出問題會怎樣? - 考慮開源選項:DeepSeek 開源意味著不會被鎖死在一個供應商 - 盯緊 API 定價變化:Grok 目前的低價可能不可持續 --- ## 最後的話 回到開頭那個問題:花更多錢真的能得到更好的結果嗎? 在 AI 訓練這件事上,答案似乎是「不一定」。 DeepSeek 證明了,用 1/88 的成本、1/100 的硬體,可以達到 90% 以上的效果。這不是說 xAI 的做法是錯的——他們確實在某些指標上領先——但這讓我們不得不重新思考「算力護城河」這個概念。 也許真正的護城河不是誰有更多 GPU,而是誰能更聰明地使用 GPU。 這場「暴力美學 vs 效率創新」的對決,才剛剛開始。 --- ## 參考資料 - [xAI Grok 4.1 官方發布頁](https://x.ai/news/grok-4-1) - [DeepSeek-V3 Technical Report](https://arxiv.org/pdf/2412.19437) - [Epoch AI: Grok 4 Training Resources](https://epoch.ai/data-insights/grok-4-training-resources) - [SemiAnalysis: DeepSeek Debates](https://newsletter.semianalysis.com/p/deepseek-debates) - [McKinsey: The Cost of Compute](https://www.mckinsey.com/industries/technology-media-and-telecommunications/our-insights/the-cost-of-compute-a-7-trillion-dollar-race-to-scale-data-centers) - [VentureBeat: Grok 4.1 Release](https://venturebeat.com/ai/musks-xai-launches-grok-4-1-with-lower-hallucination-rate-on-the-web-and) --- *本文基於 2025 年 1 月的公開資料撰寫。AI 產業變化極快,部分數據可能在發布後更新。*
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up