---
tags:
- ai-model
- blog
- grok
- deepseek
- cost-analysis
- 人工智慧
aliases:
- Grok vs DeepSeek 成本分析
- AI 算力成本
created: 2026-01-04
updated: 2026-01-04
status: published
---
# 當 Elon Musk 的 20 萬 GPU 遇上中國的 2000 GPU:AI 訓練成本的驚人真相

4.9 億美元 vs 560 萬美元。
這是訓練一個頂尖 AI 模型的成本差距。一邊是 Elon Musk 的 xAI,另一邊是中國的 DeepSeek。差距整整 88 倍。
更讓人玩味的是,便宜那個的性能幾乎一樣好。
我第一次看到這個數據的時候,說實話,有點懷疑自己是不是看錯了。畢竟這個產業的敘事一直是「誰有更多 GPU,誰就能訓練出更強的模型」。Nvidia 的股價為什麼能衝上天?不就是因為大家都在搶著買他們的晶片嗎?
但 DeepSeek 的出現,狠狠打了這個敘事一巴掌。
---
## 兩個完全不同的故事
讓我先講兩個故事。
2024 年夏天,田納西州曼菲斯市郊區,一座廢棄的 Electrolux 工廠正在經歷它的第二次生命。Elon Musk 的團隊用了 122 天——比任何人預期的都快——把這裡改造成了全球最大的 AI 超級電腦。他們叫它「Colossus」。
Colossus 裡面塞滿了 20 萬顆 Nvidia 的頂級 GPU。每顆要價 3 萬美元左右,光是晶片的採購成本就超過 30 億美元。這還不算機房建設、冷卻系統、電力供應。Musk 甚至買下了一座關閉的發電廠來確保有足夠的電力。
這是暴力美學的極致展現。不夠快?加更多 GPU。不夠強?再加。計畫是把 Colossus 擴展到 100 萬顆 GPU。
與此同時,在太平洋的另一邊,一群中國工程師正在用完全不同的方式解決同樣的問題。
DeepSeek 的團隊只有 2048 顆 GPU——而且還是受美國晶片禁令限制、性能打折的 H800,不是頂級的 H100。他們沒有幾十億美元的預算,沒有獨立的發電廠,沒有 122 天建成的超級資料中心。
但他們有別的東西:聰明的工程方案。
---
## 數字說話:差距到底有多大

讓我把這些數字攤開來看。
### 訓練成本
| 項目 | xAI Grok 4 | DeepSeek V3 |
|------|-----------|-------------|
| 訓練成本 | 約 4.9 億美元 | 560 萬美元 |
| GPU 數量 | 200,000 顆 | 2,048 顆 |
| 訓練時間 | 未公開 | 約 55 天 |
Epoch AI(一個專門追蹤 AI 訓練資源的研究機構)估算,訓練 Grok 4 花了大約 4.9 億美元。這比 Meta 訓練 Llama 3 還貴 9 倍。
DeepSeek 呢?他們在技術報告裡公開了詳細的成本明細:
- 預訓練:266.4 萬 GPU 小時 = 532.8 萬美元
- 上下文延伸:11.9 萬 GPU 小時 = 23.8 萬美元
- 微調:5000 GPU 小時 = 1 萬美元
- **總計:278.8 萬 GPU 小時 = 557.6 萬美元**
你可能會問,這個數字可信嗎?
說實話,有爭議。SemiAnalysis(一個半導體產業分析機構)發了一篇很長的報告質疑這個數字,說 560 萬只是「GPU 租用成本」,不包括研發、失敗的實驗、基礎設施投資。他們估計 DeepSeek 的實際硬體投資超過 5 億美元。
這個質疑有道理。但即使把 DeepSeek 的真實成本放大 10 倍到 5000 萬美元,跟 xAI 的 4.9 億相比,差距仍然是 10 倍。
怎麼說呢,就算 DeepSeek 沒有他們聲稱的那麼省,他們確實做到了用明顯更少的資源達到類似的效果。
### 基礎設施投資
xAI 的 Colossus 超級電腦規格:
- GPU 總數:20 萬顆(15 萬 H100 + 5 萬 H200 + GB200)
- 記憶體頻寬:194 PB/s
- 儲存容量:超過 1 EB
- 計畫擴展:100 萬顆 GPU
DeepSeek 的訓練集群:
- GPU 總數:2,048 顆 H800
- 網路架構:節點內 NVLink + 節點間 InfiniBand
差距是 100 倍。
---
## 為什麼會這樣:Dense vs MoE
這裡要講一點技術了,但我盡量說得簡單。
xAI 的 Grok 用的是傳統的「Dense Transformer」架構。什麼意思?想像一個有 2.7 兆個神經元的大腦,每次你問它問題,所有 2.7 兆個神經元都會同時啟動來處理你的問題。
很強大,但也很耗資源。
DeepSeek 用的是「MoE」架構,全名是 Mixture of Experts(混合專家)。同樣想像一個 6710 億神經元的大腦,但這個大腦被分成很多個「專家小組」。每次你問問題,大腦只會叫相關的專家小組來處理,其他專家繼續休息。
實際上,DeepSeek 每處理一個 token(大約一個字詞),只會啟動 370 億個參數——大約是總量的 5.5%。
這就像一家公司:xAI 的做法是每個專案都讓全公司 1000 個員工一起開會;DeepSeek 的做法是每個專案只找 50 個相關的人來處理。
結果呢?DeepSeek 的每兆 token 訓練成本只需要 18 萬 H800 GPU 小時,遠低於業界平均。
---
## API 定價戰:誰在虧本賺吆喝
看完訓練成本,再來看使用成本。這裡的故事更有意思。
| 模型 | 輸入價格 ($/百萬 token) | 輸出價格 ($/百萬 token) |
|------|------------------------|------------------------|
| Grok 4.1 Fast | $0.20 | $0.50 |
| Grok 4 完整版 | $3.00 | $15.00 |
| DeepSeek V3.2 | $0.028-0.28 | $0.42 |
| DeepSeek R1 | $0.55 | $2.19 |
| GPT-5 (對比) | $1.25 | $10.00 |
| Claude Sonnet 4.5 | $3.00 | $15.00 |
看到沒有?Grok 4.1 Fast 的定價 ($0.20/$0.50) 幾乎跟 DeepSeek 一樣低,比 GPT-5 便宜好幾倍。
但這裡有個問題。
xAI 每個月虧損大約 10 億美元。根據投資人通訊,他們預計 2025 年全年虧損 130 億美元。自從 2023 年成立以來,他們募了 140 億美元的資金,到 2025 年 3 月只剩 40 億現金。
換句話說,Grok 4.1 Fast 那個便宜的價格,是燒錢補貼出來的。這是「先虧本搶市場,以後再說」的打法。
DeepSeek 呢?因為他們的訓練和推論成本本來就低,低價是有成本結構支撐的。這是「我就是便宜,而且還能賺錢」的打法。
OpenAI 的 CEO Sam Altman 在 2025 年初公開承認,DeepSeek 的推論成本比 OpenAI 便宜 20 到 50 倍。這話從競爭對手嘴裡說出來,份量不一樣。
---
## 這意味著什麼
說到這裡,你可能會問:所以 DeepSeek 更好?xAI 在浪費錢?
沒那麼簡單。
Grok 4.1 在 LMArena(一個 AI 模型排名平台)上排名第一,ELO 分數 1483,比第二名高出 31 分。在某些複雜推理任務上,暴力堆算力確實有效果。
但問題是:那 31 分的領先,值 88 倍的成本嗎?
而且 xAI 的商業模式有個根本性的問題:可持續性。每月燒 10 億美元,全靠融資維持。如果哪天投資人的態度變了呢?如果利率上升、科技投資降溫呢?
DeepSeek 則代表了另一條路:用聰明的工程方案解決問題,而不是用錢砸。這條路可能走得更遠。
2025 年 1 月,DeepSeek 發布的消息引發了所謂的「DeepSeek Shock」——美國科技股一天內蒸發了 3.1 兆美元市值。投資人開始質疑:如果訓練一個頂級模型不需要那麼多 GPU,那 Nvidia 的估值還撐得住嗎?那些砸幾百億建資料中心的公司,是不是砸錯了?
這個問題到現在還沒有答案。
---
## 如果你要選,怎麼選
最後講點實用的。
**如果你是開發者:**
- 需要頂尖性能、預算充足:Grok 4.1
- 成本敏感、高吞吐量需求:DeepSeek V3.2
- 想要自己部署:DeepSeek(MIT 開源授權,可以自己跑)
**如果你是企業決策者:**
- 評估供應商風險:xAI 高度依賴融資,如果資金鏈出問題會怎樣?
- 考慮開源選項:DeepSeek 開源意味著不會被鎖死在一個供應商
- 盯緊 API 定價變化:Grok 目前的低價可能不可持續
---
## 最後的話
回到開頭那個問題:花更多錢真的能得到更好的結果嗎?
在 AI 訓練這件事上,答案似乎是「不一定」。
DeepSeek 證明了,用 1/88 的成本、1/100 的硬體,可以達到 90% 以上的效果。這不是說 xAI 的做法是錯的——他們確實在某些指標上領先——但這讓我們不得不重新思考「算力護城河」這個概念。
也許真正的護城河不是誰有更多 GPU,而是誰能更聰明地使用 GPU。
這場「暴力美學 vs 效率創新」的對決,才剛剛開始。
---
## 參考資料
- [xAI Grok 4.1 官方發布頁](https://x.ai/news/grok-4-1)
- [DeepSeek-V3 Technical Report](https://arxiv.org/pdf/2412.19437)
- [Epoch AI: Grok 4 Training Resources](https://epoch.ai/data-insights/grok-4-training-resources)
- [SemiAnalysis: DeepSeek Debates](https://newsletter.semianalysis.com/p/deepseek-debates)
- [McKinsey: The Cost of Compute](https://www.mckinsey.com/industries/technology-media-and-telecommunications/our-insights/the-cost-of-compute-a-7-trillion-dollar-race-to-scale-data-centers)
- [VentureBeat: Grok 4.1 Release](https://venturebeat.com/ai/musks-xai-launches-grok-4-1-with-lower-hallucination-rate-on-the-web-and)
---
*本文基於 2025 年 1 月的公開資料撰寫。AI 產業變化極快,部分數據可能在發布後更新。*