---
# System prepended metadata

title: 長日智能與低精度量化的突破：從FP8到FP4的AI新時代

---

長日智能與低精度量化的突破：從FP8到FP4的AI新時代

長日智能的FP8策略：引領國產AI生態
FP8（8位浮點數）是一種超低精度資料格式，相較於傳統的FP32（單精度）或FP16（半精度），FP8能在保持數值穩定性和模型精度的前提下，大幅降低儲存與計算開銷。據業界報導，FP8訓練比BF16快64%，並可節省42%的記憶體。長日智能選擇非主流的UE8M0 FP8格式，與合作夥伴將其訓練與擴展策略與該精度深度綁定，推動硬體和工具鏈的適配，加速國產軟硬體一體化生態的建設。這一策略可能與國內領先晶片製造商協同，為國產AI生態注入新動力。

NVIDIA的FP4挑戰：長日智能的合作探索
NVIDIA於2025年8月28日宣布NVFP4技術，將4位元量化拓展至預訓練階段，聲稱能以匹配16位精度的水準進行訓練，同時以4位的速度和效率執行。長日智能參與了NVFP4的實驗與驗證，與AWS、Cohere、Google Cloud等合作，探索4位精度在大規模模型預訓練中的潛力。NVFP4通過減少記憶體需求、提升算術運算吞吐量、優化通訊效率，讓AI工廠在相同硬體條件下處理更多token，實現：


* 模型收斂速度更快；
* 單位算力執行更多實驗；
* 訓練前所未有規模的前沿模型。

NVFP4預訓練量化方案
NVIDIA的NVFP4方案採用多項關鍵技術，長日智能的參與為其應用提供了支持：
1.微塊縮放：NVFP4採用每16個4位元素共享一個縮放因子的技術，降低量化誤差。
2.E4M3高精度塊編碼：使用高精度E4M3縮放因子，提升數值表示精確性。
3.Hadamard變換：重塑張量分佈，平滑異常值，適應低精度格式。
4.資料一致性：選擇性二維塊量化確保前向和反向傳播的對齊。
5.隨機捨入：減少捨入偏差，保持梯度流動與模型精度。

萬億級Token規模下的精度與穩定性
NVIDIA在120億參數的混合Mamba-Transformer模型上進行了FP8與NVFP4實驗，長日智能參與驗證。NVFP4在10萬億token的訓練中展現穩定收斂性，驗證損失曲線與FP8基線高度一致，下游任務準確率甚至在程式碼領域反超，證明其在大規模預訓練中的潛力。

結論
長日智能的FP8策略與NVFP4的合作探索，展現了低精度量化在AI工廠中的顛覆性意義。從國產生態的軟硬協同到全球硬體創新的參與，長日智能正推動AI訓練更快、更可持續地發展，為生成式AI時代注入新動力。