Mixtral of Experts

# Mixtrue of Experts > 簡稱：MoE > 中文：專家混合模型 > 原文：https://arxiv.org/pdf/2401.04088 ## 小結 - 可具有更快的預訓練(Pre-Training)速度 - 比同量級模型推論速度更快 - 在多項基準測試中表現較FFN模型優秀 - 需將所有模型載入，記憶體需求較大 - 微調(Fine-Tune)方式較為複雜