##### tags: `LLM` ##### 更新日期: 2025-12-07 ### 📌 1. 各家 LLM 優勢評比 - ChatGPT 領域知識較深且廣 - Claude 寫程式較快且較少犯錯 - Gemini 影像生成和多模態能力較強 ### 📌 2. GPT 在領域知識上的表現 #### 補充:Impact Factor (IF) - 低到中等影響力:IF 1-2 算一般水平 - 較高水平:IF 2-5 算較高,很多投稿期刊落在這個區間 - 高水平:IF > 5,是非常高的標準 #### 藥學領域 LLMs 表現評比 [(Sato et al.,2025)](https://mededu.jmir.org/2025/1/e76925) 使用第 107 屆日本國家藥劑師考試(JNLEP)評估 LLMs 的表現 刊登於 IF=6.0 的《醫學互聯網研究雜誌》(JMIR) ⚪ 日本國家藥劑師考試-文字題: ➡️ 分數最高的是 GPT-o1 preview(正確率:0.954) ➡️ 其次是 Claude 3.5 Sonnet(正確率:0.880) ➡️ 接著是 Gemini 2.0 Flash(正確率:0.866) PS: 但 GPT 的圖表(Diagram, Graph) 和化學結構(chemical structure)理解力極差,都拿0️⃣分  #### 醫學領域 LLMs 表現評比 [(Wu et al., 2023)](https://arxiv.org/abs/2308.04709) (Computation and Language,IF=2.2) ⚪ 腎臟科知識(Nephrology): ➡️ GPT-4:正確率:73.3% ➡️ Claude 2:正確率:54.4% ➡️ 開源模型:正確率:17~30%  #### 金融領域 LLMs 表現評比 [(Shetty et al., 2025)](https://arxiv.org/pdf/2507.02954) (Computation and Language,IF=2.2) ⚪ CFA Level III(高階證券投資與資產管理): ➡️ GPT-o4-mini:正確率:79.3% ➡️ Gemini 2.5 Flash:正確率:77.1% ➡️ Claude Opus 4:正確率:74.9%  ### 📌 3. Claude 的程式設計能力 Claude 2024 年的官方技術報告 [(Anthropic. (2024))](https://www.semanticscholar.org/paper/The-Claude-3-Model-Family%3A-Opus%2C-Sonnet%2C-Haiku/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627) 評估各 LLMs 的程式設計能力 下為 HumanEval 基準測試集的正確率(包含 164 個 Python 程式問題) ➡️ Claude Opus:84.9% ➡️ Gemini 1.0 Ultra:74.4% ➡️ Claude Sonnet:73.0% ➡️ Gemini 1.5 Pro:71.9% ➡️ GPT-4:67.0%  ### 📌 4. Gemini 的多模態處理能力 Gemini 在影像處理(更準確地說是多模態理解)方面擁有更強大的能力 這一觀點可以從其關於長上下文和多模態理解的技術報告中得到佐證 參考文獻:[(Google DeepMind. (2024))](https://arxiv.org/abs/2403.05530) 研究人員向 LLMs 提供一組 1024 張圖片 任務是將圖片中包含的資訊提取到結構化資料表中  ➡️ Gemini 正確率約 40~45% ➡️ GPT-4 Turbo 正確率約 25~35% ➡️ Claude 3 Opus 正確率約 <= 10% ➡️ 補充-1:Claude 3 API 最多只能分析 20 張影像,因此 Claude 3 Opus 的結果受到限制 ➡️ 補充-2:研究人員發現 Gemini 1.5 Pro 輸入更多影像會帶來更高的正確率,這表明該模型能夠有效地利用更多更長的上下文資訊;GPT-4 Turbo 的準確率會隨著影像數量的增加而下降 #### 補充:實際案例 1. ChatGPT (付費版, v5.2 Auto) 語音轉文字 - 失敗 ➡️ 耗時約 2 分鐘   2. Gemini (免費版, v3 快捷模式) 語音轉文字 - 成功 ➡️ 耗時約 30 秒 
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up