SWE-bench Verified 最新動向

# SWE-bench Verified 最新動向 Claude 4 が塗り替えた記録 --- ## 1. SWE-bench Verified とは - **実世界の GitHub Issue 500 件**を題材に、AI が 1. Issue の理解 2. 該当ファイルの特定 3. コード修正 4. 全テスト通過を完全自律で達成できるかを測るベンチマーク。 - 元ベンチマーク *SWE-bench* から **93 名の開発者**が精査したサンプルだけを抽出し、不備のあるテストやあいまいな Issue を排除して信頼性を向上。 - Docker で環境を固定し、**FAIL\_TO\_PASS / PASS\_TO\_PASS** の二段階テストで回帰バグも検出するため、単なるコード生成より実務寄りの技能が問われる。 --- ## 2. 評価モードの違い | モード | 概要 | Claude 4 系列の実装 | | --- | --- | --- | | **標準モード** | 1 回だけ実行。<br>使えるツールは *bash* と *file-edit* のみ。 | Opus 72.5 % / Sonnet 72.7 | | **高計算モード** | 並列で複数案を生成し、<br>①失敗パッチをリジェクト → ②内部スコアで最良案を選抜。 | Opus 79.4 % / Sonnet 80.2 | https://www.anthropic.com/news/claude-4 > **ポイント** > Claude 4 は *標準* で o3 を超過。 > Sonnet 4（無料モデル）さえ 80 % に到達し、 > 「コードを吐くだけ」から「実装まで完結」へフェーズが進んだことを示す。 ※SonnetとOpusの逆転現象はベンチマークの飽和を示している --- ## 3. スコアの進化（主要モデル） | モデル | 発表時期 | SWE-bench Verified (%) | | ------------------- | ---------- | ---------------------- | | Gemini 2.0 Flash | 2024-12 | 51.8 | | Gemini 2.5 Pro | 2025-03 | 63.8 | | Claude 3.7 Sonnet | 2025-02 | 70.3 | | Claude 4.0 Sonnet | 2025-05 | 72.7| https://developers.googleblog.com/ja/the-next-chapter-of-the-gemini-era-for-developers/ ![output](https://hackmd.io/_uploads/SyfdyWyzxx.png) 進化のポイント傾きは +0.10 pt/日（約 +34 pt/年）回帰直線が示す平均上昇速度。 Gemini 2.0 Flash → Gemini 2.5 Pro で +12 pt（3 か月） Claude 3.7 → Claude 4.0 で +2.4 pt（3 か月）既に高水準だったところからさらに微増。この 4 データだけでも「半年弱で 20 pt 近い底上げ」が視覚的に確認でき、SWE-bench Verified 70 % 超えが “ニューノーマル” になる。 ※この段階進化、というトレンドを肌感覚で知ることが重要。　→ ハイエンドで１ポイントの差は想像以上に大きい。高計算モードの上限値はプロンプト次第でどうにでもなる領域なので一喜一憂しないこと。 ※手間なので資料化してないが、openモデル等を加味しても傾きは大きく変わらないはず。 2025/6/1追記 OpenAI 最強モデルのo3 は69.1（Claude 3.7に劣る）ただし、OpenAIの次世代モデルが公開されるのは時間の問題。後発モデルは当然Claude 4.0 Sonnetを上回ってくるはず。 https://openai.com/ja-JP/index/introducing-o3-and-o4-mini/ ![image](https://hackmd.io/_uploads/rko2K2Yzll.png)