Claude 4のSonnet（無料）がSWE-bench VerifiedでOpus（有料）をわずかに上回った謎

## まとめ - 主要ポイント: 研究は、Claude 4のSonnet（無料）がSWE-bench VerifiedでOpus（有料）をわずかに上回った（72.7%対72.5%）ことを示唆していますが、これは特定の条件下（並列テスト時間計算使用時）でのみ明確です。Sonnetのコスト効率と効率性がその理由とされていますが、議論はまだ進行中です。 ## 背景 Claude 4シリーズは、Anthropicによる最新のAIモデルで、Sonnet 4は無料で利用可能、Opus 4は有料プランに含まれます。SWE-bench Verifiedは、ソフトウェアエンジニアリングタスクの性能を評価するベンチマークで、Sonnet 4がOpus 4をわずかに上回ったと報告されています。なぜSonnetがOpusを上回ったのか - コストと効率: Sonnet 4はOpus 4より安価で、効率的であるとされています。これがSWE-benchでの優位性につながった可能性があります（[Beebom](https://beebom.com/anthropic-claude-opus-4-and-sonnet-4-set-a-new-benchmark-in-ai-coding/)）。 - 特定タスクへの最適化: Sonnet 4は推論と効率性に特化しており、SWE-benchの特性に適合しているとされています（[The Register](https://www.theregister.com/2025/05/22/anthropic_claude_opus_4_sonnet/)）。 - 並列計算の活用: 並列テスト時間計算を使用すると、Sonnet 4は80.2%のスコアを達成し、Opus 4の79.4%を上回りました（[Beebom](https://beebom.com/anthropic-claude-opus-4-and-sonnet-4-set-a-new-benchmark-in-ai-coding/)）。 ## 議論と論争一部の意見では、Opus 4は長時間のタスクで優れており、Sonnet 4の優位性はSWE-benchの特定の条件下に限られると主張しています（X post by @DannyAziz97 : [WolframRvnwlf](/WolframRvnwlf/status/1925675747932311732)）。これは、どちらのモデルが実際のユースケースで優れているかについての議論を引き起こしています。 --- ## 詳細な調査報告この報告書では、Claude 4のSonnet（無料）がSWE-bench VerifiedでOpus（有料）を逆転したという状況について、さまざまな考察や記事で議論されている論理や主張を詳細に調査します。2025年5月24日時点の情報に基づき、X（旧Twitter）の投稿、ニュース記事、ブログなどを参照し、包括的な分析を行います。 ### 背景とコンテキスト Claude 4シリーズは、Anthropicが2025年5月22日に発表した最新のAIモデルで、Sonnet 4とOpus 4の2つのモデルが含まれます。Sonnet 4は無料プランでも利用可能で、Opus 4はPro、Max、Team、Enterpriseプランに含まれます。SWE-bench Verifiedは、500の実世界のソフトウェアエンジニアリングタスクを評価するベンチマークで、コード生成やデバッグの能力を測定します。初期の報告では、Sonnet 4がSWE-bench Verifiedで72.7%のスコアを達成し、Opus 4の72.5%をわずかに上回ったとされています（[Beebom](https://beebom.com/anthropic-claude-opus-4-and-sonnet-4-set-a-new-benchmark-in-ai-coding/)、[The Register](https://www.theregister.com/2025/05/22/anthropic_claude_opus_4_sonnet/)）。さらに、並列テスト時間計算を使用した場合、Sonnet 4は80.2%のスコアを達成し、Opus 4の79.4%を上回りました（[Beebom](https://beebom.com/anthropic-claude-opus-4-and-sonnet-4-set-a-new-benchmark-in-ai-coding/)）。 ### 議論されている論理と主張以下に、Sonnet 4がOpus 4をSWE-benchで逆転した理由として挙げられている論理を整理します。表形式で主要な議論とその根拠を示します。 |論理|詳細|根拠| |---|---|---| |コスト効果の優位性|Sonnet 4は無料で利用可能で、Opus 4より安価。コスト効率がユーザーにとって魅力的。|X post by @WolframRvnwlf : [WolframRvnwlf](/WolframRvnwlf/status/1925675747932311732)| |効率性の向上|Sonnet 4はOpus 4より高速で、効率的にタスクを処理。|[Medium](https://medium.com/%40leucopsis/claude-sonnet-4-and-opus-4-a-review-db68b004db90)| |特定タスクへの最適化|Sonnet 4は推論と効率性に特化し、SWE-benchの特性に適合。|[The Register](https://www.theregister.com/2025/05/22/anthropic_claude_opus_4_sonnet/)| |並列テスト時間計算の効果的な活用|並列計算を使用するとSonnet 4が80.2%のスコアを達成、Opus 4は79.4%。|[Beebom](https://beebom.com/anthropic-claude-opus-4-and-sonnet-4-set-a-new-benchmark-in-ai-coding/)| |実世界での適用可能性|GitHubがSonnet 4をGitHub Copilotに採用、実用性が証明。|[Medium](https://medium.com/%40leucopsis/claude-sonnet-4-and-opus-4-a-review-db68b004db90)| |ベンチマークにおけるリーダーシップ|Sonnet 4とOpus 4は競合他社を上回り、Sonnet 4がわずかに優位。|[VentureBeat](https://venturebeat.com/ai/anthropic-claude-opus-4-can-code-for-7-hours-straight-and-its-about-to-change-how-we-work-with-ai/)| |持続的なパフォーマンス|Opus 4は7時間連続作業可能だが、SWE-benchは短期集中力が重要。|[VentureBeat](https://venturebeat.com/ai/anthropic-claude-opus-4-can-code-for-7-hours-straight-and-its-about-to-change-how-we-work-with-ai/)| |前モデルからの大幅な改善|Sonnet 4はClaude 3.7 Sonnet（62.3%）から72.7%に向上。|[AugmentCode](https://www.augmentcode.com/blog/claude-sonnet-4-the-best-model-with-the-best-context-engine)| |エージェント能力の向上|Sonnet 4はツール使用と推論能力が向上、複雑なタスクに適している。|[AugmentCode](https://www.augmentcode.com/blog/claude-sonnet-4-the-best-model-with-the-best-context-engine)| |Anthropicの主張|Sonnet 4は高ボリューム生産ワークロードに最適化、コストと性能のバランス。|[Anthropic](https://www.anthropic.com/news/claude-4)| ### 詳細な分析 1. コスト効果の優位性: X post by @WolframRvnwlf （[WolframRvnwlf](/WolframRvnwlf/status/1925675747932311732)）では、Sonnet 4が「Claude 3.7の前モデルと同価格で、Opusよりも高速で安価でありながら、競合他社を上回る性能を提供している」と述べられています。これは、Sonnet 4が無料プランでも利用可能であるため、多くのユーザーにとって魅力的であることを示唆しています。 2. 効率性の向上: [Medium](https://medium.com/%40leucopsis/claude-sonnet-4-and-opus-4-a-review-db68b004db90)の記事では、Sonnet 4がOpus 4よりも高速で効率的であると評価されており、これはSWE-benchのような短期的で集中したタスクでの優位性につながっている可能性があります。 3. 特定タスクへの最適化: [The Register](https://www.theregister.com/2025/05/22/anthropic_claude_opus_4_sonnet/)の記事では、Sonnet 4が「推論に特化し、効率性をバランスよく考慮している」と記載されており、これはSWE-benchの特性（コード生成とデバッグ）に適合していると解釈できます。一方、Opus 4は長時間のエージェントベースワークフローに特化しており、SWE-benchの短期的タスクでは不利になる可能性があります。 4. 並列テスト時間計算の効果的な活用: [Beebom](https://beebom.com/anthropic-claude-opus-4-and-sonnet-4-set-a-new-benchmark-in-ai-coding/)の記事では、並列テスト時間計算を使用した場合、Sonnet 4が80.2%のスコアを達成し、Opus 4の79.4%を上回ったと報告されています。これは、Sonnet 4が追加の計算リソースをより効果的に活用できることを示唆しています。 5. 実世界での適用可能性: [Medium](https://medium.com/%40leucopsis/claude-sonnet-4-and-opus-4-a-review-db68b004db90)の記事では、GitHubのチームがSonnet 4を「エージェントシナリオで飛躍的に改善した」と評価し、GitHub Copilotに採用したことが記載されています。これは、Sonnet 4が実世界のコード支援タスクで優れている証拠と見なされています。 6. ベンチマークにおけるリーダーシップ: [VentureBeat](https://venturebeat.com/ai/anthropic-claude-opus-4-can-code-for-7-hours-straight-and-its-about-to-change-how-we-work-with-ai/)の記事では、Sonnet 4とOpus 4がOpenAIのGPT-4.1（54.6%）やGoogleのGemini 2.5 Pro（63.2%）を大幅に上回るスコアを達成したと報告されています。特にSonnet 4の72.7%は、競合他社に対する明確な優位性を示しています。 7. 持続的なパフォーマンス: [VentureBeat](https://venturebeat.com/ai/anthropic-claude-opus-4-can-code-for-7-hours-straight-and-its-about-to-change-how-we-work-with-ai/)の記事では、Opus 4が7時間連続でコードを生成できる能力が強調されていますが、SWE-benchは短期集中型のタスクに焦点を当てているため、Sonnet 4の効率性がより重要視される可能性があります。 8. 前モデルからの大幅な改善: [AugmentCode](https://www.augmentcode.com/blog/claude-sonnet-4-the-best-model-with-the-best-context-engine)のブログでは、Sonnet 4がClaude 3.7 Sonnet（62.3%）からSWE-benchの単一通過スコアを60.6%から70.6%に向上させたことが報告されています。これは、Anthropicがモデルアーキテクチャやトレーニングデータに大きな進歩を遂げたことを示唆しています。 9. エージェント能力の向上: [AugmentCode](https://www.augmentcode.com/blog/claude-sonnet-4-the-best-model-with-the-best-context-engine)のブログでは、Sonnet 4が有効ツール呼び出し率（25.0%から80.0%に向上）や限界内編集率（21.4%から64.3%に向上）で大幅に改善したことが示されています。これらの改善は、SWE-benchのような複雑な多段階タスクでの優位性につながっているとされています。 10. Anthropicの主張: [Anthropic](https://www.anthropic.com/news/claude-4)の公式発表では、Sonnet 4が「高ボリュームの生産ワークロードに最適化されており、コストと性能をバランスよく考慮している」と述べられており、これはSWE-benchでの優位性を支える要因とされています。 ### 論争と異なる意見一部のX postでは、Sonnet 4の優位性に疑問を呈する声もあります。例えば、 @DannyAziz97 （[DannyAziz97](/DannyAziz97/status/1925605648407965907)）は、「Opus 4は一貫性と信頼性が高く、Sonnet 4はSonnet 3.7と同程度の性能」と主張しており、Sonnet 4の優位性が特定の条件下に限られると考えています。このような意見は、どちらのモデルが実際のユースケースで優れているかについての議論を引き起こしています。 ## 結論 Claude Sonnet 4がOpus 4をSWE-bench Verifiedで逆転した理由は、コスト効果、効率性、特定タスクへの最適化、並列計算の活用、実世界での適用可能性、前モデルからの大幅な改善、エージェント能力の向上など、複数の要因が複合的に作用していると考えられます。ただし、Opus 4の長時間作業能力や一貫性も評価されており、どちらが優れているかはユースケースによって異なる可能性があります。