mainstream LLM comparison

| **Model Name** | **Performance** | **Latency** | **Cost** I/O | **Context Length** | **Max output token** | **Multimodality** | | :---: | :---: | :---: | :---: | :---: | :---: | :---: | | **Gemini 2.5 Pro** | best | 30s | $1.25/$10 | 1M | 64k | audio \| image \| video | | **Gemini 2 Flash** | good | 0.34s | $0.1/0.4 | 1M | 8192 | audio \| image \| video | | **GPT-4.1** | great | 0.4s | $2/$8 | 1M | 32k | image | | **GPT-o3 mini** | second best | 14s | $10/$40 | 200k | 100k | image | | **Llama 4 Maverick** | 😢 | 0.45s | $0.27/$0.85 | 1M | 2048 (?) | image \| video | | **Claude 3.7 Sonnet** | better than GPT-4.1 | 0.91s | $3.75/$15 | 200k | 64k | image | | **Claude 3.7 Sonnet (Reasoning)** | best | 0.91s | $3.75/$15 | 200k | 64k | image | *Gemini 2.5 Pro costs $2.5/$15 if context is greater than 200k* *GPT-o3 mini costs $2.5 if using cached input* *GPT-4.1 costs $0.5 if using cached input* *Llama's price depends on inference provider, Together AI in this casse* *Sonnet costs 0.3 if cached input applied*