Comparatif complet des IA de pointe en 2025-2026

![17723600278872770809898182780912](https://hackmd.io/_uploads/HJ2KZq-tZe.jpg) # Comparatif complet des IA de pointe en 2025-2026 **En mars 2026, six plateformes d'IA se disputent le marché avec des philosophies radicalement différentes** : OpenAI domine par l'étendue de ses fonctionnalités, Claude excelle en programmation et en utilisation autonome de l'ordinateur, Gemini tire parti de l'écosystème Google et du raisonnement scientifique, Mistral défend la souveraineté européenne et l'open source, Grok mise sur l'intégration X/Twitter et une personnalité provocante, tandis que Perplexity réinvente la recherche web avec un moteur de réponses multi-modèles. Aucune IA ne domine dans tous les domaines : le choix optimal dépend de l'usage prioritaire, du budget et des exigences de confidentialité. --- ## Les modèles et leur positionnement début 2026 Chaque acteur a connu une cadence de publication accélérée en 2025-2026. Voici l'état des lieux des modèles phares : **OpenAI** propose **GPT-5.2** (décembre 2025) comme modèle par défaut dans ChatGPT, avec trois niveaux automatiques — Instant (rapide), Thinking (raisonnement) et Pro (intelligence maximale). [Digital Magazine](https://digitalmagazine.org/what-is-chatgpt-guide) Le modèle offre une fenêtre de contexte de **400K tokens**, [Introl](https://introl.com/blog/gpt-5-2-infrastructure-implications-inference-demand-january-2026) [Price Per Token](https://pricepertoken.com/pricing-page/model/openai-gpt-5.2) un taux d'hallucination réduit à **~6,2 %** et **~45 % moins d'erreurs factuelles** que GPT-4o avec la recherche activée. [OpenAI](https://openai.com/index/introducing-gpt-5/) Les modèles Codex spécialisés (GPT-5.3-Codex, février 2026) sont dédiés au code agentique. [OpenAI](https://openai.com/index/introducing-gpt-5-3-codex/) Tous les anciens modèles (GPT-4o, o3, o4-mini) ont été retirés en février 2026. [Releasebot](https://releasebot.io/updates/openai/chatgpt) **Anthropic** aligne **Claude Opus 4.6** (5 février 2026) comme modèle le plus intelligent et **Claude Sonnet 4.6** (17 février 2026) comme modèle par défaut. Sonnet 4.6 est préféré à Opus 4.5 par **59 % des développeurs** dans les tests Claude Code, tout en coûtant cinq fois moins cher. [Anthropic](https://www.anthropic.com/news/claude-sonnet-4-6) La fenêtre de contexte atteint **1 million de tokens** en bêta, avec une sortie maximale de 128K tokens. [Claude API Docs](https://platform.claude.com/docs/en/about-claude/models/overview) **Google** a lancé **Gemini 3.1 Pro Preview** (19 février 2026) [What LLM](https://whatllm.org/blog/gemini-3-1-pro-preview) [Medium](https://medium.com/@leucopsis/gemini-3-1-pro-review-1403a8aa1a96) et **Deep Think** pour le raisonnement avancé. Le contexte atteint **1 million de tokens** [Google DeepMind](https://deepmind.google/models/model-cards/gemini-3-1-pro/) et la suite comprend Nano Banana 2 (images), Veo 3.1 (vidéo) [Google Developers](https://developers.googleblog.com/introducing-veo-3-1-and-new-creative-capabilities-in-the-gemini-api/) et Project Mariner (navigation web autonome). [Wikipedia](https://en.wikipedia.org/wiki/Project_Mariner) Gemini 3 Flash est le modèle gratuit par défaut. [9to5Google](https://9to5google.com/2026/02/21/google-ai-pro-ultra-features/) [Google AI](https://gemini.google/release-notes/) **Mistral** a publié la famille **Mistral 3** (décembre 2025) sous licence Apache 2.0 : Mistral Large 3 (675B paramètres MoE, 41B actifs), [Mistral AI](https://mistral.ai/news/mistral-3) Ministral 3 (3B à 14B pour l'edge) [Mistral AI](https://mistral.ai/news/mistral-3) et Devstral 2 (codage). [Mistral AI](https://mistral.ai/news/devstral-2-vibe-cli) L'entreprise française atteint [Wikipedia](https://en.wikipedia.org/wiki/Mistral_AI) **400M$ de revenus annuels** [TechCrunch](https://techcrunch.com/2026/02/17/mistral-ai-buys-koyeb-in-first-acquisition-to-back-its-cloud-ambitions/) et une valorisation de **~14 milliards de dollars**. [Wikipedia](https://en.wikipedia.org/wiki/Mistral_AI) [Bismarckanalysis](https://brief.bismarckanalysis.com/p/ai-2026-mistral-will-rise-as-compute) **Grok** (xAI) propose **Grok 4.1** (novembre 2025) avec un accent sur l'intelligence émotionnelle et la créativité, ainsi que **Grok 4.1 Fast** pour les tâches agentiques. xAI a été acquis par SpaceX en février 2026 [Dataconomy](https://dataconomy.com/2026/02/10/musk-confirms-xai-to-open-source-grok-3/) [CNBC](https://www.cnbc.com/2026/02/03/musk-xai-spacex-biggest-merger-ever.html) dans une fusion évaluée à **1 250 milliards de dollars**. [CNBC](https://www.cnbc.com/2026/02/03/musk-xai-spacex-biggest-merger-ever.html) **Perplexity AI** fonctionne comme un **« moteur de réponses »** multi-modèles, orchestrant GPT-5.2, Claude 4.6, Gemini 3.1 Pro, Grok 4.1 [TechCrunch](https://techcrunch.com/2026/02/27/perplexitys-new-computer-is-another-bet-that-users-need-many-ai-models/) [VentureBeat](https://venturebeat.com/technology/perplexity-launches-computer-ai-agent-that-coordinates-19-models-priced-at) et son propre modèle Sonar. Il traite environ **30 millions de requêtes quotidiennes** [SeoProfy](https://seoprofy.com/blog/perplexity-ai-statistics/) et atteint **93,9 % de précision** sur SimpleQA. [Threads](https://www.threads.com/@perplexity/post/DGD8hnVKsME?hl=en) --- ## 1. Réponses du quotidien et usage général Pour l'usage quotidien, **ChatGPT (GPT-5.2)** reste le choix le plus polyvalent grâce à son routage automatique entre modes Instant et Thinking. Il gère la création de tableurs, présentations et documents, avec une base de connaissances mise à jour jusqu'en août 2025. Sur le benchmark GDPval (44 métiers professionnels), GPT-5.2 égale ou surpasse les experts humains dans **70,9 % des comparaisons**, [R&D World](https://www.rdworldonline.com/how-gpt-5-2-stacks-up-against-gemini-3-0-and-claude-opus-4-5/) à un coût inférieur à 1 % de celui d'un professionnel. [OpenAI](https://openai.com/index/introducing-gpt-5-2/) **Claude Sonnet 4.6** excelle pour les réponses nuancées et bien structurées. L'horizon temporel d'autonomie d'Opus 4.6 atteint **14 heures 30 minutes** (estimation METR), ce qui en fait le modèle le plus capable pour les tâches prolongées. [Wikipedia](https://en.wikipedia.org/wiki/Claude_(language_model)) L'intégration Google Workspace (Gmail, Calendar, Docs) enrichit le contexte des réponses. **Gemini** se distingue par son intégration profonde dans l'écosystème Google — Search, Gmail, Drive, Android, Chrome, Google Home. Gemini Live est disponible dans **45+ langues** et **150+ pays** [Gemini](https://gemini.google/subscriptions/) sur mobile. [Gemini](https://gemini.google/overview/gemini-live/) Gemini 3.1 Pro trône au sommet du classement **LMArena** avec un Elo de **1 470**. [Google](https://blog.google/products-and-platforms/products/gemini/gemini-2-5-pro-latest-preview/) **Mistral Le Chat** offre un excellent rapport qualité/prix pour les utilisateurs francophones, avec des réponses rapides (« Flash Answers » à ~1 000 mots/seconde) [DataCamp](https://www.datacamp.com/blog/mistral-le-chat) et une maîtrise native du français. Toutefois, il reste en retrait sur les tâches les plus complexes face aux modèles propriétaires de pointe. **Grok** se démarque par son accès en temps réel aux données de X/Twitter [Perplexity](https://www.perplexity.ai/help-center/en/articles/10354919-what-advanced-ai-models-are-included-in-a-perplexity-pro-subscription) et sa personnalité audacieuse, parfois sarcastique. C'est le meilleur choix pour suivre l'actualité en temps réel sur les réseaux sociaux, [Robylon AI](https://www.robylon.ai/blog/what-is-xai-grok-a-complete-guide-to-the-chatbot) mais sa fiabilité factuelle souffre d'un biais vers les sources X. [THE DECODER](https://the-decoder.com/grok-3-adds-deeper-search-and-ai-image-editing-capabilities/) **Perplexity** est incontournable pour les questions nécessitant des sources vérifiables. Chaque réponse inclut des citations numérotées vers les sources originales. [GitMind](https://gitmind.com/what-is-perplexity.html) [Finout](https://www.finout.io/blog/perplexity-pricing-in-2026) Cependant, il n'est pas conçu comme un assistant conversationnel polyvalent — c'est avant tout un outil de recherche. [G2](https://learn.g2.com/perplexity-vs-chatgpt) --- ## 2. Rédaction et qualité d'écriture La rédaction est un domaine où les différences de personnalité entre IA sont les plus marquées. **Claude** est unanimement reconnu pour produire **la prose la plus naturelle et humaine** du marché. Plusieurs comparatifs en 2026 confirment que ses textes nécessitent moins de révisions, évitent le « slop IA » typique et produisent un style fluide et engageant. Sonnet 4.6 génère également des interfaces frontend « remarquablement plus soignées, avec de meilleurs layouts, animations et sensibilité graphique ». [Perplexity](https://www.perplexity.ai/help-center/en/articles/10354919-what-advanced-ai-models-are-included-in-a-perplexity-pro-subscription) La limite : l'approche sécuritaire (Constitutional AI) peut rendre Claude trop prudent sur certaines demandes créatives audacieuses. **GPT-5.2** a considérablement progressé en écriture depuis GPT-5.1, qui a introduit davantage de chaleur et de naturel conversationnel. Il gère bien l'ambiguïté structurelle (pentamètre iambique non rimé, vers libre) et la rédaction professionnelle (rapports, e-mails, mémos). [OpenAI](https://openai.com/index/introducing-gpt-5/) La réduction de la sycophantie permet des retours plus honnêtes. [OpenAI](https://openai.com/index/introducing-gpt-5/) Certains utilisateurs estiment toutefois que Claude reste supérieur pour la prose longue. **Grok 4.1** s'est hissé en tête du benchmark **EQ-Bench3** (intelligence émotionnelle, [Abaka AI](https://www.abaka.ai/blog/grok-4-1) Elo 1 586) [Codecademy](https://www.codecademy.com/article/what-is-grok-4-1) [DataCamp](https://www.datacamp.com/blog/grok-4-1) et se classe 2e-3e en écriture créative, derrière GPT-5.1. [Abaka AI](https://www.abaka.ai/blog/grok-4-1) Son style est plus audacieux et opiniâtre que ses concurrents, [Robylon AI](https://www.robylon.ai/blog/what-is-xai-grok-a-complete-guide-to-the-chatbot) [G2](https://learn.g2.com/deepseek-vs-grok) ce qui plaît à certains utilisateurs mais en rebute d'autres. La personnalité parfois provocante reste controversée. **Mistral** brille en **multilinguisme**, avec une maîtrise native de plus de 40 langues, dont le français, l'allemand, l'arabe et le japonais. Son partenariat avec l'AFP assure des réponses factuelles en français. [DataCamp](https://www.datacamp.com/blog/mistral-le-chat) L'écriture créative n'est pas sa force première. **Gemini 3 Pro** produit des réponses « intelligentes, concises et directes », [Google DeepMind](https://deepmind.google/models/gemini/) avec une philosophie anti-bavardage. Moins verbeux que ses concurrents, il favorise l'actionnable sur le littéraire. **Perplexity** n'est pas un outil de rédaction créative mais excelle dans la synthèse factuelle structurée avec citations. --- ## 3. Programmation : Claude Code domine, la concurrence se resserre Le codage est devenu le champ de bataille le plus disputé en 2026. Voici les benchmarks clés : | Benchmark | GPT-5.2 | Claude Opus 4.6 | Gemini 3.1 Pro | Devstral 2 | Grok Code Fast 1 | |---|---|---|---|---|---| | **SWE-bench Verified** | 80,0 % | **80,8 %** | 80,6 % | 72,2 % | 70,8 % | | **SWE-bench Pro** | **55,6 %** | — | 54,2 % | — | — | | **Terminal-Bench 2.0** | 64,7 % | **65,4 %** | 54,2 % | — | — | | **HumanEval** | 95,0 % | **95,0 %** | — | — | — | **Claude Code** est largement considéré comme **le meilleur assistant de codage** début 2026. [Wikipedia](https://en.wikipedia.org/wiki/Claude_(language_model)) Cet outil en ligne de commande permet de déléguer des tâches de programmation complètes. Fait remarquable : 16 agents Opus 4.6 ont écrit un **compilateur C de 100 000 lignes en Rust** capable de compiler le noyau Linux, pour un coût d'environ 20 000 $. [Wikipedia](https://en.wikipedia.org/wiki/Claude_(language_model)) [36Kr](https://eu.36kr.com/en/p/3671505972061065) La fonctionnalité « Agent Teams » permet à plusieurs instances Claude de se coordonner via des dépôts Git partagés. **OpenAI Codex** (GPT-5.3-Codex, février 2026) rivalise en codage agentique avec des sessions pouvant durer des heures, voire des semaines. Un chercheur a utilisé GPT-5.2-Codex pour découvrir une vulnérabilité critique réelle dans React. [OpenAI](https://openai.com/index/introducing-gpt-5-2-codex/) Le modèle Spark fonctionne à **1 000+ tokens/seconde** sur matériel Cerebras. [OpenAI](https://openai.com/index/introducing-gpt-5-3-codex-spark/) **Gemini** excelle en développement web — **#1 sur WebDev Arena** (1 487 Elo) [Unite.AI](https://www.unite.ai/google-unveils-gemini-3-pro-with-benchmark-breaking-performance/) — et est disponible dans Cursor, GitHub Copilot, JetBrains et Figma. Jules, l'agent de codage asynchrone de Google, gère plusieurs tâches simultanées. [9to5Google](https://9to5google.com/2026/02/21/google-ai-pro-ultra-features/) Google Antigravity combine navigation, éditeur et terminal. **Mistral Devstral 2** (123B paramètres) atteint **72,2 % sur SWE-bench Verified** — le meilleur score parmi les modèles open source. [Mistral AI](https://mistral.ai/news/devstral-2-vibe-cli) Il est **7 fois plus efficient** que Claude Sonnet sur les tâches réelles. [Mistral AI](https://mistral.ai/news/devstral-2-vibe-cli) Devstral Small 2 (24B) atteint 68 % et fonctionne sur du matériel grand public. [Mistral AI](https://mistral.ai/news/devstral-2-vibe-cli) **Grok Code Fast 1** est positionné sur la vitesse (92 tokens/seconde) [InfoQ](https://www.infoq.com/news/2025/09/xai-grok-fast1/) plutôt que la performance maximale, à un prix très agressif de **0,20 $/M tokens en entrée**. [Pricepertoken](https://pricepertoken.com/pricing-page/provider/xai) **Perplexity** n'est pas un outil de codage dédié mais peut assister via les modèles sous-jacents (Claude, GPT-5). Son point fort est le débogage et la recherche de documentation API. [Glbgpt](https://www.glbgpt.com/hub/is-perplexity-good-for-coding/) --- ## 4. Raisonnement : Gemini et GPT-5.2 au coude-à-coude au sommet | Benchmark | GPT-5.2 | Claude Opus 4.6 | Gemini 3.1 Pro | Grok 4 | Perplexity | |---|---|---|---|---|---| | **GPQA Diamond** (science PhD) | 92,4 % | 91,3 % | **94,3 %** | — | — | | **Humanity's Last Exam** | 34,5 % | 40,0 % | **44,4 %** | 38,6 % | 21,1 % | | **ARC-AGI-2** (abstraction) | 52,9 % | **68,8 %** | 77,1 % | 16,2 % | — | | **AIME 2025** (maths) | **100 %** | **100 %** | 91,2 % | **100 %** | — | | **MMLU** | 89,6 % | 91,1 % | **92,6 %** | — | — | | **FrontierMath** | **40,3 %** | — | — | — | — | **Gemini 3.1 Pro** domine sur les benchmarks scientifiques les plus exigeants : GPQA Diamond (**94,3 %**, [Google](https://blog.google/products/gemini/gemini-3/) dépassant les experts humains à ~89,8 %), Humanity's Last Exam (**44,4 %**) [FindArticles](https://www.findarticles.com/google-releases-gemini-3-1-pro-benchmarks-and-how-to-try/) [Google](https://blog.google/products/gemini/gemini-3/) et ARC-AGI-2 (**77,1 %** — plus du double de Gemini 3 Pro). [Google](https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/) Le mode **Deep Think** a obtenu une médaille d'or standard aux Olympiades Internationales de Mathématiques 2025 et réussi les épreuves écrites des Olympiades de Physique et Chimie. [Google](https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/) **GPT-5.2** est le premier modèle à épuiser le signal AIME sans outils (**100 %**) [Vertu](https://vertu.com/ai-tools/gpt-5-2-benchmark-analysis-performance-comparison-vs-gpt-5-1-gemini-3-pro/) et mène sur **FrontierMath** (40,3 %, mathématiques expertes). [OpenAI](https://openai.com/index/introducing-gpt-5-2/) Son score ARC-AGI Pro dépasse 90 % — un seuil symbolique. [Introl](https://introl.com/blog/gpt-5-2-infrastructure-implications-inference-demand-january-2026) [Vertu](https://vertu.com/ai-tools/gpt-5-2-benchmark-analysis-performance-comparison-vs-gpt-5-1-gemini-3-pro/) **Claude Opus 4.6** excelle en résolution de problèmes nouveaux (**68,8 % sur ARC-AGI-2**) et en raisonnement juridique (**90,2 % sur BigLaw Bench**). Sa pensée adaptative (Adaptive Thinking) décide automatiquement quand un raisonnement approfondi est nécessaire. [36Kr](https://eu.36kr.com/en/p/3671505972061065) **Mistral Magistral** raisonne de manière nativement multilingue — une caractéristique unique. Le Ministral 3 14B Reasoning atteint **85 % sur AIME 2025** — remarquable pour un modèle de cette taille. [Mistral AI](https://mistral.ai/news/mistral-3) --- ## 5. Recherche approfondie (Deep Research) Toutes les grandes plateformes proposent désormais un mode de recherche approfondie, mais avec des approches différentes : **OpenAI Deep Research** (lancé février 2025) utilise un agent autonome qui navigue sur le web pendant **5 à 30 minutes**, [OpenAI](https://openai.com/index/introducing-deep-research/) analysant des centaines de sources (texte, images, PDF). [Campus Technology](https://campustechnology.com/articles/2025/02/12/new-openai-deep-research-agent-turns-chatgpt-into-a-research-analyst.aspx) Depuis février 2026, il peut se connecter à des applications via MCP, restreindre les recherches à des sites de confiance et être piloté en cours de route. [Releasebot](https://releasebot.io/updates/openai/chatgpt) [OpenAI](https://openai.com/index/introducing-deep-research/) Limite : 250 recherches/mois pour les abonnés Pro (200 $/mois), 25 pour les abonnés Plus. [Wikipedia](https://en.wikipedia.org/wiki/ChatGPT_Deep_Research) **Perplexity Deep Research** est le plus rapide : la plupart des tâches sont complétées en **2 à 4 minutes**. [Perplexity](https://www.perplexity.ai/help-center/en/articles/10352895-how-does-perplexity-work) Il effectue 20 à 50 requêtes ciblées [Medium](https://sahanirakesh.medium.com/perplexity-ai-deep-research-detailed-explanation-guide-baf6fee43ce8) et lit des centaines de sources. [Perplexity](https://www.perplexity.ai/help-center/en/articles/10738684-what-is-research-mode) Depuis février 2026, il utilise **Claude Opus 4.6** comme moteur de raisonnement pour les abonnés Max. [Releasebot](https://releasebot.io/updates/perplexity-ai) Les évaluations indépendantes le placent au sommet aux côtés de Gemini sur les benchmarks DeepSearchQA. [Releasebot](https://releasebot.io/updates/perplexity-ai) **Gemini Deep Research** s'appuie sur le moteur de raisonnement de Gemini 3 Pro [Google](https://blog.google/technology/developers/deep-research-agent-gemini-api/) et peut fouiller **Gmail, Drive et Chat** en plus du web. [Gemini](https://gemini.google/overview/deep-research/) Les rapports peuvent être convertis en Audio Overview [Gemini](https://gemini.google/overview/deep-research/) (narration podcast) ou exportés vers Google Docs. Via l'API, il atteint **46,4 % sur HLE** et **66,1 % sur DeepSearchQA** — les meilleurs scores de l'industrie. [Google](https://blog.google/technology/developers/deep-research-agent-gemini-api/) **Claude Research** intègre la recherche web et les sources internes (Google Workspace) mais reste moins spécialisé que les trois ci-dessus. Pour les sciences de la vie, Claude est toutefois exceptionnel : la plateforme Biomni de Stanford utilise des agents Claude dans **25+ sous-domaines biologiques**. **Mistral Deep Research** (lancé juillet 2025) décompose les requêtes en plans multi-étapes et produit des rapports sourcés. Il est disponible sur tous les paliers (gratuit inclus) avec des limites d'utilisation. **Grok DeepSearch/DeeperSearch** s'appuie fortement sur les données X/Twitter, ce qui lui donne un avantage pour les sujets d'actualité sociale mais peut produire des résultats superficiels sur les sujets techniques, avec une dépendance excessive aux sources de qualité variable. [THE DECODER](https://the-decoder.com/grok-3-adds-deeper-search-and-ai-image-editing-capabilities/) --- ## 6. Recherche web en temps réel | Plateforme | Technologie | Points forts | Limites | |---|---|---|---| | **Perplexity** | Moteur propriétaire + RAG | **93,9 % SimpleQA**, citations systématiques | Sources parfois douteuses, controverses éditeurs | | **ChatGPT** | Recherche native intégrée | 45 % moins d'erreurs factuelles vs GPT-4o | Coût additionnel via API | | **Gemini** | Google Search (Grounding) | Accès à l'index Google, AI Overviews 1,5B+ utilisateurs | Peut « deviner » au lieu de chercher | | **Claude** | Brave Search | Bon pour les requêtes ciblées, filtrage dynamique HTML | Parfois saute la recherche, anglais privilégié | | **Grok** | Web + X/Twitter natif | Données sociales en temps réel uniques | Surpondération des sources X | | **Mistral** | Web + AFP | Journalisme vérifié en français | Sources moins diversifiées | **Perplexity** reste le leader incontesté de la recherche web avec citations. **Gemini** bénéficie de l'accès direct à l'index Google Search, [Google](https://blog.google/innovation-and-ai/technology/ai/io-2025-keynote/) le plus complet au monde. **Grok** est unique pour le suivi des tendances sociales en temps réel. **Claude** utilise Brave Search avec un nouveau filtrage dynamique (février 2026) qui exécute du code Python pour filtrer le HTML brut avant qu'il n'atteigne le contexte. --- ## 7. Chat vocal : une course à quatre **ChatGPT Advanced Voice Mode** est le plus abouti : disponible sur iOS, Android, Windows et web, avec **9 voix**, reconnaissance vocale >95 % en environnement calme, [Qcall](https://qcall.ai/chatgpt-voice-mode-review) intonation subtile, empathie et sarcasme. [Data Studios](https://www.datastudios.org/post/chatgpt-s-advanced-voice-mode-upgrade-june-2025) Il supporte **50+ langues** avec détection automatique [All About AI](https://www.allaboutai.com/ai-how-to/use-chatgpt-advanced-voice-mode/) et un mode traduction en temps réel. [TechCrunch](https://techcrunch.com/2025/06/09/openai-updates-chatgpts-voice-mode-with-more-natural-sounding-speech/) Limite notable : taux d'hallucination vocale de **33-48 %** selon les tests d'OpenAI. [Qcall](https://qcall.ai/chatgpt-voice-mode-review) **Gemini Live** est le plus largement disponible : **45+ langues**, **150+ pays**, [Gemini](https://gemini.google/overview/gemini-live/) avec partage de caméra et d'écran en temps réel, [Google Support](https://support.google.com/gemini/answer/15274899?hl=en&co=GENIE.Platform%3DAndroid) **10 options de voix** [Neowin](https://www.neowin.net/news/google-starts-pushing-gemini-live-voice-chat-mode-to-workspace-users/) et une latence de première réponse sous 1 seconde. [Data Studios](https://www.datastudios.org/post/gemini-voice-conversation-features-in-2025) L'intégration Google Home permet d'utiliser Gemini Live sur les enceintes Nest. [Google](https://home.google.com/get-inspired/bring-home-the-magic-of-gemini/) La traduction vocale en direct couvre **70+ langues** et **2 000+ paires**. [Google](https://blog.google/products-and-platforms/products/gemini/gemini-audio-model-updates/) **Grok Voice** est entièrement construit en interne et se classe **#1 sur Big Bench Audio**. Son temps de première réponse est inférieur à 1 seconde — **~5 fois plus rapide** que le concurrent le plus proche. [xAI](https://x.ai/news/grok-voice-agent-api) Six voix sont disponibles, [AIToolly](https://aitoolly.com/ai-news/article/1b5616fa-3eb2-4f05-bfc6-85ba1c9f6e8d) dont une intégrée aux véhicules Tesla. [xAI](https://x.ai/news/grok-voice-agent-api) L'API Voice Agent est proposée à **0,05 $/minute**. [xAI](https://x.ai/news/grok-voice-agent-api) [xAI](https://docs.x.ai/docs/guides/voice/agent) **Claude Voice** (mai 2025) utilise ElevenLabs pour la synthèse vocale [Weesper Neon Flow](https://weesperneonflow.ai/en/blog/2026-02-23-claude-ai-voice-mode-2026-features-vs-dedicated-dictation/) [Simon Willison](https://simonwillison.net/2025/May/31/using-voice-mode-on-claude-mobile-apps/) et propose 5 voix. [Data Studios](https://www.datastudios.org/post/claude-voice-features-explained-current-status-and-upcoming-real-time-updates) Limitation importante : **anglais uniquement** en mars 2026, [Weesper Neon Flow](https://weesperneonflow.ai/en/blog/2026-02-23-claude-ai-voice-mode-2026-features-vs-dedicated-dictation/) et pas de véritable conversation bidirectionnelle audio comme ChatGPT. Anthropic prévoit des « Offline Voice Packs » pour le traitement local. [Data Studios](https://www.datastudios.org/post/claude-voice-features-explained-current-status-and-upcoming-real-time-updates) **Mistral Voxtral** est un modèle open source de reconnaissance vocale qui alimente Le Chat, mais les réponses restent en texte — pas de conversation audio bidirectionnelle. **Perplexity** offre une interaction vocale sur mobile avec traitement local de la parole, [Data Studios](https://www.datastudios.org/post/perplexity-ai-and-voice-conversation-features-live-queries-and-real-time-responses) 4 styles de voix [How-To Geek](https://www.howtogeek.com/perplexity-just-stole-chatgpts-best-feature-doing-a-better-job/) et le mot d'activation « Hey Perplexity » sur Android. [Data Studios](https://www.datastudios.org/post/perplexity-ai-and-voice-conversation-features-live-queries-and-real-time-responses) --- ## 8. Génération d'images : Gemini et OpenAI en tête **Gemini** domine avec deux modèles dédiés. **Nano Banana Pro** (basé sur Gemini 3 Pro) génère des images en résolution native **4K** avec un rendu de texte précis en plusieurs langues, [Higgsfield](https://higgsfield.ai/nano-banana-pro-intro) une cohérence de personnages (jusqu'à 5) et un éclairage physiquement correct. [Google](https://blog.google/innovation-and-ai/technology/developers-tools/gemini-3-pro-image-developers/) **Nano Banana 2** (février 2026) est [AI Insider](https://theaiinsider.tech/2026/02/27/google-launches-nano-banana-2-image-model-as-default-across-gemini-ecosystem/) #1 sur AI Image Arena, disponible dans **140+ pays** [AI Insider](https://theaiinsider.tech/2026/02/27/google-launches-nano-banana-2-image-model-as-default-across-gemini-ecosystem/) à ~0,05-0,15 $ par image selon la résolution. [ALM Corp](https://almcorp.com/blog/google-nano-banana-2-gemini-31-flash-image-complete-guide/) **OpenAI GPT Image 1.5** (décembre 2025) a remplacé DALL-E 3 avec un rendu de texte précis à **~85 %**, [Techpresso](https://dupple.com/learn/how-to-use-chatgpt-to-create-images) des visages photoréalistes, des mains correctes et l'édition conversationnelle itérative. [CreateVision AI](https://createvision.ai/guides/gpt5-image-generation-analysis) Trois niveaux de qualité sont proposés [2236](https://2236.io/en/tools/dall-e/) de 0,01 $ à 0,17 $ par image. [OpenAI](https://openai.com/api/pricing/) La génération est **4 fois plus rapide** que la version précédente. [Techpresso](https://dupple.com/learn/how-to-use-chatgpt-to-create-images) **Grok Aurora** excelle en rendu photoréaliste et impose **moins de restrictions** que ses concurrents — peut générer des images de personnalités publiques [xAI](https://x.ai/news/grok-image-generation-release) et de politiciens. [Learn Prompting](https://learnprompting.org/blog/guide-grok) Mais cette permissivité a engendré une **crise majeure** : découverte de la possibilité de « déshabiller » numériquement des personnes, y compris des mineurs, [CNN](https://www.cnn.com/2026/01/08/tech/elon-musk-xai-digital-undressing) entraînant des enquêtes au Royaume-Uni, dans l'UE, en France et aux États-Unis, [CNN](https://www.cnn.com/2026/01/09/business/grok-image-generation-undressing-deepfake) [Euronews](https://www.euronews.com/business/2026/02/04/spacex-hits-106tn-after-xai-merger-as-musk-consolidates-empire) ainsi que le départ de trois responsables sécurité d'xAI. [CNN](https://www.cnn.com/2026/01/08/tech/elon-musk-xai-digital-undressing) **Mistral** utilise les modèles **Flux Pro/Ultra de Black Forest Labs** [Wikipedia](https://en.wikipedia.org/wiki/Mistral_AI) — pas de modèle propre, mais des capacités d'édition avancées dans Le Chat. **Claude ne génère pas d'images**. C'est un choix architectural assumé. Des indices de développement ont été découverts dans un build de février 2026, mais rien n'est encore disponible. Claude peut en revanche analyser des images avec une grande précision. **Perplexity** propose DALL-E 3, FLUX.1 et Playground v3 [Android Police](https://www.androidpolice.com/perplexity-ai-new-android-voice-assistant-is-here/) pour les abonnés Pro, ainsi que Nano Banana via Perplexity Computer. [Perplexity](https://www.perplexity.ai/hub/blog/introducing-perplexity-computer) --- ## 9. Génération de vidéos : un marché encore jeune **Sora 2** (OpenAI, septembre 2025) génère des vidéos de **15 à 25 secondes en 1080p** avec dialogue synchronisé, effets sonores et musique. [WaveSpeedAI](https://wavespeed.ai/blog/posts/openai-sora-2-complete-guide-2026/) Un partenariat avec Disney (1 milliard $) permet la génération de 200+ personnages Disney. [Wikipedia](https://en.wikipedia.org/wiki/Sora_(text-to-video_model)) Disponibilité limitée : principalement États-Unis et Canada, certains pays d'Asie/Amérique latine. L'UE attend toujours. [Glbgpt](https://www.glbgpt.com/hub/openai-sora-2-availability/) **Veo 3.1** (Google, février 2026) produit des clips de **8 secondes** en 720p, 1080p ou **4K** avec audio natif synchronisé. [Google AI](https://ai.google.dev/gemini-api/docs/video) Les fonctionnalités incluent le portrait (9:16), l'extension de vidéo et les images de référence pour le style. [Google AI](https://ai.google.dev/gemini-api/docs/video) Disponible via Gemini, l'API et Flow (outil de réalisation). Prix : **0,75 $/seconde**. [Google Developers](https://developers.googleblog.com/veo-3-now-available-gemini-api/) **Grok Imagine 1.0** (février 2026) génère des vidéos de **10 secondes en 720p** avec un audio émotionnel expressif. xAI revendique **1,245 milliard de vidéos générées** en janvier 2026. [WeShop AI](https://www.weshop.ai/blog/grok-image-2026-review%EF%BC%9Athe-dawn-of-xais-media-reign/) Le mode « Spicy » (contenu NSFW) est très controversé et fait l'objet d'enquêtes réglementaires. [MindStudio](https://www.mindstudio.ai/blog/what-is-grok-imagine-video-xai) **Perplexity** intègre Veo 3.1 pour les abonnés Max/Pro [Perplexity](https://www.perplexity.ai/hub/blog/introducing-perplexity-computer) avec un maximum de 15 vidéos/mois pour les Enterprise Max. [Perplexity](https://www.perplexity.ai/help-center/en/articles/11985060-generating-videos-with-perplexity) **Claude et Mistral** n'offrent **aucune capacité de génération vidéo**. --- ## 10. Caméra en direct et multimodalité live **Gemini Live** est le plus avancé [Google](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/live-api) : partage de caméra en temps réel sur mobile [Google Support](https://support.google.com/gemini/answer/15274899?hl=en&co=GENIE.Platform%3DAndroid) avec identification d'objets, assistance contextuelle et réponses vocales simultanées. L'API Live supporte le streaming vidéo continu avec 24 langues. Cas d'usage : assistants shopping, PNJ de jeux, lunettes connectées, robotique. [Google](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/live-api) **ChatGPT Advanced Voice avec Vision** (décembre 2024) permet de pointer la caméra du téléphone pour une identification et une discussion en temps réel. Le partage d'écran est disponible [Beebom](https://beebom.com/chatgpt-can-see-through-camera-real-time-interaction/) sur desktop. GPT-5 peut « penser avec des images » — intégrer l'information visuelle directement dans ses chaînes de raisonnement. [Digital Magazine](https://digitalmagazine.org/what-is-chatgpt-guide) Score : **84,2 % sur MMMU**. [OpenAI](https://openai.com/index/introducing-gpt-5/) **Grok** supporte le partage d'écran sur le web [AIbase](https://www.aibase.com/news/19682) et la vision sur images statiques, mais la caméra en direct n'est pas pleinement déployée début 2026. **Perplexity Assistant** offre une vue en direct (Live View) sur mobile : pointer la caméra sur un objet et poser des questions. [Android Police](https://www.androidpolice.com/perplexity-ai-new-android-voice-assistant-is-here/) Intégré au Samsung Galaxy S26 comme assistant système. [Releasebot +2](https://releasebot.io/updates/perplexity-ai) **Claude** ne traite **pas de flux vidéo en direct**. Il accepte des images statiques, de l'audio (WAV, MP3, FLAC) et du texte, mais ses capacités multimodales restent significativement en retrait face à ChatGPT et Gemini. **Mistral** supporte l'upload d'images pour l'analyse mais n'offre **aucune fonctionnalité de caméra en direct**. --- ## 11. Utilisation de l'ordinateur et agentivité : Claude en avance nette L'utilisation autonome de l'ordinateur est le domaine où les écarts sont les plus marqués : | Benchmark OSWorld | Claude Opus 4.6 | Claude Sonnet 4.6 | GPT-5.2 | |---|---|---|---| | Score | **72,7 %** | **72,5 %** | 38,2 % | **Claude** domine largement avec **Claude Cowork** (janvier 2026), un outil agentique en interface graphique [DataCamp](https://www.datacamp.com/tutorial/claude-cowork-tutorial) qui fonctionne dans une VM isolée sur l'ordinateur local, [Claude](https://claude.com/product/cowork) capable de lire, éditer et créer des fichiers, [Claude](https://claude.com/blog/cowork-research-preview) planifier des tâches multi-étapes et coordonner des sous-agents en parallèle. [Claude](https://support.claude.com/en/articles/13345190-get-started-with-cowork) Disponible sur macOS et Windows pour les abonnés Pro+. [Claude Cowork](https://coworkerai.io/) [Claude Cowork](https://coworkerai.io/windows) Claude Code reste l'outil de codage agentique le plus populaire du marché, utilisé par des employés de Microsoft et Google. **ChatGPT Agent** (juillet 2025) combine Operator (navigation web) et Deep Research dans un mode « agent » unifié. [OpenAI](https://openai.com/index/introducing-chatgpt-agent/) L'agent CUA (Computer-Using Agent) prend des captures d'écran, raisonne et effectue des actions souris/clavier [Information Age](https://ia.acs.org.au/article/2025/openai-launches--computer-using--ai-agent-operator.html) dans un navigateur distant. [OpenAI](https://openai.com/index/o3-o4-mini-system-card-addendum-operator-o3/) [OpenAI](https://openai.com/index/introducing-operator/) Scores : **58,1 % sur WebArena**, **87 % sur WebVoyager**, mais seulement **38,1 % sur OSWorld** [OpenAI](https://openai.com/index/computer-using-agent/) [OpenAI](https://openai.com/index/new-tools-for-building-agents/) — loin de Claude. **Google Project Mariner** fonctionne comme extension Chrome [All About AI](https://www.allaboutai.com/ai-agents/project-mariner/) et peut gérer **jusqu'à 10 tâches simultanées** [Google](https://blog.google/products-and-platforms/products/google-one/google-ai-ultra/) dans des VM cloud. [TechCrunch](https://techcrunch.com/2025/05/20/google-rolls-out-project-mariner-its-web-browsing-ai-agent/) La fonction « Teach & Repeat » permet d'apprendre un processus en une démonstration. [Google](https://blog.google/innovation-and-ai/technology/ai/io-2025-keynote/) Score : **83,5 % sur WebVoyager**. [All About AI](https://www.allaboutai.com/ai-agents/project-mariner/) Réservé aux abonnés AI Ultra (249,99 $/mois), États-Unis uniquement. [CDO Magazine](https://www.cdomagazine.tech/aiml/google-expands-ai-web-browsing-agent-project-mariner-to-more-users-and-devs) **Grok** propose une API Agent Tools avec recherche web, recherche X, exécution de code [xAI](https://x.ai/news/grok-4-1-fast) et MCP, mais **pas d'utilisation directe de l'écran** comme Claude ou OpenAI. **Perplexity Computer** (février 2026) est la plateforme la plus ambitieuse d'orchestration multi-modèles : elle décompose un objectif en sous-tâches, les délègue à **19 modèles IA spécialisés** [Releasebot](https://releasebot.io/updates/perplexity-ai) (Claude Opus 4.6 pour le raisonnement, Gemini pour la recherche, Nano Banana pour les images, Veo 3.1 pour la vidéo, etc.) et coordonne leur exécution pendant des heures, voire des mois. Réservé aux abonnés Max (200 $/mois). [Glbgpt](https://www.glbgpt.com/hub/perplexity-price-in-2025/) [TechCrunch](https://techcrunch.com/2026/02/27/perplexitys-new-computer-is-another-bet-that-users-need-many-ai-models/) **Mistral** propose une API Agents avec mémoire persistante, orchestration multi-agents et connecteurs MCP (Asana, Notion, Google Drive, Zapier) mais **pas de contrôle GUI direct** de l'ordinateur. --- ## Tarification comparée : du gratuit au premium | Plateforme | Gratuit | Standard | Premium | API (entrée/sortie par MTok) | |---|---|---|---|---| | **ChatGPT** | Oui (limité, pubs) | Plus : 20 $/mois | Pro : 200 $/mois | 1,75 $ / 14,00 $ (GPT-5.2) | | **Claude** | Oui (limité) | Pro : 20 $/mois | Max : 100-200 $/mois | 3 $ / 15 $ (Sonnet 4.6) | | **Gemini** | Oui (Flash) | AI Pro : 19,99 $/mois | Ultra : 249,99 $/mois | 2 $ / 12 $ (3.1 Pro) | | **Mistral** | Oui | Pro : **14,99 $/mois** | Team : 24,99 $/user | ~2 $ / 6 $ (Large 3) | | **Grok** | Oui (via X) | SuperGrok : 30 $/mois | Heavy : 300 $/mois | 0,20 $ / 0,50 $ (4.1 Fast) | | **Perplexity** | Oui | Pro : 20 $/mois | Max : 200 $/mois | 1 $ / 1 $ (Sonar) | **Mistral** est le plus abordable à **14,99 $/mois** (6,99 $ pour les étudiants). **Grok 4.1 Fast** offre l'API la moins chère à **0,20 $/M tokens en entrée**. **Gemini Ultra** est le plus coûteux à **249,99 $/mois** mais inclut YouTube Premium, 30 To de stockage et Google Home Premium. OpenAI a introduit des publicités sur les paliers gratuit et Go en février 2026. --- ## Controverses et limites à connaître Plusieurs points méritent attention pour un choix éclairé. **Grok** fait face aux controverses les plus graves : génération d'images NSFW incluant des mineurs, biais politique délibéré dans les consignes système (instructions d'être « maximally based » et « politically incorrect »), départs de responsables sécurité, et enquêtes dans plusieurs pays. **OpenAI** a retiré tous les anciens modèles en février 2026, forçant une migration ; les hallucinations vocales restent élevées (33-48 %). **Claude** ne génère ni images ni vidéos — un écart croissant face à la concurrence multimédia. **Perplexity** fait l'objet de poursuites massives pour violation de copyright (NYT, Dow Jones, Tribune, BBC, journaux japonais) et utilise des crawlers furtifs contournant les robots.txt. **Gemini** a tendance à « deviner » plutôt qu'avouer son ignorance, et Project Mariner reste expérimental avec des problèmes de CAPTCHA et de boucles. **Mistral** reste en retrait sur le raisonnement avancé et les fonctionnalités multimodales face aux géants américains. --- ## En conclusion : quel outil pour quel usage ? Le paysage de l'IA début 2026 récompense la spécialisation plutôt que la fidélité à une seule plateforme. **Pour le codage**, Claude Code et son score OSWorld de 72,7 % restent inégalés. **Pour le raisonnement scientifique**, Gemini 3.1 Pro Deep Think avec 94,3 % sur GPQA Diamond est le choix optimal. **Pour la recherche web sourcée**, Perplexity et ses 93,9 % de précision factuelle justifient son statut de moteur de réponses. **Pour la multimodalité complète** (images, vidéo, voix, caméra), l'écosystème Google offre la suite la plus intégrée. **Pour les utilisateurs francophones et européens** soucieux de souveraineté des données, Mistral combine RGPD, open source et coûts compétitifs. **Pour le suivi temps réel des réseaux sociaux**, Grok reste unique malgré ses controverses. La stratégie adoptée par de nombreux utilisateurs avancés est pragmatique : **combiner deux abonnements** (typiquement Claude Pro + ChatGPT Plus pour 40 $/mois, ou Gemini Pro + Perplexity Pro pour ~40 $) afin de tirer parti des forces complémentaires. L'émergence de Perplexity Computer, qui orchestre 19 modèles simultanément, préfigure peut-être l'avenir : non pas choisir une IA, mais les utiliser toutes via une couche d'orchestration intelligente. --- Recherche faite à partir de l'infographie de Thibaut Roux. Post LinkedIn : https://www.linkedin.com/posts/thibaut-roux_chatgpt-est-bon-partout-mais-il-nest-le-activity-7433420916669169664-ubqn ![1000013185](https://hackmd.io/_uploads/HyyrxcZtbg.jpg) --- --- # Deuxième partie # Les 6 outsiders IA qui bousculent les géants en 2025-2026 **Six plateformes alternatives menacent désormais l'hégémonie de ChatGPT, Claude et Gemini.** DeepSeek a provoqué un véritable « moment Spoutnik » en janvier 2025 avec un modèle de raisonnement rivalisant avec les meilleurs — entraîné pour seulement 5,6 millions de dollars. Qwen d'Alibaba a répliqué en février 2026 avec un modèle revendiquant la parité avec GPT-5.2. [DataCamp](https://www.datacamp.com/blog/qwen3-5) [MLQ](https://mlq.ai/news/alibaba-launches-qwen-35-ai-model-with-superior-efficiency-and-agentic-features/) Pendant ce temps, deux assistants suisses (Lumo et Euria) misent tout sur la souveraineté des données, Manus AI redéfinit l'agentivité autonome avant d'être racheté par Meta pour 2-3 milliards de dollars, et Genspark atteint le statut de licorne en combinant recherche IA et workspace tout-en-un. Ce rapport analyse en profondeur ces six challengers sur 11 critères fonctionnels, avec benchmarks, tarifs et analyse réglementaire. --- ## 1. Lumo — L'assistant IA chiffré de bout en bout par Proton ### Description et positionnement Lumo est un assistant IA développé par **Proton AG**, entreprise suisse [Grokipedia](https://grokipedia.com/page/lumo-ai) basée à Genève, connue pour Proton Mail et Proton VPN. Lancé le **23 juillet 2025**, [Google Translate](https://translate.google.com/translate?u=https%3A%2F%2Fen.wikipedia.org%2Fwiki%2FLumo_%28AI_assistant%29&hl=es&sl=en&tl=es&client=srp) Lumo se positionne comme « la réponse européenne à ChatGPT » — un assistant dont la vie privée est le différenciateur principal, pas la puissance brute. Proton, détenue majoritairement par la fondation à but non lucratif Proton Foundation, [Google Translate](https://translate.google.com/translate?u=https%3A%2F%2Fen.wikipedia.org%2Fwiki%2FLumo_%28AI_assistant%29&hl=es&sl=en&tl=es&client=srp) n'a jamais levé de fonds externe : ses **100 millions d'utilisateurs** [Proton](https://proton.me/blog/lumo-ai) financent le développement. L'entreprise investit **100 millions d'euros** dans l'infrastructure européenne [Proton](https://proton.me/blog/lumo-ai) (Allemagne, Norvège), avec un objectif de 1 milliard CHF avant 2030. [Next](https://next.ink/193570/proton-lance-son-assistant-ia-lumo-et-demenage-ses-installations-en-allemagne/) **Modèles sous-jacents :** Lumo fonctionne comme un **routeur multi-modèles**, dirigeant chaque requête vers le modèle open-source le plus approprié parmi : Mistral Small 3 et Nemo (Mistral AI, France), **GPT-OSS 120B** (OpenAI), Kimi K2 (Moonshot AI), OpenHands 32B (NVIDIA/Qwen), OLMO 2 32B (Allen AI), Qwen (Alibaba), Ernie 4.5 VL 28B (Baidu), et Apertus. [Osai-index](https://osai-index.eu/news/lumo-proton-least-open/) Tous les modèles tournent exclusivement sur des serveurs européens contrôlés par Proton. [Proton](https://proton.me/blog/lumo-ai) [Proton](https://proton.me/support/lumo-privacy) L'algorithme de routage, les prompts système et les optimisations restent propriétaires — ce qui a valu à Lumo le titre d'« assistant 'open-source' le moins ouvert jamais indexé » par l'European Open Source AI Index (août 2025). [Osai-index](https://osai-index.eu/news/lumo-proton-least-open/) ### Évaluation sur les 11 critères **1. Réponses du quotidien :** ✅ Fonctionnalité centrale. Chat général, planification, brainstorming. Interface web, iOS et Android. [Grokipedia](https://grokipedia.com/page/lumo-ai) Pas de compte requis pour l'usage de base. [Lumo](https://lumo.proton.me/about) Supporte **11 langues** dont le français. [Lumo](https://lumo.proton.me/business) **2. Rédaction :** ✅ Rédaction d'emails, résumé de documents [UC Today](https://www.uctoday.com/unified-communications/proton-enters-ai-race-with-lumo-a-privacy-first-alternative-to-big-tech-chatbots/) (PDF, DOCX, TXT), personnalisation du ton et des traits de personnalité (v1.2, octobre 2025). Projets collaboratifs chiffrés via Proton Drive (v1.3, janvier 2026). [Help Net Security](https://www.helpnetsecurity.com/2026/01/14/proton-lumo-1-3-projects/) **3. Programmation :** ✅ Génération et débogage de code. [It's FOSS](https://itsfoss.com/news/proton-lumo-experience/) Proton revendique **+40%** d'amélioration en codage [AI Cloudbase](https://aicloudbase.com/tool/lumo-ai) (v1.1). [AI Cloudbase](https://aicloudbase.com/tool/lumo-ai) OpenHands 32B est spécialisé en code. [AI Business](https://aibusiness.pl/en/lumo-ai-asystent-ai-bez-kompromisow-w-prywatnosci/) Cependant, les capacités restent en deçà de ChatGPT ou Claude pour les tâches complexes. [LEBIGDATA.FR](https://www.lebigdata.fr/proton-lance-lumo-for-business-lia-confidentielle-ideale-pour-votre-entreprise) **4. Raisonnement :** ⚠️ Aucun benchmark Lumo publié. Les modèles sous-jacents performent bien (GPT-OSS 120B : MMLU-Pro **90,0%**, GPQA **80,9%**, AIME 2024 **96,6%** avec outils), [Clarifai](https://www.clarifai.com/blog/openai-gpt-oss-benchmarks-how-it-compares-to-glm-4.5-qwen3-deepseek-and-kimi-k2) mais les performances réelles de Lumo dépendent du routage non divulgué. Proton revendique **+200%** en raisonnement entre v1.0 et v1.1. [AI Cloudbase](https://aicloudbase.com/tool/lumo-ai) **5. Recherche approfondie :** ❌ Non disponible. Fonctionnalité demandée par la communauté (UserVoice) mais pas encore implémentée. **6. Recherche web :** ✅ Disponible mais **désactivée par défaut** pour protéger la vie privée. [UC Today](https://www.uctoday.com/unified-communications/proton-enters-ai-race-with-lumo-a-privacy-first-alternative-to-big-tech-chatbots/) Utilise des moteurs de recherche respectueux de la confidentialité. [Proton](https://proton.me/support/lumo-privacy) Pas de format de citations structuré confirmé. **7. Chat vocal :** ❌ Pas de mode vocal conversationnel. Speech-to-text disponible sur Android uniquement. **8. Génération d'images :** ❌ Non disponible. **9. Génération de vidéos :** ❌ Non disponible. **10. Caméra en direct / Multimodalité :** ❌ Aucune capacité multimodale (ne peut ni recevoir ni traiter images ou vidéos). [It's FOSS](https://itsfoss.com/news/proton-lumo-experience/) **11. Agentivité :** ❌ Non disponible. Aucune capacité d'agent autonome. ### Forces et limites Lumo brille par son **chiffrement à accès zéro** : Proton ne peut pas lire les conversations des utilisateurs, seuls les appareils de l'utilisateur détiennent les clés de déchiffrement. [AI Cloudbase](https://aicloudbase.com/tool/lumo-ai) [Proton](https://proton.me/support/lumo-privacy) La politique de zéro-logs, l'hébergement européen hors juridiction américaine, [CyberInsider](https://cyberinsider.com/proton-launches-privacy-first-open-source-ai-assistant-lumo/) et les certifications ISO 27001/SOC 2 Type II [AI Cloudbase](https://aicloudbase.com/tool/lumo-ai) en font l'option la plus sécurisée du marché. **TIME Magazine** l'a distingué parmi les « Meilleures inventions 2025 ». [Google Translate](https://translate.google.com/translate?u=https%3A%2F%2Fen.wikipedia.org%2Fwiki%2FLumo_%28AI_assistant%29&hl=es&sl=en&tl=es&client=srp) Cependant, l'absence de génération d'images, de mode vocal, de deep research et de multimodalité le place loin derrière les leaders en termes de fonctionnalités. [Neowin](https://www.neowin.net/news/proton-launches-lumo-privacy-focused-ai-assistant-with-encrypted-chats/) Plusieurs évaluateurs indépendants notent que « les capacités ne rivalisent pas encore avec ChatGPT ou Gemini ». [LEBIGDATA.FR](https://www.lebigdata.fr/proton-lance-lumo-for-business-lia-confidentielle-ideale-pour-votre-entreprise) ### Tarification | Plan | Prix | Caractéristiques | |------|------|------------------| | Invité (sans compte) | Gratuit | Questions limitées/semaine, pas d'historique | | Gratuit (compte Proton) | Gratuit | Plus de questions, historique chiffré, 1 projet | | Lumo Plus | **12,99 $/mois** (9,99 $ annuel) [CyberInsider](https://cyberinsider.com/proton-launches-privacy-first-open-source-ai-assistant-lumo/) | Chats illimités, réponses rapides, projets illimités | | Lumo Business | **14,99 $/utilisateur/mois** (11,99 $ intro) [GadgetBond](https://gadgetbond.com/proton-lumo-ai-assistant-business-availability/) | Outils admin, modèles avancés, priorité | | Proton Visionary | 39,99 €/mois (annuel) | Accès Lumo complet + suite Proton | --- ## 2. Euria — L'IA souveraine et écologique d'Infomaniak ### Description et positionnement Euria (acronyme de **É**thique, **U**niverselle, **R**esponsable, **I**ndépendante, **A**utonome) est un assistant IA lancé le **8 décembre 2025** par **Infomaniak**, [Nouvelles-technologies](https://www.nouvelles-technologies.eu/actualites/infomaniak-lance-euria-lia-souveraine-qui-protege-vos-donnees/) le plus grand hébergeur cloud suisse basé à Genève. [Yahoo Finance](https://finance.yahoo.com/news/infomaniak-launches-euria-free-sovereign-070000051.html) Fondée en 1994, Infomaniak est une entreprise 100% privée (pas d'investisseurs externes), [Wikipedia](https://en.wikipedia.org/wiki/Infomaniak) financée par ses revenus [Espritdegeneve](https://espritdegeneve.ch/infomaniak-lance-euria-lia-souveraine-made-in-suisse-qui-repense-lintelligence-artificielle-pour-les-particuliers-et-les-entreprises/) (~37,5 M$/an), employant ~235 personnes. [CompWorth](https://compworth.com/company/infomaniak-network-sa) Euria se différencie par un triple engagement : **souveraineté des données**, **respect de la vie privée** et **responsabilité écologique**. [Infomaniak](https://www.infomaniak.com/en/euria) Son centre de données D4 à Plan-les-Ouates (Genève) capture 100% de la chaleur résiduelle pour chauffer **jusqu'à 6 000 logements** en hiver, [Yahoo Finance](https://finance.yahoo.com/news/infomaniak-launches-euria-free-sovereign-070000051.html) économisant **3 600 tonnes de CO₂/an**. [WauwAI](https://wauwai.com/updates/switzerlands-quiet-ai-revolution-prioritises-privacy-and-green-energy/) **Modèles sous-jacents :** Comme Lumo, Euria est un assemblage de modèles open-source sélectionnés dynamiquement : **Qwen 3** (Alibaba, modèle principal pour les langues européennes), **Mistral** (famille Mistral AI), **Llama** (Meta), [Une IA par jour](https://www.uneiaparjour.fr/euria/) **DeepSeek**, **Granite** (IBM), et **Whisper** (OpenAI, pour la transcription audio). [Infomaniak](https://www.infomaniak.com/en/support/faq/1369/discover-euria-the-sovereign-and-free-ai-assistant) Tous tournent exclusivement sur les serveurs d'Infomaniak en Suisse. [Une IA par jour](https://www.uneiaparjour.fr/euria/) [Privacy Guides](https://discuss.privacyguides.net/t/infomaniak-launches-euria-a-free-and-sovereign-ai-that-respects-privacy-and-heats-homes/33682) ### Évaluation sur les 11 critères **1. Réponses du quotidien :** ✅ Chat Q&A standard, multimodal en entrée (documents, images, audio). [L'Éclaireur Fnac](https://leclaireur.fnac.com/article/642796-cest-quoi-euria-le-chatbot-ia-respectueux-de-vos-donnees/) Intégré à l'écosystème kSuite (kChat, Mail, kDrive, kMeet). [infomaniak](https://www.infomaniak.com/en/support/faq/1369/getting-started-guide-euria-the-free-and-sovereign-ai-assistant) **2. Rédaction :** ✅ Rédaction, reformulation, correction, traduction. [Infomaniak](https://www.infomaniak.com/en/apps/download-euria) [Infomaniak](https://www.infomaniak.com/en/euria) Fonctionne en français, anglais, allemand, italien et autres langues. Intégré à Infomaniak Mail pour la rédaction d'emails à partir de mots-clés. [Infomaniak](https://www.infomaniak.com/en/support/faq/1369/getting-started-guide-euria-the-free-and-sovereign-ai-assistant) [infomaniak](https://www.infomaniak.com/en/support/faq/1369/getting-started-guide-euria-the-free-and-sovereign-ai-assistant) **3. Programmation :** ⚠️ Capacités de codage décrites comme « basiques » — moins performantes que Le Chat/Mistral ou ChatGPT pour les tâches complexes. [lcsx](https://www.lcsx.tech/blog/actualites-1/euria-vs-le-chat-quel-assistant-ia-europeen-choisir-en-2026-86) **4. Raisonnement :** ⚠️ Raisonnement complexe supporté mais reconnu comme moins puissant que les modèles de pointe. Aucun benchmark publié. Le comparatif LCSX Tech (janvier 2026) note des performances « plus variables selon les tâches ». [lcsx](https://www.lcsx.tech/blog/actualites-1/euria-vs-le-chat-quel-assistant-ia-europeen-choisir-en-2026-86) **5. Recherche approfondie :** ❌ Pas de mode deep research documenté. **6. Recherche web :** ✅ Recherche web « intelligente » — activée automatiquement uniquement quand les connaissances internes sont insuffisantes (pour économiser de l'énergie). [L'Éclaireur Fnac](https://leclaireur.fnac.com/article/642796-cest-quoi-euria-le-chatbot-ia-respectueux-de-vos-donnees/) [Infomaniak](https://news.infomaniak.com/en/euria-sovereign-ai-assistant/) **Quotas journaliers limités** : 5 à 100 recherches/jour selon le plan. [infomaniak](https://www.infomaniak.com/en/support/faq/1369/getting-started-guide-euria-the-free-and-sovereign-ai-assistant) **7. Chat vocal :** ⚠️ Saisie vocale (dictée via Whisper) et transcription audio (réunions, messages vocaux). Pas de mode vocal conversationnel en temps réel. **8. Génération d'images :** ❌ Sur la feuille de route, mais pas encore disponible. [MacGeneration](https://www.macg.co/intelligence-artificielle/2025/12/euria-infomaniak-lance-un-concurrent-chatgpt-une-ia-hebergee-en-suisse-qui-chauffe-aussi-des-logements-305533) [AiThority](https://aithority.com/machine-learning/infomaniak-launches-euria-a-free-and-sovereign-ai-that-respects-privacy-and-heats-homes/) **9. Génération de vidéos :** ❌ Non disponible ni planifié. **10. Caméra en direct / Multimodalité :** ❌ Non disponible. Analyse d'images en entrée seulement (.jpg, .png, .webp). **11. Agentivité :** ❌ « Agents intelligents capables d'agir selon des instructions persistantes » figurent sur la feuille de route [Nouvelles-technologies](https://www.nouvelles-technologies.eu/actualites/infomaniak-lance-euria-lia-souveraine-qui-protege-vos-donnees/) [AiThority](https://aithority.com/machine-learning/infomaniak-launches-euria-a-free-and-sovereign-ai-that-respects-privacy-and-heats-homes/) — pas encore disponible. ### Forces et limites Le **mode éphémère** d'Euria est unique : les conversations ne laissent absolument aucune trace sur les serveurs, même Infomaniak ne peut les récupérer [AiThority](https://aithority.com/machine-learning/infomaniak-launches-euria-a-free-and-sovereign-ai-that-respects-privacy-and-heats-homes/) — idéal pour la santé, le juridique, la finance et l'administration publique. [Nouvelles-technologies](https://www.nouvelles-technologies.eu/actualites/infomaniak-lance-euria-lia-souveraine-qui-protege-vos-donnees/) [Yahoo Finance](https://finance.yahoo.com/news/infomaniak-launches-euria-free-sovereign-070000051.html) L'intégration profonde avec kSuite (email, Drive, visioconférence, VOD) offre un écosystème complet. Le positionnement écologique est authentiquement documenté (ISO 14001, ISO 50001, énergie 100% renouvelable). [Infomaniak](https://news.infomaniak.com/en/ethical-cloud/) Le prix est imbattable : **~1,60 €/mois** pour kSuite+ personnel. [GlobeNewswire](https://www.globenewswire.com/news-release/2025/12/09/3202064/0/en/Infomaniak-launches-Euria-a-free-and-sovereign-AI-that-respects-privacy-and-heats-homes.html) En revanche, les performances en codage et raisonnement avancé restent limitées, [Espritdegeneve](https://espritdegeneve.ch/infomaniak-lance-euria-lia-souveraine-made-in-suisse-qui-repense-lintelligence-artificielle-pour-les-particuliers-et-les-entreprises/) et plusieurs fonctionnalités clés (génération d'images, agents) ne sont pas encore disponibles. ### Tarification | Plan | Prix | Messages/jour | Recherches web/jour | |------|------|---------------|---------------------| | Gratuit (sans compte) | Gratuit | ~3-5 | Limité | | my kSuite (gratuit) | Gratuit | 20 | 5 | | my kSuite+ (personnel) | **~19-20 €/an** | 100 | 30 | | kSuite Pro (entreprise) | **~22,80 €/utilisateur/an** | Inclus | Inclus | | kSuite Enterprise | Sur devis | Illimité | 100 | --- ## 3. DeepSeek — Le « moment Spoutnik » de l'IA chinoise ### Description et positionnement DeepSeek, fondée en juillet 2023 à Hangzhou par **Liang Wenfeng** [Wikipedia](https://en.wikipedia.org/wiki/DeepSeek) (fondateur du hedge fund High-Flyer Quant, ~8-11 Mds$ d'actifs), est devenue le phénomène le plus disruptif de l'IA en 2025. [Wikipedia](https://en.wikipedia.org/wiki/DeepSeek) [Bardeen](https://www.bardeen.ai/answers/who-owns-deepseek) Avec seulement **~160-200 employés** (contre ~3 500 chez OpenAI) [Electro IQ](https://electroiq.com/stats/how-many-employees-does-deepseek-ai-have/) [Tom's Hardware](https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseek-clearly-not-interested-in-scaling-up-160-person-team-focused-on-developing-new-models) et un budget d'entraînement de **5,6 millions de dollars** pour DeepSeek-V3, [Wikipedia](https://en.wikipedia.org/wiki/DeepSeek) l'entreprise a démontré qu'il était possible de rivaliser avec les modèles frontière à une fraction du coût. Le 27 janvier 2025, DeepSeek-R1 a dépassé ChatGPT comme application gratuite n°1 sur l'App Store iOS, [Wikipedia](https://en.wikipedia.org/wiki/DeepSeek) provoquant une chute de **600 milliards de dollars** de la capitalisation boursière de Nvidia. [Wikipedia](https://en.wikipedia.org/wiki/DeepSeek) L'entreprise n'a accepté aucun financement externe [TechCrunch](https://techcrunch.com/2025/03/10/deepseek-isnt-taking-vc-money-yet-here-are-3-reasons-why/) et dispose de plus de **50 000 GPU Nvidia** (achetés avant les restrictions d'exportation). **Modèles principaux :** DeepSeek-V3/V3.1/V3.2 (modèles de chat, architecture Mixture-of-Experts 671B paramètres, 37B activés), [Open Laboratory](https://openlaboratory.ai/models/deepseek-r1-0528) [GitHub](https://github.com/deepseek-ai/DeepSeek-V3) DeepSeek-R1/R1-0528 (modèles de raisonnement), [Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-R1) DeepSeek-V3.2-Speciale (raisonnement maximal). Le V4, attendu en mars 2026, [Wikipedia](https://en.wikipedia.org/wiki/DeepSeek) [Ai505](https://ai505.com/deepseek-r2-preview-what-s-coming-from-china-s-ai-disruptor/) fait déjà l'objet de controverses géopolitiques (Reuters rapporte un accès anticipé donné à Huawei, [U.S. News & World Report](https://money.usnews.com/investing/news/articles/2026-02-25/exclusive-deepseek-withholds-latest-ai-model-from-us-chipmakers-including-nvidia-sources-say) des allégations d'entraînement sur puces Nvidia Blackwell en Chine). ### Évaluation sur les 11 critères **1. Réponses du quotidien :** ✅ chat.deepseek.com est **entièrement gratuit**, [Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-R1-0528) sans limite de messages ni abonnement. [Data Studios](https://www.datastudios.org/post/deepseek-free-plans-trials-and-subscriptions-token-grants-usage-caps-and-api-pricing-strategies) Applications iOS et Android. Deux modes : V3 (chat rapide) et DeepThink/R1 (raisonnement profond). Upload de fichiers (PDF, DOCX, TXT). [Data Studios](https://www.datastudios.org/post/all-deepseek-models-available-in-2025-full-list-for-web-app-and-api-with-reasoning-and-advanced-c) Contexte étendu à **1 million de tokens** (février 2026). [36Kr](https://eu.36kr.com/en/p/3683997437063044) **2. Rédaction :** ✅ Support multilingue solide. V3 surpasse GPT-4o et Claude sur les connaissances factuelles chinoises (Chinese SimpleQA). [arXiv](https://arxiv.org/html/2412.19437v1) R1-0528 inclut une récompense de cohérence linguistique pour réduire le mélange de langues. [ActuIA](https://www.actuia.com/en/news/deepseek-r1-0528-the-chinese-start-up-continues-to-compete-with-american-giants-with-an-update-to-its-flagship-model/) Score MMMLU (multilingue) : V3.1 à **82%** (vs 88% pour les meilleurs modèles américains). [National Institute of Standards and Technology](https://www.nist.gov/system/files/documents/2025/09/30/CAISI_Evaluation_of_DeepSeek_AI_Models.pdf) **3. Programmation :** ✅✅ Exceptionnellement fort. V3.2 SWE-bench Verified : **73,1%**. [Substack](https://recodechinaai.substack.com/p/deepseek-v32-make-scaling-laws-keep) LiveCodeBench V3.2-Exp : **74,1%**. R1 : **96,3e percentile** Codeforces. [Analyzify](https://analyzify.com/statsup/deepseek) Support de 338+ langages de programmation. [Dealroom.co](https://app.dealroom.co/companies/deepseek) V3.2 introduit le « thinking with tools » — raisonnement intégré avec appels d'outils. [DeepSeek](https://deepseek.ai/blog/deepseek-guide-2026) **4. Raisonnement :** ✅✅ Parmi les meilleurs du monde. Scores du V3.2-Speciale : AIME **96,0%**, HMMT **99,2%**, [Substack](https://recodechinaai.substack.com/p/deepseek-v32-make-scaling-laws-keep) IMOAnswerBench **84,5%**. Médailles d'or aux IOI 2025, ICPC World Finals, IMO 2025. [arXiv](https://arxiv.org/html/2512.02556v1) R1-0528 : GPQA Diamond **81,0%**, [DeepSeek](https://api-docs.deepseek.com/updates) HLE **17,7%** (doublé vs R1 original). [ActuIA](https://www.actuia.com/en/news/deepseek-r1-0528-the-chinese-start-up-continues-to-compete-with-american-giants-with-an-update-to-its-flagship-model/) [Medium](https://medium.com/@leucopsis/deepseeks-new-r1-0528-performance-analysis-and-benchmark-comparisons-6440eac858d6) L'évaluation NIST CAISI (septembre 2025) confirme que V3.1 surpasse les meilleurs modèles américains sur SWE-bench Verified (**66,7** vs 63,0). [National Institute of Standards and Technology](https://www.nist.gov/system/files/documents/2025/09/30/CAISI_Evaluation_of_DeepSeek_AI_Models.pdf) **5. Recherche approfondie :** ✅ R1 décrit comme « le premier modèle de raisonnement maîtrisant la recherche web ». [Profound](https://www.tryprofound.com/blog/deepseek-r1-model-to-master-web-search) V3.2-Speciale conçu exclusivement pour le raisonnement profond. [DeepSeek](https://deepseek.ai/blog/deepseek-guide-2026) Le contexte de 1M tokens permet de traiter des bases de code ou collections documentaires entières. **6. Recherche web :** ✅ Toggle « Search » intégré à l'interface de chat pour la recherche web en temps réel. Approche RAG : indexation initiale + crawling sélectif en temps réel. [NVIDIA](https://build.nvidia.com/deepseek-ai/deepseek-v3_1/modelcard) [Profound](https://www.tryprofound.com/blog/deepseek-r1-model-to-master-web-search) **7. Chat vocal :** ⚠️ Extension Chrome tierce pour l'entrée/sortie vocale. Pas de mode vocal natif comparable au Advanced Voice de ChatGPT. **8. Génération d'images :** ❌ DeepSeek ne génère pas d'images nativement. Janus-Pro existe en tant que modèle séparé pour la text-to-image. [Hitpaw](https://edimakor.hitpaw.com/ai-video-tools/can-deepseek-generate-videos.html) DeepSeek OCR 2 (janvier 2026) pour la compréhension d'images/documents. [Ai505](https://ai505.com/deepseek-r2-preview-what-s-coming-from-china-s-ai-disruptor/) **9. Génération de vidéos :** ❌ Aucune capacité de génération vidéo. [Hitpaw](https://edimakor.hitpaw.com/ai-video-tools/can-deepseek-generate-videos.html) **10. Caméra en direct / Multimodalité :** ⚠️ DeepSeek-VL gère l'entrée image+texte. R2 devrait introduire une multimodalité robuste (texte, images, audio, vidéo) [DeepSeek](https://deepseek.ai/blog/deepseek-r2-ai-model-launch-2025) [Overchat](https://overchat.ai/ai-hub/what-is-deepseek-r2) mais n'est pas encore sorti. **11. Agentivité :** ⚠️ V3.1 introduit des appels d'outils améliorés. [Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V3.1) V3.2 « Thinking in Tool-Use » — raisonnement avant les appels API, [Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale) vérification, auto-correction. [DeepSeek](https://deepseek.ai/blog/deepseek-guide-2026) Agent IA autonome annoncé (Yahoo Finance, septembre 2025) mais pas encore lancé publiquement. [Yahoo Finance](https://finance.yahoo.com/news/chinas-secret-ai-weapon-deepseeks-203053587.html) ### Benchmarks clés comparés | Benchmark | DeepSeek-V3.2-Speciale | DeepSeek-R1-0528 | GPT-4o | Claude 3.5 Sonnet | |-----------|------------------------|-------------------|--------|-------------------| | AIME 2025 | **96,0%** | 87,5% | — | — | | GPQA Diamond | — | **81,0%** | 65,0% | 49,9% | | MMLU | — | 90,8% (R1) | 88,3% | 87,2% | | SWE-bench Verified | **73,1%** (V3.2) | 57,6% | — | — | | HLE | **30,6%** (V3.2) | 17,7% | — | — | ### Forces et limites DeepSeek domine par son **rapport performance/prix imbattable** : le chat est gratuit [Data Studios](https://www.datastudios.org/post/deepseek-free-plans-trials-and-subscriptions-token-grants-usage-caps-and-api-pricing-strategies) et l'API est **20 à 50 fois moins chère** que celle d'OpenAI. [IntuitionLabs](https://intuitionlabs.ai/articles/deepseek-inference-cost-explained) [Costgoat](https://costgoat.com/pricing/deepseek-api) Les performances en raisonnement mathématique et en codage sont au niveau mondial. En revanche, les **risques de confidentialité sont majeurs** : données stockées en Chine, collecte de schémas de frappe clavier, [Analyzify](https://analyzify.com/statsup/deepseek) [Security Affairs](https://securityaffairs.com/179511/laws-and-regulations/gdpr-violations-prompt-germany-to-push-google-and-apple-to-ban-deepseek-ai.html) soumission potentielle à la loi sur le renseignement national chinoise de 2017. [CODECS.COM](https://www.free-codecs.com/news/is-deepseek-safe-privacy-concerns-security-flaws-and-global-bans-explained.htm) L'Italie a imposé un ban d'urgence, [Luizasnewsletter](https://www.luizasnewsletter.com/p/manus-ai-why-everyone-should-worry) [HIMSS](https://www.himss.org/news-center/deepseek-blocked-italy-due-privacy-risks-setting-significant-precedent/) l'Australie et Taïwan l'ont interdit sur les appareils gouvernementaux, la NASA et le Pentagone l'ont bloqué. [CODECS.COM](https://www.free-codecs.com/news/is-deepseek-safe-privacy-concerns-security-flaws-and-global-bans-explained.htm) L'évaluation NIST a révélé que les modèles DeepSeek sont « hautement susceptibles au jailbreaking » et assistent la majorité des requêtes malveillantes une fois déverrouillés. [National Institute of Standards and Technology](https://www.nist.gov/system/files/documents/2025/09/30/CAISI_Evaluation_of_DeepSeek_AI_Models.pdf) La censure sur les sujets politiquement sensibles [Fusionchat](https://fusionchat.ai/news/deepseek-r10528-vs-competitors-a-benchmark-breakdown) [AIMultiple](https://research.aimultiple.com/deepseek/) (85% de refus programmés promouvant les positions du PCC) reste un problème documenté. [Techdirt](https://www.techdirt.com/2025/01/31/deepseek-app-blocked-in-italy-after-privacy-complaint-under-eus-gdpr-irish-data-protection-commission-also-investigating/) ### Tarification API | Modèle | Input (cache hit) | Input (cache miss) | Output | |--------|-------------------|---------------------|--------| | deepseek-chat (V3.2) | **0,07 $/M tokens** | **0,27 $/M** | **1,10 $/M** | | deepseek-reasoner (V3.2) | 0,14 $/M | 0,55 $/M | 2,19 $/M | | **Chat web/mobile** | **Gratuit** | **Gratuit** | **Gratuit** [deepseek](https://api-docs.deepseek.com/quick_start/pricing-details-usd) | --- ## 4. Qwen — L'écosystème open-source le plus complet d'Alibaba ### Description et positionnement Qwen (通义千问, Tongyi Qianwen) est la famille de modèles IA d'**Alibaba Cloud**, [Wikipedia](https://en.wikipedia.org/wiki/Qwen) représentant l'un des écosystèmes open-source les plus étendus au monde avec **plus de 100 modèles sous licence Apache 2.0** et **40 millions de téléchargements**. [Wikipedia](https://en.wikipedia.org/wiki/Qwen) Le flagship **Qwen3.5-397B-A17B**, lancé le 16 février 2026, [Qwen](https://qwen.ai/) revendique la parité avec GPT-5.2 et Claude Opus 4.5 sur environ 80% des catégories évaluées. [DataCamp](https://www.datacamp.com/blog/qwen3-5) [Digital Applied](https://www.digitalapplied.com/blog/qwen-3-5-agentic-ai-benchmarks-guide) L'architecture innovante hybride Gated DeltaNet + MoE éparse (397B paramètres totaux, seulement 17B activés par passe avant) [NVIDIA](https://build.nvidia.com/qwen/qwen3.5-397b-a17b/modelcard) rend le modèle 60% moins cher et 8-19x plus rapide en décodage que la génération précédente. [Artificial Intelligence News](https://www.artificialintelligence-news.com/news/alibaba-qwen-challenging-proprietary-ai-model-economics/) **Modèles principaux :** Qwen3.5 (flagship LLM multimodal natif), [DataCamp](https://www.datacamp.com/blog/qwen3-5) Qwen3 (génération précédente), QwQ-32B (raisonnement), [Learn Prompting](https://learnprompting.org/blog/alibaba-qwq-32b-is-open-source) Qwen3-Coder-480B/Coder-Next (codage agentique), [Qwen](https://qwenlm.github.io/blog/qwen3-coder/) [Siliconflow](https://www.siliconflow.com/articles/en/the-best-qwen-models-in-2025) Qwen3-VL (vision-langage avec computer use), Qwen3-Omni (omnimodal : texte/image/audio/vidéo en entrée et sortie), [arXiv](https://arxiv.org/abs/2509.17765) Qwen-Image-2.0 (génération d'images), [Qwen](https://qwen.ai/) Qwen3-ASR (reconnaissance vocale), [Qwen](https://qwen.ai/) Qwen-MT (traduction 92 langues). [Alibaba Cloud](https://www.alibabacloud.com/help/en/model-studio/what-is-qwen-llm) ### Évaluation sur les 11 critères **1. Réponses du quotidien :** ✅ chat.qwen.ai disponible [DataCamp](https://www.datacamp.com/blog/qwen3-5) avec applications web, iOS, Android, macOS et Windows. [Qwen](https://qwen.ai/research) Mode Thinking (raisonnement profond) et Fast (réponses rapides). [DataCamp](https://www.datacamp.com/blog/qwen3-5) [Qwen](https://qwenlm.github.io/blog/qwen3/) Mode Auto avec utilisation adaptative d'outils. [DataCamp](https://www.datacamp.com/blog/qwen3-5) **2. Rédaction :** ✅✅ Qwen3.5 supporte **201 langues et dialectes** [Ollama](https://ollama.com/library/qwen3.5:35b) (contre 119 pour Qwen3, 82 pour Qwen2.5). [CNBC](https://www.cnbc.com/2026/02/17/china-alibaba-qwen-ai-agent-latest-model.html) Modèle de traduction spécialisé Qwen-MT pour **92 langues**. [Alibaba Cloud](https://www.alibabacloud.com/help/en/model-studio/what-is-qwen-llm) WritingBench : 7,90 pour Qwen3-32B. [arXiv](https://arxiv.org/pdf/2505.09388) Forte créativité et roleplay. **3. Programmation :** ✅✅ Qwen3-Coder-480B-A35B [Digital Applied](https://www.digitalapplied.com/blog/chinese-ai-models-kimi-k2-qwen-3-coder-glm-4-5) : SOTA parmi les modèles ouverts en codage agentique, [Siliconflow](https://www.siliconflow.com/articles/en/the-best-qwen-models-in-2025) comparable à Claude Sonnet 4. [Qwen](https://qwenlm.github.io/blog/qwen3-coder/) Qwen3-Coder-Next (80B/3B actifs) [Qwen](https://qwen.ai/) : SWE-Bench Verified **70,6%** [MarkTechPost](https://www.marktechpost.com/2026/02/03/qwen-team-releases-qwen3-coder-next-an-open-weight-language-model-designed-specifically-for-coding-agents-and-local-development/) — s'exécute localement. [Analytics Vidhya](https://www.analyticsvidhya.com/blog/2026/02/qwen3-coder-next/) CLI Qwen Code compatible avec Claude Code et Cline. [Qwen](https://qwenlm.github.io/blog/qwen3-coder/) [Alibaba Cloud](https://www.alibabacloud.com/help/en/model-studio/qwen-coder) **4. Raisonnement :** ✅✅ Qwen3.5-397B : GPQA Diamond **88,4%**, [DataCamp](https://www.datacamp.com/blog/qwen3-5) [Digital Applied](https://www.digitalapplied.com/blog/qwen-3-5-agentic-ai-benchmarks-guide) AIME 2026 **93,3%**, HMMT Feb 2026 **87,9%**, HLE **28,7%** (48,3% vérifié). [Hugging Face](https://huggingface.co/Qwen/Qwen3.5-397B-A17B) Modèles medium Qwen3.5-122B-A10B : GPQA **86,6%**, BFCL-V4 **72,2%** (surpasse GPT-5 mini à 55,5%). [Digital Applied](https://www.digitalapplied.com/blog/qwen-3-5-medium-model-series-benchmarks-pricing-guide) **5. Recherche approfondie :** ✅ Fonctionnalité Deep Research disponible dans Qwen Chat : agent intelligent effectuant des recherches web multi-étapes avec rapports analytiques complets. [Qwen](https://qwen.ai/) **6. Recherche web :** ✅ Qwen3-Max supporte nativement les agents de recherche. Outils intégrés : web search, web extractor, code interpreter. [Alibaba Cloud](https://www.alibabacloud.com/help/en/model-studio/models) Interface API compatible OpenAI Responses. [Alibaba Cloud](https://www.alibabacloud.com/help/en/model-studio/qwen-api-reference/) **7. Chat vocal :** ✅✅ Qwen3-Omni : architecture Thinker-Talker, entrée texte/image/audio/vidéo, sortie texte + audio + images + vidéo. SOTA sur **32/36 benchmarks audio**. Latence premier paquet : **234 ms**. [arXiv](https://arxiv.org/abs/2509.17765) Qwen2.5-Omni : chat vocal en temps réel. [GitHub](https://github.com/QwenLM/Qwen2.5-Omni) **8. Génération d'images :** ✅✅ Qwen-Image-2.0 (février 2026) : 7B paramètres, résolution native 2K, infographies professionnelles, posters, comics, PPT. [GitHub](https://github.com/QwenLM/Qwen-Image) [Qwen](https://qwen.ai/) Qwen-Image-2512 : modèle d'image open-source **#1 sur AI Arena**. [Open Source For You](https://www.opensourceforu.com/2026/01/alibaba-launches-open-source-qwen-image-2512-as-a-serious-alternative-to-googles-image-ai/) Prix API : **0,075 $/image**. [Open Source For You](https://www.opensourceforu.com/2026/01/alibaba-launches-open-source-qwen-image-2512-as-a-serious-alternative-to-googles-image-ai/) **9. Génération de vidéos :** ⚠️ Qwen3-Omni peut générer de la vidéo (sorties multimodales mixtes). [Wikipedia](https://en.wikipedia.org/wiki/Qwen) Le modèle de génération vidéo principal d'Alibaba est **Wan**, distinct de Qwen. **10. Caméra en direct / Multimodalité :** ✅ Qwen3.5 est nativement multimodal visuel (early fusion). [DataCamp](https://www.datacamp.com/blog/qwen3-5) [Innfactory](https://innfactory.ai/en/ai-models/qwen/) Qwen3-VL traite jusqu'à **2 heures de vidéo**. [MLQ](https://mlq.ai/news/alibaba-launches-qwen-35-ai-model-with-superior-efficiency-and-agentic-features/) Qwen3-Omni accepte texte/image/audio/vidéo simultanément. [Hugging Face](https://huggingface.co/Qwen/Qwen2.5-Omni-7B) **11. Agentivité :** ✅✅ Qwen2.5-VL et Qwen3-VL : capacités de **computer use** et phone use [Qwen](https://qwenlm.github.io/blog/qwen2.5-vl/) (captures d'écran, détection d'éléments UI, exécution de tâches multi-étapes). Qwen3.5 : capacités agentiques visuelles natives — opère autonomement sur applications mobiles et desktop. [Digital Applied](https://www.digitalapplied.com/blog/qwen-3-5-agentic-ai-benchmarks-guide) Support MCP natif. [Qwen](https://qwenlm.github.io/blog/qwen3/) RL agentique avec 20 000 environnements parallèles. [Qwen](https://qwenlm.github.io/blog/qwen3-coder/) ### Benchmarks phares (Qwen3.5-397B-A17B) | Benchmark | Qwen3.5-397B | GPT-5.2 (ref.) | Claude Opus 4.5 (ref.) | |-----------|-------------|-----------------|------------------------| | GPQA Diamond | **88,4%** | ~86-88% | ~85-87% | | AIME 2026 | **93,3%** | — | — | | HLE (vérifié) | **48,3%** | — | — | | LiveCodeBench v6 | **83,6%** | — | — | | MMMLU | **88,5%** | — | — | | SWE-Bench (27B) | **72,4%** | — | — | ### Forces et limites La force principale de Qwen est l'**étendue de son écosystème open-source** : des modèles de 0,6B à 480B paramètres, couvrant le texte, la vision, l'audio, la génération d'images, le codage, la traduction et l'agentivité, le tout sous Apache 2.0. La possibilité de **self-hosting** (auto-hébergement) contourne les problèmes RGPD. Le Qwen3.5-35B-A3B fonctionne sur **8 Go de VRAM**, [Unsloth AI](https://unsloth.ai/docs/models/qwen3.5) rendant l'IA de pointe accessible sur du matériel grand public. Les limites incluent l'absence de centre de données dédié en UE pour l'API (données à Singapour ou en Chine), des benchmarks en partie auto-rapportés, et des restrictions de contenu alignées sur la réglementation chinoise. ### Tarification | Modèle | Input (par 1M tokens) | Output (par 1M tokens) | |--------|----------------------|------------------------| | Qwen-Max (qwen3-max) ≤32K | **1,20 $** | **6,00 $** | | Qwen-Plus (qwen3.5-plus) ≤256K | **0,40 $** | **1,20 $** (non-thinking) | | Qwen-Flash (qwen3.5-flash) | ~0,10 $ | ~0,30 $ | | Qwen-Image-2.0 | — | **0,075 $/image** | | Modèles open-source (self-hosted) | **Gratuit** | **Gratuit** | --- ## 5. Manus AI — L'agent autonome racheté par Meta ### Description et positionnement Manus est un **agent IA autonome** — pas un chatbot — développé initialement par **Butterfly Effect Pte Ltd** (anciennement Monica AI), fondée en 2022 à Pékin par **Xiao Hong**. [SEOpital](https://www.seopital.co/blog/manus-ai-agent) Lancé le **6 mars 2025**, il a attiré **2 millions d'inscrits** sur liste d'attente en une semaine. Son architecture multi-agents (Planner, Executor, Knowledge, Verification) utilisant **29 outils** dans un environnement Linux sandboxé lui permet d'**exécuter des tâches de bout en bout** — recherche, codage, déploiement web, analyse de données — de manière autonome et asynchrone. En décembre 2025, **Meta l'a acquis pour 2-3 milliards de dollars**, une transaction désormais sous investigation par le ministère chinois du Commerce. **Modèles sous-jacents :** Manus n'a pas de LLM propriétaire. Il utilise principalement **Claude 3.7 Sonnet** (Anthropic) et des versions fine-tunées de **Qwen** (Alibaba), sélectionnés dynamiquement. Pour les présentations : **Gemini 3 Pro** (Google) via « Nano Banana Pro ». Versions actuelles : Manus 1.6 Max, 1.6, 1.6 Lite. ### Évaluation sur les 11 critères **1. Réponses du quotidien :** ✅ Mode chat gratuit et illimité pour tous les utilisateurs. Applications iOS, Android, Windows. **2. Rédaction :** ✅ Création d'articles, documentation technique, matériaux marketing, présentations complètes. Exportation PPTX, Google Slides, PDF. **3. Programmation :** ✅✅ Environnement sandbox complet avec Python, JavaScript, React, TypeScript, Java, C++. Peut construire des applications web et mobiles full-stack à partir d'un seul prompt. Tests intégrés. Capacité de développement mobile (Manus 1.6). **4. Raisonnement :** ✅ Benchmark GAIA : Niveau 1 **86,5%**, Niveau 2 **70,1%**, Niveau 3 **57,7%** (contre 74,3%/69,1%/47,6% pour OpenAI Deep Research). Scores auto-rapportés, non vérifiés indépendamment. **5. Recherche approfondie :** ✅✅ « Wide Research » (juillet 2025) : déploie **100+ agents parallèles** simultanément pour des tâches de recherche massive. L'une des capacités de recherche les plus étendues du marché. **6. Recherche web :** ✅ Navigation web autonome complète, extraction d'informations, remplissage de formulaires, procédures multi-étapes. **7. Chat vocal :** ⚠️ Transcription de messages vocaux et interprétation d'intention. Pas de mode vocal conversationnel natif. **8. Génération d'images :** ✅ Capacités de design IA, visuels personnalisés, avatars IA à partir de photos/texte. Design View interactif (Manus 1.6). **9. Génération de vidéos :** ✅ Génération text-to-video (lancée juin 2025). Planification de scènes, génération de visuels, animation, montage. **10. Caméra en direct / Multimodalité :** ❌ Non documenté. **11. Agentivité :** ✅✅✅ **C'est la spécialité de Manus.** Exécution autonome de tâches complexes multi-étapes, fonctionnement en arrière-plan (cloud asynchrone), navigateur autonome, intégrations Gmail/Calendar/Notion/Slack. « Manus Agents » sur Telegram (février 2026), WhatsApp/Discord/Slack prévus. Interface transparente montrant l'exécution en temps réel. ### Forces et limites Manus est le **seul agent véritablement autonome** de cette sélection : là où les chatbots aident à réfléchir, Manus **fait le travail**. Son **ARR de 100 M$+** en 8 mois valide la demande pour l'agentivité. Le mode Wide Research avec 100+ agents parallèles est unique. Les limites sont significatives : le système de crédits est **imprévisible** (les crédits ne sont pas reportés, les coûts varient), les utilisateurs rapportent des boucles infinies, des erreurs factuelles et des tâches échouées. Les **préoccupations de confidentialité** persistent malgré le déménagement à Singapour : les origines chinoises, la loi sur le renseignement national, et l'accusation d'Anthropic (février 2026) de scraping de Claude avec des milliers de comptes frauduleux assombrissent le tableau. ### Tarification | Plan | Prix mensuel | Crédits | Tâches simultanées | |------|-------------|---------|---------------------| | Gratuit | 0 $ | 300/jour + 1 000 initiaux | 1 | | Starter | **~19 $/mois** | 1 900 + 1 900 promo | 2 | | Plus | **~39 $/mois** | 3 900 + 3 900 promo | 3 | | Pro | **~99-199 $/mois** | 8 000-19 900 + promo | 10-20 | | Team | Sur devis | 3 900/membre | Multiple | --- ## 6. Genspark — Le workspace IA tout-en-un devenu licorne ### Description et positionnement Genspark, opéré par **MainFunc, Inc.** (Palo Alto, Californie), a évolué d'un moteur de recherche IA à un **workspace IA tout-en-un** visant à « mettre le travail routinier en pilote automatique » pour 1 milliard+ de travailleurs du savoir. Fondée en 2023 par **Eric Jing** (fondateur de Bing chez Microsoft), **Kay Zhu** (pionnier du ranking IA chez Google) et **Wen Sang** (PhD MIT, ex-fondateur Y Combinator), la société a atteint le statut de **licorne en novembre 2025** (valorisation 1,25 Md$) après avoir levé **460 M$ au total**. Son architecture propriétaire « Mixture-of-Agents » orchestre **70+ modèles IA** (GPT, Claude, Gemini, DeepSeek…), **150+ outils** et **20+ datasets premium**. ### Évaluation sur les 11 critères **1. Réponses du quotidien :** ✅ Chat IA avec vérification croisée multi-modèles pour réduire les hallucinations. Réponses avec traçabilité du raisonnement. **2. Rédaction :** ✅✅ AI Docs : rédaction autonome de documents professionnels avec centaines de templates intelligents. AI Slides : présentations de qualité professionnelle à partir d'un seul prompt, avec mode créatif (Workspace 2.0). Exportation PDF/PPTX. **3. Programmation :** ✅ AI Developer : construction autonome de sites web, applications natives et jeux. Intégration GitHub complète (édition de code, pull requests). Génération de jeux HTML/CSS/JS fonctionnels. Les résultats déployés diffèrent parfois des aperçus. **4. Raisonnement :** ✅ Score GAIA revendiqué : **87,8%** (vs 86,5% pour Manus, 67,9% pour OpenAI Deep Research). Score auto-rapporté, vérification indépendante recommandée. **5. Recherche approfondie :** ✅✅ Autopilot Agent : navigation autonome, collecte d'informations multi-sources, accès à des bases de données premium. Rapports de recherche complets avec citations de 8+ sources. Temps : ~30 minutes pour l'analyse de recherche profonde d'un million de mots. **6. Recherche web :** ✅✅ **Spécialité originelle de Genspark.** Sparkpages : pages web dynamiques générées en temps réel synthétisant l'information de multiples sources, sans biais publicitaire. Chaque Sparkpage inclut un copilote IA intégré pour les questions de suivi. Vérification en temps réel contre des bases autorisées. **7. Chat vocal :** ✅✅ « Call for Me » : passe de **vrais appels téléphoniques** avec voix synthétique (via Twilio). Gère les réservations, les menus automatiques, les communications. Speakly (Workspace 2.0) : application voice-to-text macOS/Windows, 4x plus rapide que la saisie. **8. Génération d'images :** ✅✅ Accès à FLUX, Ideogram V3, Recraft V3, Nano Banana Pro 2K/4K, GPT Image, Seedream 4.5. Génération **illimitée** sur les plans payants (sans crédits jusqu'au 31 décembre 2026). AI Designer : logos, posters, memes, réseaux sociaux. **9. Génération de vidéos :** ✅ Accès à **Sora 2, Veo 3.1, Kling V2.5**. Création de reels, épisodes animés, contenu vidéo avec audio. Consomme des crédits. **10. Caméra en direct / Multimodalité :** ⚠️ Multimodalité en entrée/sortie (images, vidéo, audio, documents), mais pas de mode caméra en direct documenté. **11. Agentivité :** ✅✅ Super Agent orchestrateur central. AI Browser avec Autopilot Mode : navigation autonome, IA on-device avec **169 modèles open-weight locaux**, MCP Store (700+ outils : Discord, GitHub, Notion, Slack…). Agent Builder : création d'agents personnalisés en quelques minutes. ### Forces et limites Genspark est la plateforme **la plus complète fonctionnellement** de cette sélection : slides, documents, tableurs, code, images, vidéos, audio, podcasts, appels téléphoniques, email, et recherche — le tout dans un seul workspace. La vérification croisée multi-modèles réduit les hallucinations. Le navigateur IA avec 169 modèles locaux est unique. L'AI Browser est **entièrement gratuit**. Les limites incluent des plaintes sur le support client, des problèmes de facturation et consommation de crédits imprévisible, des écarts entre aperçus et résultats déployés, et l'absence de certification RGPD explicite (données stockées sur Microsoft Azure, requêtes transmises à OpenAI/Anthropic). ### Tarification | Plan | Prix mensuel | Crédits/mois | Stockage | |------|-------------|-------------|----------| | Gratuit | 0 $ | 100/jour | 1 Go | | Plus | **24,99 $/mois** (19,99 $ annuel) | 10 000 | 50 Go | | Pro | **249,99 $/mois** (199,99 $ annuel) | 125 000 | 1 To | | Team | **30 $/utilisateur/mois** | 12 000/siège | — | --- ## Tableau comparatif des tarifs | Plateforme | Gratuit | Plan individuel | Plan pro/business | API (input/output par 1M tokens) | |------------|---------|-----------------|-------------------|----------------------------------| | **Lumo** | ✅ Limité | 12,99 $/mois | 14,99 $/utilisateur/mois | Non disponible | | **Euria** | ✅ 20 msg/jour | ~1,60 €/mois (kSuite+) | ~1,90 €/utilisateur/mois | API compatible OpenAI | | **DeepSeek** | ✅ **Illimité** | Gratuit (pas d'abonnement) | — | **0,27 $ / 1,10 $** (V3.2) | | **Qwen** | ✅ Quotas | Variable selon région | Alibaba Cloud | **0,40 $ / 1,20 $** (Plus) | | **Manus** | ✅ 300 crédits/jour | 39 $/mois (Plus) | 99-199 $/mois (Pro) | Non disponible (agent) | | **Genspark** | ✅ 100 crédits/jour | 24,99 $/mois (Plus) | 249,99 $/mois (Pro) | Non disponible (workspace) | **Euria est de loin le plus abordable** (~20 €/an), suivi de DeepSeek (entièrement gratuit pour le chat). Manus et Genspark Pro sont les plus coûteux en raison de leur modèle à crédits. --- ## Tableau comparatif des benchmarks | Benchmark | DeepSeek V3.2-S | Qwen3.5-397B | Manus (GAIA) | Genspark (GAIA) | Lumo | Euria | |-----------|----------------|--------------|--------------|-----------------|------|-------| | **GPQA Diamond** | ~81% (R1-0528) | **88,4%** | — | — | Non publié | Non publié | | **AIME 2025/26** | **96,0%** | 93,3% (2026) | — | — | Non publié | Non publié | | **MMLU-Pro** | ~89,8% (V3.1) | ~88%+ | — | — | Non publié | Non publié | | **HLE** | **30,6%** (V3.2) | 28,7% / 48,3% | — | — | Non publié | Non publié | | **SWE-bench Verified** | **73,1%** (V3.2) | 72,4% (27B) | — | — | Non publié | Non publié | | **GAIA (global)** | — | — | **66%** | **87,8%*** | — | — | | **LiveCodeBench** | 74,1% (V3.2-Exp) | **83,6%** | — | — | Non publié | Non publié | *Score auto-rapporté par Genspark. Ni Lumo ni Euria ne publient de benchmarks standardisés, rendant la comparaison directe impossible — leurs performances dépendent du routage vers leurs modèles sous-jacents. DeepSeek et Qwen dominent nettement les benchmarks académiques, avec des performances au niveau ou au-dessus des leaders occidentaux. Manus et Genspark excellent sur le benchmark GAIA (tâches autonomes), une catégorie où les chatbots traditionnels performent médiocrement. --- ## RGPD, confidentialité et enjeux réglementaires ### Les champions de la souveraineté : Lumo et Euria Lumo et Euria partagent un positionnement similaire mais avec des approches distinctes. **Lumo offre le chiffrement le plus fort** : chiffrement à accès zéro (Proton ne peut pas lire les conversations), politique de zéro-logs, certifications ISO 27001 et SOC 2 Type II, hébergement en Allemagne et Norvège. **Euria mise sur le mode éphémère** : les conversations ne laissent aucune trace, même pour Infomaniak — une garantie architecturale plutôt que contractuelle. Les deux hébergent toutes les données en Europe, n'utilisent jamais les conversations pour entraîner les modèles, et ne partagent rien avec des tiers. Une nuance importante : **ni Lumo ni Euria ne sont françaises** — les deux sont suisses (Genève). Cependant, la Suisse bénéficie d'une décision d'adéquation de la Commission européenne, offrant un niveau de protection des données équivalent au RGPD. Les deux sont donc pleinement conformes au RGPD et au droit suisse (LPD/FADP). ### Les risques chinois : DeepSeek et Qwen Les préoccupations sont substantiellement différentes pour les plateformes chinoises. **DeepSeek stocke toutes les données sur des serveurs en Chine**, collecte les emails, téléphones, historiques de chat, schémas de frappe clavier, adresses IP et systèmes d'exploitation des utilisateurs. La loi chinoise sur le renseignement national (2017) permet aux autorités d'exiger l'accès aux données sans notification des utilisateurs. L'Italie a été la première à imposer un ban d'urgence RGPD en janvier 2025, suivie par des enquêtes en France, Allemagne, Irlande, Belgique et Pays-Bas. DeepSeek **n'a aucun bureau ni représentant légal dans l'UE**, compliquant l'application du RGPD. **Qwen/Alibaba** pose des risques similaires mais avec une nuance cruciale : la vaste majorité des modèles Qwen sont sous **licence Apache 2.0**, permettant l'auto-hébergement sur infrastructure européenne. Cette approche, recommandée par le cabinet allemand innFactory, contourne les problèmes de transfert de données. L'API Alibaba Cloud stocke les données à Singapour (mode international) ou en Virginie (mode US) — aucun centre de données européen dédié à l'IA n'est disponible. ### Les zones grises : Manus et Genspark **Manus**, malgré son siège à Singapour et son rachat par Meta, a été fondé et développé en Chine. Le Tennessee est devenu le premier État américain à l'interdire sur les réseaux gouvernementaux. La chercheuse en IA Luiza Jarovsky a signalé des préoccupations sur la localisation des données et une politique de confidentialité apparemment générée par IA. **Genspark** (Palo Alto) stocke les données sur Microsoft Azure et transmet les requêtes aux API d'OpenAI et Anthropic — pas de certification RGPD explicite, mais conformité aux lois sur la vie privée des États américains et transferts depuis l'EEE avec « garanties appropriées ». Le navigateur IA Genspark, avec ses modèles on-device, offre une alternative locale sans envoi de données. --- ## Qui choisir face aux leaders ? Ces six outsiders ne se battent pas sur le même terrain. Ils occupent des niches distinctes que les géants (GPT-5.2, Claude 4.6, Gemini 3.1 Pro) négligent ou sous-estiment. **Pour la souveraineté des données et la conformité RGPD**, Lumo et Euria sont sans équivalent parmi les leaders. Aucun produit d'OpenAI, Anthropic ou Google n'offre de chiffrement à accès zéro ni de mode éphémère sans trace. **Euria** est le choix le plus abordable (~20 €/an) pour les TPE, PME et indépendants européens cherchant un assistant IA quotidien respectueux de la vie privée. **Lumo** conviendra aux utilisateurs déjà intégrés dans l'écosystème Proton ou ayant des besoins de confidentialité extrêmes (avocats, médecins, finance). **Pour la performance brute au meilleur prix**, DeepSeek et Qwen rivalisent frontalement avec les leaders. DeepSeek V3.2-Speciale obtient des médailles d'or en compétitions internationales de mathématiques et d'informatique. Qwen3.5 revendique la parité avec GPT-5.2 sur 80% des évaluations. Leurs API sont **10 à 50 fois moins chères** que celles d'OpenAI. Les modèles open-source de **Qwen** constituent la recommandation la plus pragmatique pour les entreprises européennes : performances de pointe, auto-hébergement possible sur infrastructure européenne, coût nul pour les modèles. Les données sensibles ne quittent jamais le territoire. **Pour l'automatisation et l'agentivité**, Manus et Genspark représentent un paradigme différent. Ce ne sont pas des assistants conversationnels mais des **exécutants autonomes**. Manus excelle dans l'exécution de tâches complexes de bout en bout (développement web, analyse de données, recherche étendue). Genspark offre le workspace le plus complet avec le spectre fonctionnel le plus large : recherche, slides, documents, code, images, vidéos, podcasts et même appels téléphoniques — le tout orchestré par 70+ modèles. Pour les professionnels cherchant à automatiser le travail routinier, **Genspark** offre le meilleur rapport fonctionnalités/prix, tandis que **Manus** (désormais adossé à Meta) reste le leader en autonomie pure. Le paysage de l'IA n'est plus un duopole américano-chinois. C'est un écosystème fragmenté où la souveraineté, le coût, l'agentivité et la spécialisation créent des espaces que les géants ne peuvent pas tous occuper simultanément. Les outsiders ne remplacent pas les leaders — ils prouvent que l'avenir de l'IA sera pluriel. --- ## Remerciements Ce rapport a été élaboré à partir de sources multiples incluant les documentations officielles de Proton AG, Infomaniak, DeepSeek, Alibaba Cloud, Manus/Butterfly Effect et MainFunc/Genspark ; les évaluations du NIST CAISI ; les publications sur arXiv et HuggingFace ; les articles de CNBC, Reuters, Bloomberg, VentureBeat, TechCrunch, The Verge et Engadget ; les comparatifs de LCSX Tech, Le Big Data, L'Usine Digitale et MacGeneration ; ainsi que les retours communautaires sur Reddit, UserVoice et les stores d'applications. Les benchmarks cités proviennent des publications officielles des développeurs, des articles évalués par les pairs et du rapport NIST CAISI (septembre 2025) — les scores auto-rapportés par les développeurs ont été systématiquement signalés comme tels. Toutes les informations tarifaires sont vérifiées au 1er mars 2026 et susceptibles d'évoluer. --- --- # Troisième partie # Trois nouveaux LLM généralistes pour le guide comparatif IA 2025-2026 **Les trois plateformes sélectionnées — Meta Llama 4, Cohere Command A et Microsoft Copilot/Phi-4 — représentent trois philosophies radicalement différentes de l'IA généraliste.** Meta mise sur l'open-weight et l'intégration dans un écosystème de 4 milliards d'utilisateurs, Cohere se positionne comme la solution enterprise-first avec une excellence en RAG et souveraineté des données, et Microsoft déploie une stratégie d'intégration massive dans Windows, Office et GitHub. Ensemble, ces trois acteurs couvrent des segments essentiels absents du guide actuel : l'IA open-source à grande échelle, l'IA d'entreprise spécialisée, et l'écosystème logiciel le plus répandu au monde. --- # 1. META LLAMA 4 ## Présentation de l'entreprise **Meta Platforms, Inc.** (anciennement Facebook), fondée en 2004 par Mark Zuckerberg, est l'un des plus gros investisseurs mondiaux en IA. La division IA est structurée autour de **Meta Superintelligence Labs (MSL)**, créée en juin 2025 sous la direction d'Alexandr Wang (ex-CEO de Scale AI, acquise pour **14,3-15 milliards $**). [Built In](https://builtin.com/artificial-intelligence/meta-superintelligence-labs) Yann LeCun, ancien Chief AI Scientist et figure emblématique de FAIR (Fundamental AI Research), a quitté Meta en novembre 2025 [Slashdot](https://tech.slashdot.org/story/26/01/02/1449227/results-were-fudged-departing-meta-ai-chief-confirms-llama-4-benchmark-manipulation) pour fonder AMI Labs. [Built In](https://builtin.com/artificial-intelligence/meta-superintelligence-labs) | Donnée | Valeur | |--------|--------| | **Chiffre d'affaires 2025** | ~201 milliards $ (+22 % YoY) | | **Capitalisation boursière** | ~1 560 milliards $ | | **CapEx IA 2025** | 72,2 milliards $ | | **CapEx IA prévu 2026** | 115-135 milliards $ | | **Parc GPU** | 1,3 million de GPU fin 2025 | | **Utilisateurs Meta AI** | 1 milliard MAU (T1 2025) | | **Centres de données** | 30 planifiés (26 aux USA), capacité >10 GW fin 2026 | **Llama 4 a été lancé le 5 avril 2025** (Scout et Maverick disponibles immédiatement). [VentureBeat](https://venturebeat.com/ai/metas-answer-to-deepseek-is-here-llama-4-launches-with-long-context-scout-and-maverick-models-and-2t-parameter-behemoth-on-the-way) [Skywork](https://skywork.ai/blog/meta-llama-4-open-weights-2025/) Behemoth, le modèle phare à 2 000 milliards de paramètres, a été annoncé le même jour mais **n'a jamais été publié** [Skywork](https://skywork.ai/blog/llama-4-behemoth-open-source-2025/) — Meta a réorienté ses efforts vers les modèles de prochaine génération (noms de code « Mango » et « Avocado », prévus S1 2026). ## Architecture des modèles La famille Llama 4 repose sur une architecture **Mixture of Experts (MoE)** [meta](https://ai.meta.com/blog/llama-4-multimodal-intelligence/) avec **iRoPE** (interleaved Rotary Position Embeddings) et une fusion multimodale précoce (early fusion) [Together AI](https://www.together.ai/llama) via un encodeur vision basé sur MetaCLIP. [Apidog](https://apidog.com/blog/llama-4-api/) [meta](https://ai.meta.com/blog/llama-4-multimodal-intelligence/) | Spécification | Llama 4 Scout | Llama 4 Maverick | Llama 4 Behemoth | |--------------|---------------|------------------|------------------| | **Paramètres totaux** | 109 milliards | ~400 milliards (402B) | ~2 000 milliards | | **Paramètres actifs/token** | 17 milliards | 17 milliards | 288 milliards | | **Nombre d'experts** | 16 (MoE complet) | 128 routés + 1 partagé | 16 | | **Fenêtre de contexte** | **10 millions de tokens** | **1 million de tokens** | Non spécifiée | | **Données d'entraînement** | ~40T tokens | ~22T tokens (pré-entraînement) | En cours | | **Date de coupure** | Août 2024 | Août 2024 | — | | **Multimodal natif** | Oui (texte + image) | Oui (texte + image) | Oui | | **GPU requis** | 1 seul H100 (Int4) | 1 hôte H100 DGX | 32 000 GPU | | **Statut** | Disponible (open-weight) | Disponible (open-weight) | **Non publié** | | **Langues** | 200 (pré-entraînement), 12 fine-tunées | 200 / 12 fine-tunées | — | Les **12 langues fine-tunées** incluent : arabe, anglais, français, allemand, hindi, indonésien, italien, portugais, espagnol, tagalog, thaï, vietnamien. [Wikipedia](https://en.wikipedia.org/wiki/Llama_(language_model)) **Licence** : Llama 4 Community License Agreement — licence non exclusive, mondiale, libre de redevance, [Artificial Analysis](https://artificialanalysis.ai/models/llama-4-maverick) mais **avec restrictions majeures** [Meta](https://ai.meta.com/blog/llama-4-multimodal-intelligence/) : les entreprises dépassant 700 millions de MAU doivent obtenir une licence séparée, [TechCrunch](https://techcrunch.com/2025/04/05/meta-releases-llama-4-a-new-crop-of-flagship-ai-models/) et **les utilisateurs domiciliés dans l'UE sont explicitement exclus**. [TechCrunch](https://techcrunch.com/2025/04/05/meta-releases-llama-4-a-new-crop-of-flagship-ai-models/) L'OSI et la FSF qualifient cette licence de « non libre ». [Wikipedia](https://en.wikipedia.org/wiki/Llama_(language_model)) ## Les 11 critères d'évaluation ### 1. Réponses quotidiennes et usage général Llama 4 est disponible via **meta.ai** (web), **WhatsApp**, **Messenger**, **Instagram**, **Facebook** [Meta](https://ai.meta.com/meta-ai/) et l'application **Meta AI** (lancée T2 2025 aux USA, Canada, Australie, Nouvelle-Zélande). [DesignRush](https://news.designrush.com/meta-unveils-own-ai-app-voice-memory-challenge-chatgpt) L'intégration dans les **lunettes Ray-Ban Meta** permet des requêtes mains libres avec traduction en temps réel. [Meta](https://ai.meta.com/meta-ai/) L'accès consommateur est **entièrement gratuit** — pas d'abonnement requis pour l'usage de base. Les fenêtres de contexte sont exceptionnelles : **10 millions de tokens** pour Scout [Artificial Analysis](https://artificialanalysis.ai/models/llama-4-scout) et **1 million** pour Maverick, [Artificial Analysis](https://artificialanalysis.ai/models/llama-4-maverick) [Meta](https://ai.meta.com/blog/llama-4-multimodal-intelligence/) des records parmi les modèles open-weight. Meta AI a atteint **1 milliard d'utilisateurs actifs mensuels** au T1 2025. ### 2. Qualité d'écriture Aucun score WritingBench n'a été publié pour Llama 4. Meta indique que Maverick est optimisé pour « l'écriture créative » et « la compréhension précise d'images ». [Meta](https://ai.meta.com/blog/llama-4-multimodal-intelligence/) Le post-entraînement utilise un pipeline SFT léger → RL en ligne → DPO léger. [meta](https://ai.meta.com/blog/llama-4-multimodal-intelligence/) **Point controversé** : Meta a délibérément ajusté Llama 4 pour être « moins orienté à gauche », visant un équilibre politique — une décision qui a suscité des débats. L'écriture multilingue est supportée pour 12 langues, avec des retours utilisateurs mitigés : certains louent la rapidité, d'autres trouvent les réponses « génériques » et manquant de nuance. ### 3. Programmation | Benchmark | Maverick | Scout | Comparaison | |-----------|----------|-------|-------------| | **LiveCodeBench** (10/2024–02/2025) | 43,4 % | 32,8-38,1 % | GPT-4o : 32,3 %, DeepSeek v3.1 : 45,8-49,2 % | | **MBPP** (pré-entraîné) | 77,6 | 67,8 | — | | **HumanEval** (tiers) | ~62 % | — | GPT-4o : 90,2 % | Les performances en code sont **modestes** comparées aux modèles frontière. Aucun score SWE-bench officiel n'a été communiqué par Meta. Les utilisateurs rapportent un function calling peu fiable par rapport à Llama 3.3 70B. **Pas de variante spécifique au code** ni d'intégration IDE officielle (mais des outils communautaires existent via HuggingFace et vLLM). ### 4. Raisonnement | Benchmark | Maverick | Scout | Behemoth (aperçu) | GPT-4o | Gemini 2.0 Flash | |-----------|----------|-------|--------------------|--------|-------------------| | **MMLU Pro** | 80,5 | 74,3 | 82,2 | — | 77,6 | | **GPQA Diamond** | 69,8 | 57,2 | 73,7 | 53,6 | 60,1 | | **MMMU** (image) | 73,4 | 69,4 | 76,1 | 69,1 | 71,7 | | **MathVista** | 73,7 | 70,7 | — | 63,8 | — | | **MATH-500** | — | — | 95,0 | — | — | **⚠️ Avertissement critique** : Yann LeCun a confirmé en janvier 2026 (interview au Financial Times) que les benchmarks avaient été **« un peu truqués »** — des versions différentes du modèle ont été utilisées pour différents benchmarks. [Slashdot](https://tech.slashdot.org/story/26/01/02/1449227/results-were-fudged-departing-meta-ai-chief-confirms-llama-4-benchmark-manipulation) Les évaluations tierces montrent fréquemment des performances inférieures aux annonces de Meta. [Fast Company](https://www.fastcompany.com/91469583/yann-lecun-meta-llama-4-model-zuckerberg) [Vals AI](https://www.vals.ai/updates) L'Artificial Analysis Intelligence Index attribue un score de **18** à Maverick (sous la moyenne, médiane à 20). [Artificial Analysis](https://artificialanalysis.ai/models/llama-4-maverick) **Llama 4 n'est pas un modèle de raisonnement** : il n'utilise pas de chaîne de pensée (chain-of-thought) [Artificial Analysis](https://artificialanalysis.ai/models/llama-4-maverick) comme o3 ou DeepSeek R1. Aucun score AIME 2024/2025 ou ARC-AGI n'a été officiellement communiqué. ### 5. Recherche approfondie (Deep Research) **Aucune capacité de recherche approfondie dédiée.** Meta AI ne propose pas de fonctionnalité équivalente à ChatGPT Deep Research ou Gemini Deep Research. [Humai](https://www.humai.blog/meta-ai-vs-chatgpt-the-ultimate-2025-comparison-guide/) Pas de workflows de recherche autonome multi-étapes. ### 6. Recherche web Meta AI intègre la **recherche web** via Google/Bing dans son interface consommateur. La qualité varie selon la requête et la plateforme. [Crush With AI](https://crushwithai.net/meta-ai-chatbot-review/) **Pas de support de citations formatées** comparable à Perplexity ou ChatGPT. Les capacités RAG sont disponibles via des frameworks tiers (LangChain, LlamaIndex) pour les déploiements auto-hébergés. La recherche web n'est pas disponible dans l'API/les poids du modèle (c'est une fonctionnalité du produit Meta AI). ### 7. Chat vocal Un **mode vocal** est disponible sur l'application Meta AI (déploiement progressif, en commençant par les pays anglophones). [Crush With AI](https://crushwithai.net/meta-ai-chatbot-review/) Un mode vocal full-duplex a été présenté en démo. Les **lunettes Ray-Ban Meta** proposent des interactions vocales mains libres. [DesignRush](https://news.designrush.com/meta-unveils-own-ai-app-voice-memory-challenge-chatgpt) La qualité est décrite comme « précoce mais réactive » et « clairement inférieure au mode vocal de ChatGPT ». [Humai](https://www.humai.blog/meta-ai-vs-chatgpt-the-ultimate-2025-comparison-guide/) ### 8. Génération d'images Meta AI inclut la génération d'images via **Meta Imagine** (alimenté par la famille de modèles Emu). Génération d'images **illimitée et gratuite** (avec filigrane). [Humai](https://www.humai.blog/meta-ai-vs-chatgpt-the-ultimate-2025-comparison-guide/) Fonctionnalités : génération de scènes, suppression/remplacement d'arrière-plans, restylisation, animation. [Crush With AI](https://crushwithai.net/meta-ai-chatbot-review/) **Llama 4 en lui-même ne génère pas d'images** — il gère la compréhension textuelle, tandis que la génération est assurée par un modèle séparé (Imagine/Emu). ### 9. Génération vidéo **Meta Movie Gen** existe en tant que modèle de recherche (annoncé fin 2024). [Meta](https://ai.meta.com/blog/future-of-ai-built-with-llama/) Les outils vidéo IA génèrent **10 milliards $ ARR** (T4 2025) principalement pour la publicité. **Pas de fonctionnalité texte-vers-vidéo** grand public comparable à Sora. ### 10. Caméra en direct / Multimodalité Llama 4 traite **nativement texte et images** via sa fusion précoce. [meta](https://ai.meta.com/blog/llama-4-multimodal-intelligence/) Capacités vision excellentes : ChartQA **90 %**, DocVQA **94,4 %**. Les lunettes Ray-Ban Meta offrent une **caméra en direct avec assistance IA** (traduction temps réel, identification d'objets, contexte visuel). [Meta](https://ai.meta.com/blog/future-of-ai-built-with-llama/) Retrieval needle-in-a-haystack quasi parfait sur des vidéos allant jusqu'à 20 heures. Disponible en France, Italie, Irlande, Espagne et en expansion. [Meta](https://ai.meta.com/blog/future-of-ai-built-with-llama/) ### 11. Capacités agentiques Les capacités agentiques sont **limitées** par rapport aux concurrents. Meta AI offre des fonctions basiques (recherche web, génération d'images, conversations vocales) mais **ne peut pas exécuter d'actions autonomes** ni de workflows multi-étapes. [Humai](https://www.humai.blog/meta-ai-vs-chatgpt-the-ultimate-2025-comparison-guide/) **Llama Stack** est un framework open-source pour construire des applications agentiques avec Llama [Meta](https://ai.meta.com/blog/future-of-ai-built-with-llama/) (support du tool use et function calling). **LlamaFirewall** fournit un cadre de sécurité pour les agents. Le support MCP n'est pas explicitement confirmé pour Llama 4. **Pas de capacité computer use** comparable à Anthropic. ## Tarification ### Accès consommateur - **Gratuit** : conversations texte illimitées, génération d'images illimitée (avec filigrane), mode vocal basique, recherche web [Humai](https://www.humai.blog/meta-ai-vs-chatgpt-the-ultimate-2025-comparison-guide/) - **Tier premium** : annoncé mais **non encore lancé** [Data Studios](https://www.datastudios.org/post/meta-ai-free-plans-features-limits-access-points-and-what-changes-in-2025-2026) (mars 2026), attendu entre 20-30 $/mois ### API (fournisseurs tiers — Meta ne propose pas d'API hébergée directe) | Fournisseur | Maverick Input/1M | Maverick Output/1M | Scout Input/1M | Scout Output/1M | |-------------|-------------------|---------------------|-----------------|-----------------| | **Together.ai** | 0,27 $ | 0,85 $ | 0,18 $ | 0,59 $ | | **Groq** | 0,20 $ | 0,77 $ | 0,11 $ | 0,34 $ | | **DeepInfra (FP8)** | 0,15 $ | 0,60 $ | — | — | | **Médiane (Artificial Analysis)** | 0,31 $ | 0,85 $ | 0,18 $ | 0,63 $ | Maverick coûte environ **91 % de moins en input** et **94 % de moins en output** que GPT-4o [Bind AI IDE](https://blog.getbind.co/llama-4-comparison-with-claude-3-7-sonnet-gpt-4-5-and-gemini-2-5/) (4,38 $/1M blended). Également disponible sur AWS Bedrock, Azure et Google Vertex. ## RGPD et vie privée **La licence Llama 4 interdit explicitement l'utilisation par les personnes et entreprises domiciliées dans l'UE** [TechCrunch](https://techcrunch.com/2025/04/05/meta-releases-llama-4-a-new-crop-of-flagship-ai-models/) — une restriction unique parmi les grands modèles IA, résultant des conflits persistants de Meta avec les régulateurs européens. En juillet 2024, Meta avait déjà refusé de lancer Llama multimodal dans l'UE en raison d'un « environnement réglementaire imprévisible ». [UPI](https://www.upi.com/Top_News/World-News/2024/07/18/EU-Meta-AI-data-regulations/6241721316082/) Meta AI a finalement été lancé dans l'UE en mars 2025 en mode texte uniquement, avec des fonctionnalités limitées. [The Register](https://www.theregister.com/2025/04/15/meta_resume_ai_training_eu_user_posts/) La **DPC irlandaise** (autorité de protection des données principale de Meta en UE) a exigé la suspension de l'entraînement IA sur les données des utilisateurs européens en juin 2024. [CyberPeace Foundation](https://www.cyberpeace.org/resources/blogs/meta-ai-in-the-eu-compliance-and-the-road-ahead) **NOYB** a déposé des plaintes dans 11 États membres. [Euronews](https://www.euronews.com/next/2024/07/18/meta-stops-eu-roll-out-of-ai-model-due-to-regulatory-concerns) Meta utilise l'**intérêt légitime** comme base juridique, avec des mécanismes d'opt-out. Meta utilise les interactions avec Meta AI pour personnaliser les publicités (**sauf dans l'UE, le Royaume-Uni et la Corée du Sud**). [Proton](https://proton.me/blog/meta-ai-ads) Llama 4 a été entraîné sur des « posts publiquement partagés d'Instagram et Facebook et les interactions avec Meta AI ». [Hugging Face](https://huggingface.co/meta-llama/Llama-4-Scout-17B-16E) **Avantage open-weight** : les déploiements auto-hébergés offrent un contrôle total des données — Meta n'a aucun accès aux entrées ou sorties des modèles Llama une fois téléchargés. [Llama](https://www.llama.com/faq/) ## Forces et faiblesses **Forces principales** : - Modèle open-weight téléchargeable, personnalisable et fine-tunable gratuitement - Fenêtres de contexte record (10M et 1M tokens) [Meta](https://ai.meta.com/blog/llama-4-multimodal-intelligence/) - Coût API ~91-94 % inférieur à GPT-4o [VentureBeat](https://venturebeat.com/ai/metas-answer-to-deepseek-is-here-llama-4-launches-with-long-context-scout-and-maverick-models-and-2t-parameter-behemoth-on-the-way) [Bind AI IDE](https://blog.getbind.co/llama-4-comparison-with-claude-3-7-sonnet-gpt-4-5-and-gemini-2-5/) ; Scout tourne sur un seul GPU H100 [meta](https://ai.meta.com/blog/llama-4-multimodal-intelligence/) - Écosystème Meta (WhatsApp, Instagram, Facebook) = 4+ milliards d'utilisateurs potentiels [VentureBeat](https://venturebeat.com/ai/metas-answer-to-deepseek-is-here-llama-4-launches-with-long-context-scout-and-maverick-models-and-2t-parameter-behemoth-on-the-way) - Accès consommateur entièrement gratuit avec génération d'images, voix, recherche web [Humai](https://www.humai.blog/meta-ai-vs-chatgpt-the-ultimate-2025-comparison-guide/) - Architecture MoE efficace : seulement 17B paramètres actifs malgré 109-400B au total [Apidog](https://apidog.com/blog/llama-4-api/) [meta](https://ai.meta.com/blog/llama-4-multimodal-intelligence/) - Vitesse d'inférence remarquable (Scout ~2 600 tokens/s via Groq) [Siliconflow](https://www.siliconflow.com/articles/benchmark) **Faiblesses principales** : - **Intégrité des benchmarks compromise** : manipulation confirmée par Yann LeCun [Slashdot](https://tech.slashdot.org/story/26/01/02/1449227/results-were-fudged-departing-meta-ai-chief-confirms-llama-4-benchmark-manipulation) - Pas un modèle de raisonnement (pas de chain-of-thought) [Artificial Analysis](https://artificialanalysis.ai/models/llama-4-maverick) - Exclusion de l'UE dans la licence [TechCrunch](https://techcrunch.com/2025/04/05/meta-releases-llama-4-a-new-crop-of-flagship-ai-models/) - Behemoth jamais publié [Skywork](https://skywork.ai/blog/llama-4-behemoth-open-source-2025/) - Performances réelles inférieures aux benchmarks annoncés (coding, reasoning) [Arbisoft](https://arbisoft.com/blogs/llama-4-a-bold-leap-forward-or-a-misstep) [Altctrlai](https://altctrlai.com/what-went-wrong-with-llama-4-metas-ai-launch-sparks-major-controversy/) - Capacités agentiques limitées, pas de deep research [Humai](https://www.humai.blog/meta-ai-vs-chatgpt-the-ultimate-2025-comparison-guide/) - Meta utilise les conversations IA pour le ciblage publicitaire (hors UE) [Proton](https://proton.me/blog/meta-ai-ads) ## Controverses majeures Le lancement de Llama 4 a été marqué par un **scandale de manipulation de benchmarks**. Meta a soumis une version « expérimentale » non publique de Maverick à LMArena, spécifiquement optimisée pour la conversationnalité, atteignant la 2e place du classement (ELO 1417). La version publique a chuté au **32e-35e rang**. La communauté a accusé Meta de « bait-and-switch ». En janvier 2026, Yann LeCun a confirmé : **« Les résultats ont été un peu truqués »** — différents modèles utilisés pour différents benchmarks. [The Decoder](https://the-decoder.com/you-certainly-dont-tell-a-researcher-like-me-what-to-do-says-lecun-as-he-exits-meta-for-his-own-startup/) Zuckerberg s'est montré « très contrarié et a perdu confiance en tous ceux qui étaient impliqués », [OfficeChai](https://officechai.com/ai/meta-fudged-llama-4-benchmarks-a-little-bit-says-yann-lecun/) [Slashdot](https://tech.slashdot.org/story/26/01/02/1449227/results-were-fudged-departing-meta-ai-chief-confirms-llama-4-benchmark-manipulation) ce qui a conduit à la réorganisation majeure de juin 2025, la création de MSL, [Fast Company](https://www.fastcompany.com/91469583/yann-lecun-meta-llama-4-model-zuckerberg) et finalement le départ de LeCun. --- # 2. COHERE (COMMAND A / COMMAND R+) ## Présentation de l'entreprise **Cohere** a été fondée en **2019 à Toronto, Canada** par **Aidan Gomez** (CEO), **Ivan Zhang** et **Nick Frosst** — tous anciens chercheurs de Google Brain et diplômés de l'Université de Toronto. [Grokipedia](https://grokipedia.com/page/Cohere) [intuitionlabs](https://intuitionlabs.ai/articles/cohere-enterprise-ai-llm-profile) Gomez est l'un des huit co-auteurs de l'article fondateur **« Attention Is All You Need »** (2017) qui a introduit l'architecture Transformer — il l'a co-écrit à 20 ans en tant que stagiaire chez Google Brain. [Wikipedia](https://en.wikipedia.org/wiki/Aidan_Gomez) [Eesel AI](https://www.eesel.ai/blog/cohere-ai) Frosst était le premier employé du lab Google Brain de Toronto sous Geoffrey Hinton. [Turing Post](https://www.turingpost.com/p/coherechronicle) | Donnée | Valeur | |--------|--------| | **Siège social** | Toronto, Canada (double QG avec San Francisco) | | **Bureaux** | Palo Alto, Londres, New York, Montréal, Paris, Séoul | | **Financement total** | ~1,54 milliard $ | | **Dernière valorisation** | **7,0 milliards $** (septembre 2025) | | **Employés** | ~837 (janvier 2026) | | **Chiffre d'affaires** | ~240 millions $ ARR (fin 2025), ~70 % de marges brutes | | **Investisseurs clés** | Radical Ventures, Inovia Capital, NVIDIA, AMD Ventures, Salesforce Ventures, PSP Investments, Index Ventures, Tiger Global | | **Investisseurs notables (angels)** | Geoffrey Hinton, Fei-Fei Li, Pieter Abbeel | Une **IPO est anticipée pour 2026** — le CEO Gomez l'a publiquement évoquée en octobre 2025, et un CFO expérimenté (François Chadwick, ex-Uber) a été recruté en août 2025. [IntuitionLabs](https://intuitionlabs.ai/articles/cohere-enterprise-ai-llm-profile) Cohere a également recruté **Joelle Pineau** (ex-VP AI Research chez Meta, supervisait Llama) comme Chief AI Officer. ## Architecture des modèles ### Command A (mars 2025) — Modèle phare | Spécification | Détail | |--------------|--------| | **Paramètres** | 111 milliards | | **Architecture** | Transformer decoder-only hybride : couches alternées SWA (Sliding Window Attention) et attention complète (ratio 3:1), GQA, SwiGLU, blocs parallèles | | **Fenêtre de contexte** | **256 000 tokens** | | **Tokens de sortie max** | 8 000 (32 000 pour la variante Reasoning) | | **Date de coupure** | 1er juin 2024 | | **GPU requis** | **Seulement 2 GPU** (A100 ou H100) — très efficace | | **Débit** | 156 tokens/s (1,75× plus rapide que GPT-4o, 2,4× plus rapide que DeepSeek V3) | | **Langues** | **23 langues** (dont français, anglais, espagnol, allemand, italien, japonais, coréen, chinois, arabe, russe, polonais, néerlandais, etc.) | | **Vocabulaire** | 255 000 tokens (tokenizer multilingue efficace) | | **Open-weight** | Oui, sous licence CC-BY-NC via HuggingFace | L'entraînement utilise une approche novatrice de **fusion de modèles décentralisée** : des modèles « experts » distincts sont entraînés séparément (SFT et RL) pour le RAG/agents, le multilingue, le code, le raisonnement, le contexte long, la sécurité et le suivi d'instructions — puis leurs poids sont fusionnés en un modèle unifié. [cohere](https://cohere.com/research/papers/command-a-technical-report.pdf) ### Autres variantes | Modèle | Date | Spécificité | |--------|------|-------------| | **Command A Reasoning** | Août 2025 | Raisonnement hybride, paramètre « thinking », output 32K tokens | | **Command A Vision** | Juillet 2025 | Premier modèle vision commercial, 128K contexte, 20 images/requête | | **Command A Translate** | Août 2025 | Traduction automatique SOTA, 23 langues | | **Command R+** | Avril 2024 | 104B paramètres, 128K contexte, 10 langues | | **Command R7B** | — | Modèle léger, ultra-économique | | **Tiny Aya** | Février 2026 | 3,35B params, 70+ langues, déployable en edge | | **Embed v4** | Février 2026 | Embeddings multimodaux (texte + images), Matryoshka, 100+ langues | | **Rerank 4** | Décembre 2025 | 32K contexte, auto-apprentissage, 100+ langues | ### Écosystème complet RAG Cohere propose une **pile RAG complète** : Embed (indexation) → Rerank (réordonnancement) → Command (génération avec citations). C'est un différenciateur majeur. [Eesel AI](https://www.eesel.ai/blog/cohere-ai-pricing) ## Les 11 critères d'évaluation ### 1. Réponses quotidiennes et usage général Cohere est disponible via son **API** (dashboard.cohere.com), le **Playground** (chat.cohere.com), HuggingFace, et les clouds majeurs : **Oracle OCI, AWS (Bedrock/SageMaker), Azure, Google Cloud**. SDKs Python, Node.js, Java et endpoint compatible OpenAI. **Pas d'application consommateur** de type ChatGPT — Cohere est entièrement orienté entreprise et API. [Wikipedia](https://en.wikipedia.org/wiki/Cohere) [Eesel AI](https://www.eesel.ai/blog/cohere-ai) Essai gratuit disponible avec limites de débit (non commercial). [Cohere](https://docs.cohere.com/docs/how-does-cohere-pricing-work) Command A supporte **23 langues**, [Cohere](https://docs.cohere.com/docs/command-a) avec un tokenizer particulièrement efficace (**1,67× moins de tokens que OpenAI pour le japonais**), ce qui réduit les coûts pour les langues non anglaises. ### 2. Qualité d'écriture L'écriture multilingue est le **point fort de Cohere**. Command R+ a été classé comme meilleur modèle open-weight sur le Chatbot Arena (avril 2024), surpassant certaines versions de GPT-4. L'évaluation head-to-head Command A vs GPT-4o montre un taux de victoire **~50/50** dans les catégories général, business, STEM et code (évaluation aveugle interne Cohere). Le modèle est optimisé pour les emails, résumés, rapports et contenus marketing d'entreprise. ### 3. Programmation | Benchmark | Command A | DeepSeek V3 | GPT-4o | Llama 3.3 70B | |-----------|-----------|-------------|--------|---------------| | **MBPP+** | 86,2 | 89,9 | 86,5 | 84,4 | | **Bird-SQL** | **59,5** | 53,1 | 50,5 | 58,0 | | **RepoQA** | **92,6** | 92,2 | 91,2 | 85,6 | Performances solides en SQL (Bird-SQL), compréhension de dépôts (RepoQA) et programmation générale (MBPP+). **Compétitif avec GPT-4o et DeepSeek V3.** [cohere](https://cohere.com/research/papers/command-a-technical-report.pdf) Pas de plugin IDE dédié comparable à GitHub Copilot — principalement via l'API. ### 4. Raisonnement | Benchmark | Command A | DeepSeek V3 | GPT-4o | Llama 3.3 70B | |-----------|-----------|-------------|--------|---------------| | **MMLU** | 85,5 | 88,5 | 85,7 | 86,0 | | **MATH** | **80,0** | 70,2 | 68,5 | 77,0 | | **GPQA Diamond** | 50,8 | 59,1 | 53,6 | 50,5 | | **IFEval** | **90,9** | 86,1 | 83,8 | 92,1 | Command A **surpasse GPT-4o en MATH** (80,0 vs 68,5) et en IFEval (90,9 vs 83,8). [cohere](https://cohere.com/research/papers/command-a-technical-report.pdf) Le score GPQA Diamond de **50,8 %** est en revanche inférieur aux modèles frontière. La variante **Command A Reasoning** (août 2025) ajoute un mode « thinking » pour les tâches de raisonnement complexes, avec des performances probablement supérieures. ### 5. Recherche approfondie (Deep Research) **Le RAG est la capacité signature de Cohere.** Command A utilise des balises `<co>` et `</co>` pour citer des extraits spécifiques de documents — un système de citation/attribution intégré. [Cohere](https://docs.cohere.com/docs/command-a) La fidélité des citations **surpasse GPT-4 Turbo** selon les évaluations humaines internes. Command R+ dépasse Claude 3 Sonnet et Mistral-large sur les benchmarks de QA multi-hop (HotpotQA, Bamboogle, StrategyQA). Cohere a acquis **Ottogrid** (mai 2025), une plateforme d'automatisation de recherche de marché, renforçant ses capacités de recherche enterprise. [Wikipedia](https://en.wikipedia.org/wiki/Cohere) [TechCrunch](https://techcrunch.com/2025/08/06/coheres-new-ai-agent-platform-north-promises-to-keep-enterprise-data-secure/) **Compass** est le moteur de recherche enterprise intégré à North. [IntuitionLabs](https://intuitionlabs.ai/articles/cohere-enterprise-ai-llm-profile) ### 6. Recherche web Le **framework Connectors** permet à Command de se connecter à des sources de données externes (web, bases de données, APIs, vector DBs). La plateforme **North** intègre la recherche web aux données internes. [Cohere](https://cohere.com/north/workplace-productivity) La **génération grounded avec citations** est une fonctionnalité native — toutes les réponses peuvent inclure des citations inline vers les documents sources. Connecteurs enterprise : Gmail, Slack, Salesforce, Outlook, Linear et tout serveur compatible MCP. [TechCrunch](https://techcrunch.com/2025/08/06/coheres-new-ai-agent-platform-north-promises-to-keep-enterprise-data-secure/) ### 7. Chat vocal **Pas de capacités vocales/TTS natives.** Cohere est exclusivement textuel. Pas de produit de chat vocal consommateur. ### 8. Génération d'images **Pas de génération d'images.** Cohere ne propose pas de modèles de génération d'images. L'entreprise est entièrement focalisée sur le texte. ### 9. Génération vidéo **Pas de génération vidéo.** ### 10. Caméra en direct / Multimodalité **Command A Vision** (juillet 2025) est le premier modèle vision commercial de Cohere : analyse de documents, interprétation de graphiques, OCR, 128K contexte, jusqu'à 20 images par requête, 6 langues. **Embed v4** fournit des embeddings multimodaux (texte + images) pour la recherche visuelle. **Aya Vision** est un modèle de recherche multimodal multilingue. [Wikipedia](https://en.wikipedia.org/wiki/Cohere) **Pas de caméra en direct** ni d'analyse vidéo en temps réel. ### 11. Capacités agentiques **C'est une force majeure de Cohere :** | Benchmark agentique | Command A | GPT-4o | DeepSeek V3 | Llama 3.3 70B | |---------------------|-----------|--------|-------------|---------------| | **TauBench** | **51,7** | 51,2 | 39,1 | 21,0 | | **BFCL** (Tool Use) | 63,8 | **72,1** | 58,6 | 51,4 | **North** (GA août 2025) est la plateforme d'agents IA d'entreprise : chat, recherche, agents, automatisations, création de contenu (tableaux, documents, diaporamas). Intégrations : Gmail, Slack, Salesforce, Outlook, Linear, serveurs MCP. Déploiement : on-prem, VPC, cloud hybride, environnements air-gapped. Clients : RBC, Dell, LG, Ensemble Health Partners, Palantir. **Support MCP natif** dans North. Tool use multi-étapes avec pattern REACT. Function calling structuré en JSON. ## Tarification | Modèle | Input / 1M tokens | Output / 1M tokens | |--------|-------------------|---------------------| | **Command A** | 2,50 $ | 10,00 $ | | **Command A Reasoning** | Gratuit (preview) | Gratuit (preview) | | **Command R+** (08-2024) | 2,50 $ | 10,00 $ | | **Command R** | 0,50 $ | 1,50 $ | | **Command R7B** | 0,0375 $ | 0,15 $ | | **Aya Expanse** | 0,50 $ | 1,50 $ | | **Embed v4** | 0,12 $/1M tokens (texte) | 0,47 $/1M (image) | | **Rerank 3.5** | 2,00 $/1 000 recherches | — | Coût moyen Cohere : ~4,48 $/1M tokens (**68 % sous la moyenne du secteur** selon Mem0). Tier trial gratuit avec limites de débit. Tier production pay-as-you-go. Tier enterprise avec pricing personnalisé et déploiement privé. ## RGPD et vie privée **Cohere est un champion de la conformité enterprise** — c'est un différenciateur stratégique majeur. | Certification | Statut | |--------------|--------| | **SOC 2 Type II** | ✅ Audit annuel | | **ISO 27001** | ✅ | | **ISO 42001** | ✅ (Gestion IA) | | **RGPD** | ✅ Conformité complète, Privacy-by-Design, DPA avec SCC | | **CCPA** | ✅ | | **HIPAA** | ✅ Prêt à signer des BAA | | **UK Cyber Essentials** | ✅ | Les données clients ne sont **pas utilisées pour l'entraînement** (pour les clients payants). Options de déploiement privé : VPC, on-premises, environnements air-gapped — Cohere n'a aucun accès aux données clients. **Cloud-agnostique** : OCI, Azure, AWS, Google Cloud — les clients choisissent la résidence des données. **Model Vault** (septembre 2025) : inférence isolée garantissant que les données ne quittent jamais le réseau client. Chiffrement TLS en transit, AES-256 au repos. L'**avantage de souveraineté canadienne** est significatif : siège à Toronto, lois canadiennes (PIPEDA) alignées avec le RGPD, attractif pour les gouvernements et entreprises cherchant une résidence de données non américaine. Partenariats avec les gouvernements canadien et britannique pour l'IA du secteur public. ## Forces et faiblesses **Forces principales** : - Excellence RAG absolue avec citations intégrées — leur différenciateur fondamental - Conformité enterprise inégalée (SOC 2, ISO 27001/42001, RGPD, HIPAA) - Déploiement cloud-agnostique (y compris on-prem et air-gapped) - 23 langues natives, tokenizer efficace réduisant les coûts non-anglais - Capacités agentiques fortes (TauBench : 51,7, battant GPT-4o) - Command A tourne sur seulement 2 GPU avec un débit 2,4× supérieur à DeepSeek V3 - Souveraineté des données canadienne, alternative non américaine crédible - Pile complète : Embed + Rerank + Command + North **Faiblesses principales** : - Pas de produit consommateur (pas de chatbot grand public) - Scores benchmark inférieurs aux modèles frontière (GPQA Diamond : 50,8 %) - Multimodalité limitée (vision ajoutée en juillet 2025, pas de génération d'images/vidéo/voix) - Notoriété faible face à OpenAI ou Anthropic - Revenus modestes (~240M $ ARR vs milliards pour OpenAI) - Date de coupure ancienne (juin 2024) nécessitant RAG/recherche web pour l'info courante ## Controverses et événements notables Cohere n'a pas connu de scandale majeur et maintient une **réputation solide en matière de confidentialité**. Événements notables : acquisition d'**Ottogrid** (mai 2025) pour la recherche de marché automatisée ; partenariat **AMD** (septembre 2025) pour les GPU Instinct ; recrutement de **Joelle Pineau** (ex-Meta) comme Chief AI Officer et **François Chadwick** (ex-Uber) comme CFO ; départ de **Sara Hooker** (directrice de Cohere Labs, bras de recherche) et **Martin Kon** (président/COO) en août 2025. --- # 3. MICROSOFT COPILOT / PHI-4 ## Présentation de l'entreprise **Microsoft** est le plus gros investisseur corporatif en IA au monde, avec **Satya Nadella** comme CEO et **Mustafa Suleyman** (co-fondateur de DeepMind, recruté en mars 2024) à la tête de **Microsoft AI**, couvrant Copilot, Bing, Edge et les produits consommateurs IA. En novembre 2025, Suleyman a formé la **MAI Superintelligence Team** pour développer ce qu'il appelle l'« intelligence superintelligente humaniste » (HSI). | Donnée | Valeur | |--------|--------| | **Chiffre d'affaires T1 FY2026** (oct. 2025) | 78 milliards $ (+18 % YoY) | | **Croissance Azure** | 40 % | | **Investissement dans OpenAI** | ~13 milliards $ (participation ~27 %, valorisée à 135 Mds $) | | **Utilisateurs Copilot** | **100+ millions MAU** (commercial + consommateur) | | **Sièges M365 Copilot payants** | **15 millions** (janvier 2026, +160 % YoY) | | **Utilisateurs GitHub Copilot** | **20 millions** (90 % du Fortune 100) | | **CapEx prévu FY2026** | ~140 milliards $ | | **Modèles disponibles via Azure AI Foundry** | 11 000+ (OpenAI, Meta, Mistral, DeepSeek, xAI, Anthropic, etc.) | | **Utilisateurs touchés par l'IA Microsoft** | 800 millions MAU | Microsoft développe également ses **propres modèles** : **MAI-1** (premier modèle fondation interne, ~15 000 H100), **MAI-Voice-1**, **MAI-Image-1**, et la famille **Phi** (petits modèles). Copilot utilise principalement les modèles OpenAI (**GPT-4.1** par défaut depuis octobre 2025, GPT-5 intégré le jour même de sa sortie) mais intègre aussi des modèles Anthropic et Phi-4 pour l'optimisation des coûts. ## Architecture des modèles Phi-4 ### Phi-4 (14B) | Spécification | Détail | |--------------|--------| | **Date de sortie** | 12 décembre 2024 | | **Paramètres** | 14 milliards (dense, decoder-only Transformer) | | **Fenêtre de contexte** | 16 000 tokens | | **Entraînement** | 9,8T tokens ; 1 920 GPU H100-80G ; 21 jours | | **Innovation clé** | Entraînement centré sur les **données synthétiques** (type « manuels scolaires ») pour math/code/raisonnement | | **Licence** | **MIT** (usage commercial permis) | | **Date de coupure** | Juin 2024 | ### Phi-4-Mini (3,8B) Sorti le 26 février 2025. **128K tokens** de contexte, vocabulaire de 200K tokens. Surpasse des modèles 2× plus grands en math/code. Licence MIT. ### Phi-4-Multimodal (5,6B) Sorti le 26 février 2025. Modèle **texte + vision + audio/parole** → sortie texte. Architecture novatrice **« Mixture of LoRAs »** : le modèle de langage de base (Phi-4-Mini) est gelé, avec des adaptateurs LoRA spécifiques par modalité et des routeurs. **#1 sur le leaderboard HuggingFace OpenASR** (WER 6,14 %), surpassant WhisperV3 et SeamlessM4T. Langues audio : anglais, chinois, allemand, français, italien, japonais, espagnol, portugais. Licence MIT. ### Phi-4-Reasoning (14B) Sorti le 30 avril 2025. Premier modèle de raisonnement de la série Phi. Contexte 32K. **Surpasse DeepSeek-R1-Distill-70B** sur plusieurs benchmarks, approchant les modèles frontière. Licence MIT. ## Les 11 critères d'évaluation ### 1. Réponses quotidiennes et usage général Microsoft Copilot est omniprésent : **copilot.microsoft.com**, barre des tâches **Windows 11** (Win+C ou touche Copilot dédiée ou « Hey Copilot »), navigateur **Edge** (Copilot Mode), applications **iOS** et **Android**, et intégré dans **Word, Excel, PowerPoint, Outlook, Teams, OneNote**. Le tier gratuit offre l'accès aux modèles GPT pour le chat, le résumé et l'écriture, avec une génération d'images limitée (boosts). Les **PC Copilot+** requièrent un NPU de 40 TOPS et débloquent des fonctionnalités comme Recall, Click to Do, Live Captions et Studio Effects. ### 2. Qualité d'écriture Copilot est intégré dans **Word** (rédaction, réécriture, résumé), **Outlook** (rédaction d'emails, tri), **PowerPoint** (génération de slides) et **OneNote**. Un **Agent Mode** dans les apps Office a été annoncé à Ignite 2025, permettant un travail itératif avec Copilot. La qualité d'écriture dépend du modèle sous-jacent (GPT-4.1/GPT-5). Le score IFEval de Phi-4 (63,0) suggère des capacités limitées de suivi d'instructions pour ce petit modèle. ### 3. Programmation **GitHub Copilot** est le leader incontesté des assistants de code : **20+ millions d'utilisateurs**, 90 % du Fortune 100. Disponible dans **VS Code, Visual Studio, JetBrains, Eclipse, Xcode, Vim/Neovim**. Fonctionnalités : complétion de code, chat, agent mode, revue de code automatique (millions de revues/mois), coding agent, **GitHub Copilot Workspace**. | Benchmark Phi-4 | Score | |-----------------|-------| | **HumanEval** | 82,6 % (meilleur parmi les modèles open-weight testés) | | **HumanEval+** | 82,8 % | | Comparaison : GPT-4o | 90,6 % | Phi-4 est principalement entraîné sur Python ; les autres langages nécessitent une vérification manuelle. ### 4. Raisonnement Phi-4 brille par ses performances de raisonnement exceptionnelles **pour sa taille de 14B paramètres** : | Benchmark | Phi-4 (14B) | Qwen 2.5 14B | Llama 3.3 70B | GPT-4o | |-----------|------------|--------------|---------------|--------| | **MMLU** | 84,8 | 79,9 | 86,3 | 88,1 | | **GPQA Diamond** | **56,1** | 42,9 | 49,1 | 50,6 | | **MATH** | **80,4** | 75,6 | 66,3 | 74,6 | | **HumanEval** | 82,6 | 72,1 | 78,9 | 90,6 | | **SimpleQA** | 3,0 | 5,4 | 20,9 | 39,4 | **Fait remarquable** : Phi-4 (14B) **surpasse GPT-4o** (son modèle enseignant) en GPQA Diamond (56,1 vs 50,6) et MATH (80,4 vs 74,6). Il bat Llama 3.3 70B (un modèle 5× plus gros) de **7 points en GPQA**. Cependant, son score **SimpleQA de 3,0** révèle une connaissance factuelle très faible — son talon d'Achille. Copilot propose un mode **« Think Deeper »** utilisant vraisemblablement les modèles de raisonnement pour les requêtes complexes. ### 5. Recherche approfondie (Deep Research) Copilot dispose d'un **agent Researcher** dans M365 Copilot qui crée des rapports de recherche avec sources citées, analyse de données et visualisation. **Copilot Deep Research** est disponible dans le Copilot consommateur. **Copilot Notebooks** offre un espace dédié pour la recherche longue et la création de contenu. **Work IQ** connecte les données Microsoft Graph, la mémoire Copilot et l'index sémantique pour une recherche personnalisée. ### 6. Recherche web **Intégration Bing native** : Copilot est grounded dans les résultats de recherche Bing avec données web en temps réel et citations. Pour l'entreprise : intégration **Microsoft Graph** pour les données organisationnelles (emails, fichiers, calendrier, chats, SharePoint), indexation sémantique pour les utilisateurs M365 Copilot. **Copilot Connectors** permettent des connexions à des sources de données tierces. ### 7. Chat vocal **Copilot Voice** est en disponibilité générale (décembre 2025+) dans l'app M365 Copilot mobile. **« Hey Copilot »** permet l'activation vocale sur Windows (programme Frontier, déploiement progressif). Copilot dans Outlook propose le tri d'emails par voix (preview publique). **Mico** est un compagnon IA pour des conversations vocales plus naturelles. ### 8. Génération d'images Copilot intègre **DALL-E** pour la génération d'images à partir de texte. **Microsoft Designer** (anciennement Bing Image Creator) est l'outil de design IA avec création et édition d'images. Le tier gratuit offre des « boosts » limités ; Copilot Pro donne **100 boosts/jour**. **MAI-Image-1** est le modèle de génération d'images interne de Microsoft (annoncé FY2025). ### 9. Génération vidéo L'intégration de **Sora 2** a été annoncée à Ignite 2025 — « création vidéo IA de nouvelle génération pour le travail » via la fonctionnalité Create pour le contenu marketing/social. Disponible via le Frontier Program. **Clipchamp** est l'outil d'édition vidéo de Microsoft intégré à M365. ### 10. Caméra en direct / Multimodalité **Copilot Vision** est disponible dans le navigateur Edge — permet de poser des questions sur ce qui est affiché à l'écran, d'analyser des pages web. **Copilot Mode dans Edge** : navigateur IA qui peut voir les onglets, compléter des tâches multi-étapes. **Click to Do** : intelligence visuelle analysant texte/graphiques à l'écran (exclusif PC Copilot+). **Phi-4 Multimodal** (5,6B) supporte vision + parole + texte simultanément, compétitif avec GPT-4o et Gemini sur le raisonnement graphiques/sciences. ### 11. Capacités agentiques C'est un **axe stratégique majeur** pour Microsoft : - **Agent Mode** dans les apps Office : travail itératif avec Copilot dans Word, Excel, PowerPoint - **Agent 365** : plan de contrôle centralisé pour les agents — registre, contrôles d'accès, sécurité, interopérabilité - **Copilot Studio** : plateforme de création/gestion d'agents en langage naturel ; supporte agents autonomes, conversationnels, vocaux - **Computer Use** : les agents Copilot Studio peuvent interagir avec des sites web et des applications desktop via GUI (annoncé mai 2025) - **Support MCP** : Model Context Protocol en preview publique pour Windows (Ignite 2025) - **Windows 365 for Agents** : PC cloud pour l'exécution d'agents ; partenaires : Manus, Fellou, GenSpark, Simular, TinyFish - **12 nouveaux agents** de sécurité dans Defender/Entra/Intune/Purview ## Tarification ### Copilot consommateur | Tier | Prix | Fonctionnalités clés | |------|------|----------------------| | **Copilot Free** | 0 $ | Chat GPT, résumé, écriture, boosts d'images limités, priorité basse | | **Copilot Pro** | 20 $/mois | Modèles dernière génération, 100 boosts/jour, Copilot dans M365 Personnel/Famille | | **M365 Personal** | 9,99 $/mois | Inclut Copilot + apps Office | | **M365 Family** | 12,99 $/mois | Copilot + Office, jusqu'à 6 utilisateurs | ### Copilot entreprise | Tier | Prix | Notes | |------|------|-------| | **Copilot Chat** | Gratuit (avec abo M365) | Chat IA grounded web pour tous les utilisateurs Entra | | **M365 Copilot Business** | 21 $/utilisateur/mois | Jusqu'à 300 utilisateurs ; promo 18 $/mois jusqu'en mars 2026 | | **M365 Copilot Enterprise** | 30 $/utilisateur/mois | Licences illimitées, Work IQ, indexation sémantique | ### GitHub Copilot | Tier | Prix | Fonctionnalités | |------|------|-----------------| | **Free** | 0 $ | 2 000 complétions + 50 requêtes premium/mois | | **Pro** | 10 $/mois | Complétions illimitées, 300 requêtes premium | | **Pro+** | 39 $/mois | 1 500 requêtes premium, tous les modèles (Claude Opus 4, o3) | | **Business** | 19 $/utilisateur/mois | Gestion centralisée, indemnité IP | | **Enterprise** | 39 $/utilisateur/mois | Bases de connaissances, modèles personnalisés | ### API Phi-4 (Azure) | Modèle | Input / 1M tokens | Output / 1M tokens | |--------|-------------------|---------------------| | **Phi-4 (14B)** | 0,13 $ | 0,50 $ | | **Phi-4 Mini** | Disponible sur Azure | Prix non publié séparément | | **Phi-4 Multimodal** | Gratuit (certaines plateformes) | Gratuit | ## RGPD et vie privée M365 Copilot est conforme au **RGPD, EU Data Boundary, ISO 27001, ISO 42001, HIPAA, CCPA**. Les prompts, réponses et données Microsoft Graph **ne sont pas utilisés pour entraîner les modèles fondation**. Données chiffrées au repos et en transit, isolation par tenant. Copilot respecte les permissions existantes, les étiquettes de sensibilité et les politiques de rétention. Le trafic UE reste dans le **EU Data Boundary** pour le traitement LLM (exception : modèles Anthropic exclus du EU Data Boundary). **Controverses RGPD majeures :** La controverse **Recall** (mai 2024) reste l'incident le plus significatif : cette fonctionnalité capture des captures d'écran de tout ce qui s'affiche sur les PC Copilot+ toutes les quelques secondes. La version initiale stockait les données en base SQLite en clair. Après un tollé massif, Recall est devenu **opt-in**, reporté de juin 2024 à décembre 2024, avec ajout du chiffrement et de l'authentification Windows Hello. Signal, Brave et AdGuard ont ajouté des fonctions de blocage. Le Congrès américain a interdit à ses employés d'utiliser Copilot. Recall ne peut toujours pas être complètement désinstallé. Autres préoccupations : risque de **surpartage** (15 %+ des fichiers critiques exposés via permissions inappropriées), **poursuite ACCC en Australie** (octobre 2025) contre Microsoft pour plans moins chers non divulgués, et **installation forcée** de Copilot dans les clients M365 hors UE (novembre 2025). ## Forces et faiblesses **Forces principales** : - **Intégration écosystème inégalée** : Copilot dans Windows, Office, Edge, Teams, GitHub — 450M+ utilisateurs M365 commerciaux comme base - Fonctionnalités enterprise complètes (Work IQ, Microsoft Graph, conformité, Purview) - Recherche Bing intégrée avec citations en temps réel - GitHub Copilot dominant (20M utilisateurs, 90 % du Fortune 100) - Diversité de modèles (OpenAI, Anthropic, Phi, 11 000+ via Foundry) - Phi-4 remarquablement efficace : 14B battant des modèles 70B en STEM - Écosystème agentique ambitieux (Copilot Studio, MCP, computer use, Agent 365) **Faiblesses principales** : - **Taux de conversion faible** : seulement 3,3 % des utilisateurs Copilot Chat paient la licence complète ; part payante en baisse de 18,8 % à 11,5 % (juillet 2025 – janvier 2026) - **Complexité tarifaire** : multiples tiers chevauchants (Chat, Business, Enterprise, Pro, M365) - **Controverse Recall** persistante - **Phi-4 limité** : SimpleQA 3,0 (connaissance factuelle très faible), IFEval 63,0, contexte 16K seulement, principalement anglais - ROI incertain pour les entreprises (UBS n'a trouvé aucune accélération significative des revenus) - Coûts enterprise en hausse (15-25 % d'augmentation annuelle) ## Controverses et événements notables La **confusion liée aux rebrandings** constants (Bing Chat → Microsoft Copilot → Copilot Chat → M365 Copilot Business) nuit à la lisibilité du marché. La **controverse Recall** a retardé le produit d'environ un an et reste un point sensible. Le recrutement de **Mustafa Suleyman** et la création de la MAI Superintelligence Team signalent une volonté d'indépendance vis-à-vis d'OpenAI. La poursuite **ACCC australienne** (octobre 2025) accuse Microsoft d'avoir trompé 2,7 millions de clients. Des **augmentations de prix** globales pour M365 sont prévues au **1er juillet 2026**. Microsoft a licencié environ **15 000 employés** en 2025. Suleyman a prédit l'automatisation des cols blancs dans les 18 mois (février 2026), alimentant les craintes d'un « SaaSpocalypse ». --- # Tableau comparatif synthétique des trois plateformes | Critère | Meta Llama 4 | Cohere Command A | Microsoft Copilot / Phi-4 | |---------|-------------|------------------|---------------------------| | **Philosophie** | Open-weight, écosystème social | Enterprise-first, RAG expert | Intégration logicielle massive | | **Paramètres (phare)** | 400B (Maverick, 17B actifs) | 111B (dense) | 14B (Phi-4) + modèles OpenAI | | **Contexte** | 10M (Scout) / 1M (Maverick) | 256K | 16K (Phi-4) / 128K (GPT-4o) | | **Langues** | 200 (pré-entraîné) / 12 fine-tunées | 23 | 22+ (Copilot Studio) | | **Prix API (input/1M)** | ~0,20-0,31 $ | 2,50 $ | 0,13 $ (Phi-4) | | **MMLU** | 85,5 (Maverick) | 85,5 | 84,8 (Phi-4 14B) | | **GPQA Diamond** | 69,8* (controversé) | 50,8 | 56,1 (Phi-4 14B) | | **MATH** | 61,2 (pré-entraîné) | **80,0** | **80,4** (Phi-4 14B) | | **Accès gratuit** | ✅ (meta.ai, WhatsApp, etc.) | ❌ (API trial seulement) | ✅ (copilot.microsoft.com) | | **Recherche web** | ✅ (basique) | ✅ (via North/Connectors) | ✅ (Bing natif) | | **Deep Research** | ❌ | ✅ (RAG avancé + Compass) | ✅ (Researcher agent) | | **Chat vocal** | ✅ (basique) | ❌ | ✅ (Copilot Voice) | | **Génération d'images** | ✅ (Meta Imagine) | ❌ | ✅ (DALL-E / Designer) | | **Génération vidéo** | ❌ | ❌ | ✅ (Sora 2, Frontier) | | **Vision / Multimodalité** | ✅ (natif + Ray-Ban Meta) | ✅ (Command A Vision) | ✅ (Copilot Vision, Phi-4-MM) | | **Capacités agentiques** | Limitées | ✅ Fortes (North, MCP, tool use) | ✅ Fortes (Studio, MCP, computer use) | | **Open-source** | Open-weight (licence restrictive) | Open-weight (CC-BY-NC) | MIT (Phi-4) | | **RGPD** | ⚠️ UE exclue de la licence | ✅ Exemplaire | ✅ EU Data Boundary | | **Cas d'usage idéal** | Apps sociales, déploiements auto-hébergés, coût minimal | Enterprise RAG, multilingue, souveraineté données | Productivité Office, développement logiciel | --- # Conclusion et recommandations pour le guide Ces trois plateformes comblent des lacunes distinctes dans le paysage IA couvert par le guide. **Meta Llama 4** représente la démocratisation de l'IA par l'open-weight et l'accessibilité gratuite, malgré une crédibilité entamée par le scandale des benchmarks et une licence problématique pour l'Europe. **Cohere Command A** incarne l'IA d'entreprise responsable, avec une expertise RAG et une conformité réglementaire sans équivalent — particulièrement pertinent pour les lecteurs francophones européens préoccupés par la souveraineté des données, bien que l'absence de produit consommateur limite sa visibilité. **Microsoft Copilot/Phi-4** déploie la stratégie la plus ambitieuse d'intégration IA dans les outils de travail quotidiens, avec GitHub Copilot comme véritable success story du développement assisté par IA, même si le taux de conversion et le ROI enterprise restent des points d'interrogation. Pour les utilisateurs européens du guide, un point mérite une attention particulière : **Cohere est la seule des trois plateformes à offrir une conformité RGPD irréprochable sans restriction**, là où Meta exclut explicitement l'UE de sa licence Llama 4 et Microsoft rencontre des controverses récurrentes (Recall, EU Data Boundary partiel). Cette dimension de souveraineté numérique est un facteur de différenciation croissant qui devrait être mis en avant dans le guide comparatif. --- --- ## **Remerciements** Claude orchestré par Laurent Berthelier 🔗 https://www.linkedin.com/in/laurent-berthelier 🔗 https://claude.ai/ --- D'autres guides : https://ludicrous-taste-983.notion.site/Conseils-IA-prompts-264ff12cba13807788e8de51bfb55ffe#2e5ff12cba1380f0a4f1c33d8828e73d --- *Document créé en mars 2026 — Un voyage qui continue…* ---