
Gemini 2.5 sortie début 2025
Face à OpenAI, Google (désormais via son unité unifiée Google DeepMind) a développé la famille de modèles Gemini, dont la dernière version en date est Gemini 2.5 sortie début 2025.
Annoncé initialement en 2023 comme le projet de next-gen successeur de PaLM, Gemini a connu plusieurs itérations rapides (1.0 en fin 2023, 2.0 fin 2024) pour aboutir à Gemini 2.5 Pro (Experimental) lancé en mars 2025.
Sundar Pichai et Demis Hassabis le présentent comme le modèle d’IA le plus intelligent de Google à ce jour.
Il combine les atouts des LLM conversationnels de Google avec les capacités de planification et de raisonnement symbolique héritées des travaux de DeepMind (comme AlphaGo). Source en.wikipedia.org.
Taille et architecture
D’un point de vue taille et architecture, Gemini 2.5 marque une rupture :
C’est la première génération Google à adopter une architecture à mélange d’experts (Mixture-of-Experts, MoE) à grande échelle.
Le modèle le plus puissant de la gamme, surnommé Gemini 2.5 Pro, est un MoE multi-modules totalisant près de 2 trillions de paramètres au total, dont 288 milliards de paramètres « actifs » lors d’une inférence (c’est-à-dire utilisés par requête) répartis sur 16 experts spécialisés. Sources nextplatform.com, techcrunch.com.
Cette approche MoE vise à accroître la capacité du modèle sans augmenter indéfiniment le coût de chaque réponse, en faisant intervenir dynamiquement seulement une fraction experte du réseau pour chaque question.
Gemini 2.5 Pro repose sur un backbone transformeur optimisé tournant sur les supercalculateurs TPUv5 de Google.
Il possède nativement une fenêtre de contexte d’environ 1 million de tokens, à l’instar de GPT-4.1, ce qui témoigne de la convergence des géants vers des contextes gigantesques. Source en.wikipedia.org.
Gemini 2.5 avec des versions plus petites
Des versions plus petites de Gemini 2.5 existent également – par exemple Gemini 2.5 Flash ou d’autres variantes expérimentales – mais la version Pro constitue le fer de lance en termes de performances.
Gemini 2.5 est un modèle multimodal natif.
Déjà, la première génération Gemini 1.0 en 2023 combinait texte et images, et Google a depuis enrichi les modalités :
Gemini 2.x peut gérer texte, images, audio et vidéo en entrée, de façon fluide et intercalée. Source en.wikipedia.org.
Une variante Gemini 2.5-Omni introduite peu avant intégrait même la génération de voix en sortie, permettant du chat vocal en temps réel.
Le modèle peut donc analyser une requête complexe mélangeant par exemple description textuelle, image et extrait audio, et y répondre en langage naturel (et potentiellement en générant une image ou un fichier audio si pertinent).
Cette orientation multimodale généralisée rapproche Gemini d’un assistant généraliste apte à naviguer entre différents types de données.
Google y voit un avantage majeur pour l’intégration de Gemini à ses produits (Google a en effet des actifs dans la vision, la vidéo YouTube, le vocal via Assistant, etc.).
La fenêtre de 1M de tokens ouvre aussi la porte à des usages exigeants, comme fournir à Gemini l’index complet d’une base de connaissances ou le code source d’une application entière et lui poser des questions dessus.
Capacités
En termes de capacités et de performances, Gemini 2.5 figure parmi les tout meilleurs modèles du moment.
Google a indiqué que Gemini 2.5 Pro se hisse au sommet du leaderboard LMArena (qui mesure la préférence humaine des réponses) avec une avance de près de 40 points sur le modèle suivant. Source en.wikipedia.org.
De même, sur de nombreux benchmarks académiques de raisonnement, sciences et mathématiques, Gemini 2.5 Pro atteint ou dépasse l’état de l’art. Source blog.google blog.google.
Par exemple, sans recourir à des astuces coûteuses d’auto-encadrement, il se classe premier sur des évaluations de résolution de problèmes mathématiques (GPQA) ou scientifiques (AIME 2025). Source blog.google.
Ses atouts principaux
Ils résident dans l’habileté au raisonnement complexe grâce à un mécanisme de « modèle pensant » qui simule un raisonnement par étapes avant de répondre, (via la technique du chain-of-thought prompting intégrée), ainsi que dans les tâches de codage et de génération de code exécutable. Source en.wikipedia.org.
Gemini 2.5 a par exemple démontré la capacité de produire un jeu vidéo fonctionnel à partir d’une simple description en une ligne, preuve d’une excellente compréhension sémantique et de compétences techniques en code. Source blog.google.
En comparaison de GPT-4 ou Claude 2, les évaluations publiques ont montré Gemini 2.5 Pro très compétitif, occupant souvent le podium avec ces modèles américains de même génération.
Notamment, DeepMind a annoncé que Gemini 1.0 Ultra (un prédécesseur interne) dépassait GPT-4 sur de nombreux benchmarks dès 2023. Source en.wikipedia.org.
La version 2.5 consolide cette avance sur certains axes (raisonnement multi-étapes, capacité agentique), même si OpenAI a répliqué entre-temps avec GPT-4.1.
Stratégie
La stratégie de Google avec Gemini est double :
Rattraper puis dépasser OpenAI sur la qualité du modèle, et surtout capitaliser sur l’écosystème Google pour diffuser Gemini massivement.
Gemini 2 intégré
Sundar Pichai a souligné que Gemini serait intégré à tous les produits Google pertinents :
- Le moteur de Recherche (pour une expérience de recherche conversationnelle),
- La suite Workspace (Docs, Gmail) via le compagnon Duet AI,
- Les services de cloud Vertex AI pour les clients professionnels,
- Android (l’assistant des smartphones Pixel exploite déjà Gemini Nano),
- Ou encore les publicités (génération de visuels publicitaires contextualisés).
Source en.wikipedia.org.
Dès son lancement, Gemini Pro et Nano ont été imbriqués dans Bard, le chatbot grand public de Google, ce qui a immédiatement amélioré les performances de Bard en anglais.
L’infrastructure cloud
De plus, Google mise sur son avantage en infrastructure cloud :
Gemini est proposé via l’API PaLM (Gemini) sur Google Cloud à destination des entreprises, concurrençant directement l’API OpenAI.
L’objectif est de séduire développeurs et clients B2B avec un modèle puissant et potentiellement plus personnalisable
Certaines versions de Gemini (ex : Gemini 1.5) ont été open-sourcées en partie ou distribuées aux partenaires de recherche, indiquant une approche un peu plus ouverte que celle d’OpenAI.
L’écosystème matériel
En outre, Google cherche à tirer parti de son écosystème matériel :
Les modèles Gemini sont optimisés pour tourner sur ses TPU maison, et la société a même évoqué la possibilité d’intégrer Gemini dans des appareils. D’où la version Gemini Nano déployée sur le smartphone Pixel 8 Pro pour certaines fonctions.
Des partenariats
Enfin, on notera que Google tente une démarche partenariale, par exemple en discutant avec Apple pour éventuellement embarquer son moteur Gemini dans les iPhones à l’avenir. Source reuters.com.
En résumé avec Gemini 2.5, Google a rattrapé son retard initial sur ChatGPT.
Il compte s’appuyer sur la synergie logiciel-hardware-service dont il dispose pour diffuser largement son LLM (dans un environnement maîtrisé quant à la sécurité, via un accès contrôlé par son cloud).
Contrairement à OpenAI, Google navigue aussi dans le cadre de contraintes réglementaires et de réputation :
L’entreprise se montre prudente sur l’évaluation des biais et risques de Gemini 2.5 (publication d’un model card sécurité quelques semaines après la sortie). Source yahoo.com.
Cela reflète son souci de conformité alors que l’UE prépare l’AI Act.
Néanmoins, la sortie rapprochée de Gemini 3 (nom de code Phoenix peut-être) est attendue pour continuer à rivaliser dans cette course de géants.