
Phi-4, la nouvelle génération
Satya nadella (Microsoft) poursuit une double stratégie en intelligence artificielle :
- Partenariat étroit avec OpenAI et xAI d’une part,
- et développements internes d’autre part.
En février 2025, Microsoft a révélé les derniers nés de sa R&D en IA, regroupés sous l’appellation Phi-4.
Annoncés le 26 février 2025, les modèles Phi-4-multimodal et Phi-4-mini constituent la nouvelle génération de la famille Phi de Microsoft, une lignée de Small Language Models (petits modèles de langue) initiée en 2023.
L’objectif affiché est d’offrir aux développeurs et professionnels des IA avancées plus légères que les énormes LLM du marché, pour compléter l’offre des géants comme GPT-4.
Phi-4-multimodal représente le modèle le plus polyvalent jamais créé par Microsoft, tandis que Phi-4-mini est une version spécialisée dans le texte, plus compacte mais très performante.
Ces modèles ont été rendus disponibles via Azure AI (notamment le programme Azure AI Foundry) et même publiés sur des plateformes communautaires comme Hugging Face, témoignant de la volonté de Microsoft de les diffuser largement.
Le lancement de Phi-4 intervient dans un contexte où Microsoft cherche à ne pas dépendre uniquement d’OpenAI :
En parallèle du déploiement de GPT-4 dans Bing et Microsoft 365, la firme de Redmond investit dans ses propres modèles maison pour conserver la maîtrise technologique et adresser des cas d’usage spécifiques.
Point de vue technique
Phi-4-multimodal et Phi-4-mini présentent des architectures optimisées alliant efficacité et innovations.
Phi-4-multimodal est un modèle transformeur de 5,6 milliards de paramètres qui a la particularité d’accepter simultanément des entrées en texte, image et audio (parole). Source azure.microsoft.com.
C’est le premier modèle véritablement multimodal de Microsoft, marquant une étape importante. Pour y parvenir, les chercheurs ont adopté une architecture unifiée intégrant les trois modalités dans le même espace de représentation, évitant d’avoir à combiner plusieurs modèles séparés.
Phi-4-multimodal
Concrètement, Phi-4-multimodal est un modèle unique qui incorpore un mélange de LoRA (mixture-of-LoRAs), c’est-à-dire des adaptateurs à faible rang entraînés pour chaque modalité (texte, vision, audio) et fusionnés au sein du réseau neuronal.
Cette approche permet de traiter une image ou un extrait vocal avec le même modèle que le texte, en alignant les caractéristiques extraites :
Par exemple, une photo de chat sera projetée dans le même espace latent que le mot “chat” prononcé ou écrit.
Le résultat est une architecture uniforme et allégée capable de comprendre et raisonner sur des entrées variées sans pipeline complexe.
Microsoft a également doté Phi-4-multimodal d’un vocabulaire étendu (≈200 000 tokens) pour améliorer la prise en charge du multilingue et de données plus diverses.
Par ailleurs, le modèle intègre des optimisations d’attention pour conserver l’efficacité en traitement simultané multi-modaux, et il est pensé pour une exécution possible en périphérie (appareils mobiles, systèmes embarqués) grâce à sa taille modeste et à des optimisations d’inférence haute performance.
Phi-4-mini
De son côté, Phi-4-mini est un modèle purement textuel de 3,8 milliards de paramètres, architecture decoder-only (génération de texte) conçu pour être extrêmement efficace.
Il utilise notamment un mécanisme d’attention groupée (grouped-query attention) pour accélérer les calculs, et partage les mêmes embeddings en entrée/sortie pour réduire le nombre de paramètres sans perte de précision.
Malgré sa petite taille, Phi-4-mini supporte des séquences allant jusqu’à 128 000 tokens, un contexte remarquablement long (bien plus que les 32k tokens de GPT-4, et même que la plupart des modèles géants).
Cette fenêtre de contexte étendue est rendue possible par des améliorations d’architecture et permet au modèle de traiter des documents volumineux, du code long ou de multiples conversations d’un seul tenant.
Microsoft a également doté ces modèles de fonctionnalités intégrées importantes :
La suivi d’instructions a été particulièrement travaillé, tout comme la capacité d’effectuer du « function calling » (appel de fonctions), c’est-à-dire de déclencher des actions externes via l’API en réponse à certaines requêtes (pour aller chercher de l’information ou interagir avec d’autres services).
En résumé, sur le plan technique, Microsoft mise avec Phi-4 sur des modèles relativement petits mais sophistiqués, combinant multimodalité avancée, contexte étendu et optimisations pour l’utilisation réelle (vitesse, déploiement local, intégration d’outils).
Capacités
Malgré leur taille réduite comparée aux géants du secteur, les modèles Phi-4 affichent des performances remarquables dans plusieurs domaines.
Phi-4-multimodal s’est illustré notamment sur les tâches liées à la parole et à la vision.
Phi-4 à la première place
D’après Microsoft, ce modèle a pris la 1ère place sur le leaderboard Open ASR de Hugging Face en reconnaissance vocale, avec un taux d’erreur de mots de seulement 6,14 %, surpassant ainsi le précédent record de 6,5 % détenu par un autre modèle (état février 2025). Source azure.microsoft.com.
Il excelle non seulement en transcription vocale (ASR) mais aussi en traduction automatique de la parole : il bat des modèles spécialisés comme Whisper v3 d’OpenAI ou SeamlessM4T de Meta sur ces tâches. Source azure.microsoft.com.
De plus, Phi-4-multimodal compte parmi les rares modèles ouverts capables de faire du résumé de flux audio (speech summarization), atteignant une qualité proche de celle de GPT-4 dans cet exercice. Source azure.microsoft.com.
En vision, malgré ses 5,6 Mds de paramètres (bien moins que les grands vision-LMs), il démontre de solides aptitudes.
Par exemple, sur des benchmarks de compréhension de documents et de tableaux à partir d’images (tels que DocVQA, ChartQA) :
Il obtient des scores supérieurs à des modèles concurrents plus grands comme InternOmni-7B ou même certaines versions allégées de Google Gemini. Source azure.microsoft.comazure.microsoft.com.
Microsoft souligne que Phi-4-multimodal parvient notamment à très bien raisonner sur des contenus scientifiques présentés visuellement (diagrammes, équations dans une image).
Plus globalement, pour des tâches multimodales variées (OCR, compréhension d’images complexes), il égale ou dépasse des modèles proches comme Gemini 2.0 Flash (lite) ou Claude 3.5 Sonnet, ce qui est remarquable pour un modèle de cette taille.
Phi-4 mini performant
Du côté de Phi-4-mini, orienté texte pur, les performances sont également au rendez-vous.
Sa formation intensive lui permet de surclasser des modèles plus grands sur plusieurs tâches de langage.
Microsoft indique ainsi que Phi-4-mini obtient d’excellents résultats en raisonnement, en mathématiques et en codage, souvent supérieurs à ceux de modèles de la génération précédente faisant 2 à 3 fois sa taille. Source azure.microsoft.com
Par exemple, grâce à son contexte de 128k tokens, il peut analyser de grands fichiers de code source et fournir des complétions ou explications cohérentes là où d’autres modèles atteignent leurs limites de mémoire.
Dans le suivi d’instructions complexes, il a été finement ajusté et démontre une compréhension fine des demandes de l’utilisateur.
Bien entendu, en tant que small LLM, Phi-4-mini ne prétend pas rivaliser sur tous les tableaux avec un GPT-4 de 100+ Mds de paramètres :
Sur des questions de connaissance générale très pointues ou des QCM difficiles, un modèle beaucoup plus grand gardera l’avantage.
D’ailleurs Microsoft reconnaît que sur certaines tâches de Q&A factuel (notamment en speech QA), un écart subsiste du fait de la capacité limitée de Phi-4-multimodal à mémoriser autant de faits qu’un très grand modèle.
Néanmoins, l’essentiel est que les modèles Phi-4 offrent un excellent compromis performance/légèreté.
Ils ouvrent des possibilités nouvelles (comme le traitement bon marché de documents très longs ou l’utilisation d’IA multimodale sur mobile) tout en maintenant un niveau de performance état-de-l’art pour leur catégorie.
Stratégie
Le développement de Phi-4 s’inscrit dans la stratégie plus large de Microsoft en matière d’IA.
Microsoft vise à diversifier ses atouts et à intégrer l’IA à tous les niveaux de son offre.
Historiquement, Microsoft a beaucoup misé sur OpenAI (avec un investissement de 10 Mds $ et l’intégration de GPT-4 dans Bing et Office).
Cependant, la firme cherche en parallèle à réduire sa dépendance exclusive vis-à-vis d’OpenAI. Source reuters.com.
Les modèles Phi-4 illustre ce désire d’indépendance
En développant des IA maison, Microsoft s’arme de solutions alternatives qu’elle peut contrôler de bout en bout.
D’après un rapport de The Information, Microsoft a même commencé à tester en interne des modèles d’autres acteurs (xAI, Meta, et le chinois DeepSeek) pour potentiellement les utiliser dans ses assistances IA (Copilots). Source reuters.com.
Le multi-modèles
La mise à disposition de DeepSeek R1 sur Azure en 2025, tout comme l’éventuelle arrivée de Grok 3 d’xAI sur Azure, montrent que Microsoft veut faire d’Azure une plateforme ouverte accueillant divers modèles, pas uniquement ceux d’OpenAI.
Ainsi, Azure AI Foundry propose désormais aux développeurs un éventail de modèles : GPT-4 bien sûr, mais aussi les modèles Phi de Microsoft et d’autres partenaires. Source azure.microsoft.com.
Cette stratégie multi-modèles vise à attirer sur Azure les clients aux besoins variés :
Certains privilégieront la puissance maximale de GPT-4. Tandis que d’autres opteront pour un Phi-4-mini.
Phi-4-mini est moins coûteux et suffisant pour leur cas d’usage, ou pour un modèle externe spécifique (par ex. un modèle de vision chinois pour un marché local).
Microsoft se positionne en fournisseur de choix en laissant cette flexibilité, tout en contrôlant les conditions (coûts, infrastructure Azure).
D’un point de vue concurrentiel, cela permet à Azure de rivaliser avec AWS et GCP qui eux aussi enrichissent leur catalogue (Amazon Bedrock intègre Anthropic, StabilityAI et ses propres modèles Nova, tandis que Google Cloud offre ses modèles PaLM2, bientôt Gemini, etc.).
Microsoft ne veut pas être dépendant d’une seule source et risquer de perdre des clients si OpenAI prenait une autre direction – surtout après les tensions fin 2023 entre OpenAI et son CEO, qui ont montré que le partenariat pouvait connaître des turbulences.
La liberté pour Microsoft grâce à Phi-4
Par ailleurs, les modèles internes comme Phi-4 donnent à Microsoft la liberté d’intégration dans ses produits sans restriction.
On peut imaginer que certaines fonctionnalités de Windows ou d’Office pourraient embarquer un Phi-4-mini en local pour fonctionner sans connexion internet, améliorant l’expérience utilisateur de manière transparente.
Microsoft a déjà annoncé des projets d’IA hybride (local+cloud) pour Windows 11, et des SLM efficients comme Phi-4-mini sont parfaits pour cela.
Sur le plan du modèle économique
Microsoft commercialise Phi-4 via Azure de façon classique (facturation à l’utilisation, avec des tarifs très compétitifs compte tenu de la petite taille du modèle). Source azure.microsoft.com.
Un petit modèle consomme moins de ressources :
Microsoft peut donc le facturer moins cher, attirant ainsi des clients qui ont trouvé GPT-4 trop onéreux pour un usage massif.
En offrant différentes tailles de contexte (4k ou 128k) avec tarifications adaptées, Azure permet d’optimiser le coût selon le besoin.
Des capacité matérielles
Enfin, stratégiquement, Microsoft profite de ses capacités matérielles pour soutenir cette ambition.
La société a construit des supercalculateurs Azure AI avec des dizaines de milliers de GPU Nvidia pour entraîner des modèles comme Phi-4 et GPT-4, et développe ses propres puces d’accélération (projet Athena).
Cette intégration verticale (matériel + cloud + modèles) rappelle la stratégie de ses concurrents (Google avec TPU + models, Amazon avec Trainium + Bedrock).
Consolider son écosystème IA avec Phi-4
En conclusion, avec Phi-4 Microsoft cherche à consolider son écosystème IA :
Rester le partenaire privilégié d’OpenAI tout en ayant ses propres atoutstechnologiques à déployer, pour gagner en autonomie et proposer aux clients une offre plus riche et flexible.
C’est un équilibrage délicat entre coopération (avec OpenAI) et compétition (vis-à-vis des autres clouds et, potentiellement, vis-à-vis d’OpenAI à long terme), dans lequel Microsoft investit pour assurer sa place dominante dans la révolution de l’IA jusqu’en 2025 et au-delà.