Actualités IA - Apcl Formation et coaching à Paris 15 ou à distance

Actualités
sur l’IA

LLaMA 4 – Meta avril 2025

LLaMA 4 - Meta avril 2025 - Apcl podcast
LLaMa - Meta - par Apcl, podcast autour de l'IA
Actus IA avec Apcl
LLaMA 4 – Meta avril 2025
Loading
/
Consultez toutes les autres

Marc zuckerberg, Meta Platforms (maison mère de Facebook, Instagram, WhatsApp…) a adopté une stratégie singulière dans la course aux LLM :

Plutôt que de commercialiser un chatbot propriétaire, Meta mise sur des modèles open source qu’elle publie largement pour stimuler l’innovation et exercer son influence.

Après LLaMA 1 (février 2023, fuite non officielle) et LLaMA 2 (juillet 2023, open source 7B à 70B paramètres), Meta a dévoilé en avril 2024 LLaMA 3 (8B et 70B paramètres) puis, un an plus tard, sa nouvelle génération LLaMA 4 en avril 2025 (en.wikipedia.org).

LLaMA 4 est présenté comme une “collection” de modèles de fondation de très grande envergure, inaugurant une architecture MoE (Mixture-of-Experts) chez Meta pour la première fois (techcrunch.com).

Cette famille comprend plusieurs variantes adaptées à des usages distincts, dont les principales sont nommées LLaMA 4 Scout, LLaMA 4 Maverick et LLaMA 4 Behemoth.

 Exemple des variantes du modèle LLaMA 4 de Meta et de quelques-unes de leurs caractéristiques techniques clés. Behemoth est un modèle « enseignant » géant en cours de finalisation, tandis que Maverick et Scout sont disponibles et optimisés respectivement pour l’assistance généraliste et le traitement de contextes massifs.(techcrunch.com)

LLaMA 4 pousse très loin le concept de mixture-of-experts.

Par exemple, la version Maverick compte environ 400 milliards de paramètres au total, répartis en 128 experts, mais seulement 17 milliards de paramètres actifs sont utilisés pour une requête donnée (les experts pertinents étant sollicités) (techcrunch.com).

De son côté, la version Scout est plus légère en taille totale (109 milliards de paramètres, 16 experts, toujours 17 Mds actifs) et se distingue par un objectif d’optimisation et de latence réduite (techcrunch.com).

Enfin, la variante Behemoth représente le modèle « géant » de Meta :

Avec 2 000 milliards (2 trillions) de paramètres au total et 16 experts, il en utilise 288 milliards actifs par requête – il sert de modèle enseignant pour affiner/distiller les autres et n’est pas diffusé tel quel à ce jour (il reste en entraînement interne) (nextplatform.com, techcrunch.com).

Toutes les variantes partagent le même backbone transformeur et ont été entraînées sur le supercalculateur Meta (exascale AI Research SuperCluster) à partir de vastes corpus multilingues et multimodaux.

Une avancée notable de LLaMA 4 est l’augmentation drastique de la fenêtre de contexte :

La version Scout prend en charge jusqu’à 10 millions de tokens de contexte (techcrunch.com), un record absolu dans le domaine, là où Maverick est limité à 1 million et LLaMA 3 n’avait que 128k.

Cette capacité hors norme de Scout la destine à des tâches comme la lecture analytique de documents volumineux ou la compréhension de dépôts de code entiers.

Meta souligne par ailleurs que grâce aux optimisations, Scout peut tourner sur un seul GPU NVIDIA H100 (16 Go) sans sacrifier ses 10M de contexte, tandis que Maverick requiert un nœud DGX complet (techcrunch.com) – démontrant ainsi l’efficience de la conception MoE de Scout pour un déploiement pratique.

LLaMA 4 est un modèle multimodal conçu pour être à l’aise avec différents types d’entrées.

Comme LLaMA 2 et 3, il s’agit au départ d’un modèle decoder-only de langage, mais Meta a doté LLaMA 4 de capacités visuelles (via une fusion avec la vision par transformeurs) et auditives.

Par exemple, Maverick est décrit comme « native multimodal with 1M context length »

Il peut donc traiter du texte et des images directement dans sa fenêtre de 1M de tokens.

Scout accepte aussi des images en entrée et Meta indique qu’il est optimisé pour la compréhension de documents longs possiblement multimodaux (PDF avec textes + schémas)(techcrunch.com).

En sortie, LLaMA 4 génère du texte de haute qualité dans plus de 20 langues (l’entraînement étant multilingue jusqu’à 2T de tokens sur un corpus diversifié​en.wikipedia.org).

Il peut aussi produire du code source avec une compétence avancée, ainsi que décrire des images (via la variante alignée LLaVA sans doute).

Sur le plan des performances, Meta affirme que LLaMA 4 Maverick égale ou dépasse GPT-4 “original” (GPT-4o) et Gemini 2.0 sur de nombreux benchmarks de codage, raisonnement, compréhension multilingue et gestion de long contexte​(techcrunch.com).

Cependant, la firme admet que face aux modèles fer de lance les plus récents de ses concurrents – en particulier Gemini 2.5 Pro de Google, Claude 3.7 d’Anthropic et GPT-4.5 d’OpenAI – LLaMA 4 accuse encore un léger retard sur certains critères pointus (techcrunch.com).

Autrement dit, LLaMA 4 est le modèle open source le plus avancé à ce jour, rivalisant avec les meilleurs modèles propriétaires de 2024.

Cependant, il reste en deçà des capacités ultimes des modèles propriétaires de 2025 (ce qui est compréhensible étant donné que Meta choisit de publier ses modèles largement).

Quoi qu’il en soit, LLaMA 4 occupe régulièrement le haut des classements des modèles open source – par exemple, la version LLaMA 3.1 (405 Mds) était déjà numéro 1 sur le leaderboard HuggingFace fin 2024 (en.wikipedia.org scmp.com).

L’apport de LLaMA 4 se voit aussi dans la spécialisation des variantes :

Scout est exemplaire sur les tâches de résumé de documents et de question-réponse sur base de connaissances grâce à sa mémoire étendue (techcrunch.com), tandis que Maverick excelle en assistant conversationnel polyvalent (écriture créative, chat en plusieurs tours) avec un bon équilibre entre qualité et coût.

L’introduction du géant Behemoth comme modèle instructeur laisse penser que Meta mise sur la distillation pour faire bénéficier les plus petits modèles (Scout, etc.) de l’intelligence du très grand modèle, tout en conservant une empreinte plus légère en production.

La stratégie de Meta avec LLaMA 4 poursuit la philosophie affichée depuis LLaMA 2 :

Ouvrir largement l’accès au modèle pour bâtir un écosystème et reprendre l’initiative face à OpenAI/Google.

Les modèles LLaMA 4 Scout et Maverick sont mis à disposition des chercheurs et développeurs via téléchargement sur le site llama.com et des partenaires comme Hugging Face (techcrunch.com), sous une licence source-available spécifique (dite licence LLaMA 4 Community).

Celle-ci permet un usage libre, y compris commercial, sous réserve de quelques restrictions notables :

Les géants ayant plus de 700 M d’utilisateurs actifs doivent obtenir une licence séparée (clause anti-compétiteur).

Fait marquant – les entités situées dans l’Union Européenne n’ont pas le droit d’utiliser ou distribuer LLaMA 4.

Sans doute à cause des exigences réglementaires imminentes en Europe (techcrunch.com).

Cette exclusion de l’UE a suscité des débats, Meta s’étant publiquement opposé à certaines dispositions de l’AI Act européen qu’elle juge trop contraignantes (techcrunch.com).

Hormis cela, Meta encourage l’adoption de LLaMA 4 : la firme a elle-même intégré ce modèle dans son assistant virtuel Meta AI déployé sur ses applications (WhatsApp, Messenger, Instagram), disponible dans 40 pays (techcrunch.com).

Ainsi, depuis 2024 Meta propose à ses milliards d’utilisateurs un chatbot « Meta AI » qui, à partir de l’automne 2025, s’appuie sur LLaMA 4 pour les réponses en anglais (les fonctionnalités multimodales n’étant actives qu’aux États-Unis pour l’instant) (techcrunch.com).

LLaMA 4 devient donc un élément clé de l’écosystème Meta, autant pour garder les utilisateurs engagés dans ses plateformes sociales (via des assistants intelligents, des stickers générés par IA, etc.) que pour fournir aux développeurs tiers une base de modèle performante qu’ils peuvent adapter à leurs besoins sans payer de coûteux appels d’API à OpenAI.

En ouvrant LLaMA 4, Meta souhaite également fixer des standards et orienter la communauté open source vers ses modèles plutôt que ceux d’initiatives indépendantes.

On a vu ainsi de nombreuses équipes reprendre LLaMA 2/3 pour créer des chatbots spécialisés, des fine-tunes (comme Llama-2-Chat, Code Llama pour le code, etc.), ce qui avantage Meta en termes d’influence technique.

Avec LLaMA 4, Meta entend continuer sur cette lancée et garder une longueur d’avance dans la sphère open source.

La présence de Behemoth (même non public) assure que Meta dispose en interne d’un modèle de tout premier plan pour ses propres recherches et produits, tout en nourrissant potentiellement les futures générations ouvertes via distillation.

En somme, Meta explore une voie différente de celle d’OpenAI/Google :

Plutôt que de vendre directement l’accès à son modèle, l’entreprise mise sur la diffusion large de LLaMA 4 pour asseoir son écosystème AI (et en parallèle, elle monétise indirectement via l’usage accru de ses plateformes, la fidélisation des développeurs, et d’éventuels services cloud autour de LLaMA tels que l’API Meta AI annoncée pour la gestion des modèles LLaMA dans le cloud Meta nextplatform.com, mayursurani.medium.com).

C’est un pari sur le long terme, privilégiant l’innovation ouverte et la standardisation, face aux modèles fermés pourtant plus avancés.

Le résultat est que LLaMA 4 constitue désormais une alternative crédible aux offres d’OpenAI pour qui souhaite un modèle personnalisable et héritable localement – malgré quelques concessions sur la performance brute.

Nota : un autre acteur américain, Anthropic, s’est également fait une place notable avec son assistant Claude.

Au cours de 2023-2024, Anthropic a lancé Claude 2 puis Claude Instant et continue de développer Claude Next avec des ambitions à 10^6 milliards de paramètres.

Claude 2 était réputé pour ses 100k tokens de contexte et son approche de IA constitutionnelle axée sur la sécurité.

Bien que soutenu par Google, Anthropic reste plus discret face au trio OpenAI–Google–Meta.

Par souci de concision, nous nous concentrons ici sur les trois leaders susmentionnés.