Llama 4 Maverick : ce que le nouveau modèle 128B de Meta change pour les DSI français
Meta lance Llama 4 Maverick, un modèle multimodal 128B qui atteint des performances état-de-l'art en open source. Les poids sont disponibles en téléchargement libre sous licence Meta avec usage commercial autorisé sous conditions. Pour les entreprises françaises, c'est une opportunité réelle — mais le hardware requis reste un frein significatif.
Meta a publié les poids de Llama 4 Maverick, son modèle phare de 128 milliards de paramètres avec capacités multimodales (texte + image). Sur les principaux benchmarks, il surpasse GPT-4o et Claude 3.5 Sonnet sur plusieurs tâches, tout en restant téléchargeable librement via le programme Llama.
Ce que propose réellement Llama 4 Maverick
- Architecture MoE (Mixture of Experts) : 128B paramètres totaux, ~17B actifs par inférence — réduit les besoins compute à l'inférence
- Multimodal natif : traitement texte et image dans un seul modèle
- Contexte 128k tokens : adapté à l'analyse documentaire longue
- Licence Meta : usage commercial autorisé pour les entités de moins de 700 millions d'utilisateurs mensuels actifs
Hardware requis : le vrai sujet pour les DSI
C'est là que les contraintes apparaissent. En FP16, Llama 4 Maverick requiert environ 256 Go de VRAM, soit au minimum 4 GPU H100 SXM (80 Go chacun). En quantification 4-bit (GGUF Q4), on descend à ~70 Go — faisable sur 1 H100, mais avec une dégradation des performances perceptible sur les tâches complexes.
Pour les entreprises qui n'ont pas encore d'infrastructure GPU on-premise, deux options : louer des GPU H100 chez un opérateur souverain (Scaleway, OVHcloud) ou utiliser une API managée compatible Llama 4.
Ce qu'il faut retenir
- Llama 4 Maverick est le LLM open source le plus puissant disponible à ce jour
- La licence Meta autorise l'usage commercial sans redevance (sauf >700M MAU)
- Minimum viable : 4x H100 pour les poids en FP16, 1x H100 en 4-bit quantifié
- Multimodal natif : un seul modèle pour texte et image
- Fine-tuning possible : garde vos données dans votre infrastructure
Comparatif rapide vs Mistral et alternatives souveraines
Mistral Large 2 reste compétitif avec un hardware bien inférieur (2x A100 suffisent). Pour des entreprises françaises avec contraintes matérielles, le choix entre Llama 4 Maverick et Mistral Large 2 dépend surtout de votre capacité d'investissement GPU et de vos cas d'usage multimodaux.
Attention à la dépendance Meta
Llama 4 reste sous licence Meta, non Apache 2.0. Des restrictions d'usage existent, notamment l'interdiction d'utiliser les outputs pour entraîner d'autres LLM concurrents. Lisez attentivement la licence avant tout déploiement production.