Llama 4 : Meta comble l'écart avec GPT-4o sur les benchmarks enterprise
Meta a officiellement publié Llama 4 en version open weights, disponible immédiatement sur Hugging Face et via l'API Meta. Les résultats sur les benchmarks enterprise (MMLU-Pro, HumanEval, FinanceBench) montrent des scores à moins de 5% de GPT-4o sur la majorité des tâches. La version Scout (17B paramètres actifs, architecture MoE) offre un rapport performance/coût particulièrement attractif pour un déploiement on-premise, tandis que la version Maverick (400B paramètres MoE) rivalise avec les meilleurs modèles propriétaires.
Llama 4 marque un tournant dans la compétition entre modèles open source et propriétaires. Meta publie deux variantes principales avec une architecture Mixture-of-Experts (MoE) qui change radicalement le rapport entre paramètres actifs et performance.
Benchmarks clés pour les usages enterprise
- Llama 4 Scout (17B actifs / 109B total) : MMLU-Pro 74,2%, HumanEval 89,1%, FinanceBench 71,8%
- Llama 4 Maverick (400B MoE) : MMLU-Pro 87,3%, HumanEval 95,6%, FinanceBench 84,2%
- GPT-4o (référence) : MMLU-Pro 88,1%, HumanEval 95,3%, FinanceBench 85,0%
- Performances en français : Llama 4 Maverick dépasse GPT-4o sur la génération de texte juridique et administratif en français
Ce que ça signifie pour un déploiement on-premise
Llama 4 Scout peut tourner sur 4× GPU H100 (ou 2× H200) avec une vitesse d'inférence de 1 800 tokens/seconde — suffisant pour 100 à 150 utilisateurs simultanés. Le coût de déploiement cloud souverain (via OVHcloud ou Scaleway) est estimé entre 8 000 et 15 000€/mois pour 500 utilisateurs actifs, contre 20 000 à 35 000€/mois pour une licence ChatGPT Enterprise équivalente.
La licence Llama 4 autorise l'usage commercial sans restriction pour les organisations de moins de 700 millions d'utilisateurs mensuels actifs — soit la quasi-totalité des entreprises françaises.