Le 8 avril 2025, Nvidia a annoncé la sortie de son nouveau modèle d’intelligence artificielle, le Llama-3.1 Nemotron Ultra-253B, un modèle de langage dense conçu pour surpasser la concurrence sur plusieurs benchmarks tout en étant deux fois plus compact que ses rivaux comme DeepSeek R1.
Un modèle dense optimisé pour le raisonnement
Basé sur l’architecture de Llama 3.1 de Meta, le Nemotron Ultra est doté de 253 milliards de paramètres et a été optimisé grâce à une recherche architecturale avancée (NAS).
Il se distingue par ses innovations telles que des couches d’attention sautées et des réseaux feedforward fusionnés, permettant une exécution efficace sur un seul nœud de 8 GPU H100.
Le modèle propose un mode de « raisonnement activé » pour des tâches complexes et un mode plus simple pour des réponses rapides.
Des performances de haut niveau malgré sa compacité
Les tests montrent que le Nemotron Ultra rivalise, voire surpasse, des modèles bien plus volumineux sur plusieurs benchmarks clés : il obtient 76,01 % sur GPQA contre 71,5 % pour DeepSeek R1, et surpasse ses concurrents sur des tâches de codage avec un score de 66,31 % sur LiveCodeBench.
Sur les épreuves mathématiques comme MATH500, il frôle la perfection avec 97,00 % de réussite en mode raisonnement.
Un modèle ouvert et prêt pour l’usage commercial
Le Nemotron Ultra est publié sous une licence commerciale ouverte via Hugging Face, avec un code librement accessible et des poids téléchargeables.
Compatible avec jusqu’à 128 000 tokens de longueur de séquence, il est particulièrement adapté aux applications multilingues, au développement de chatbots, à la génération augmentée par récupération (RAG) et à la génération de code.
Perspectives et impact sur le marché de l’IA
Avec cette avancée, Nvidia affirme son ambition de démocratiser les modèles de langage de nouvelle génération en proposant des solutions plus compactes, plus performantes et économiquement viables pour les entreprises.
Cette approche pourrait remodeler le marché de l’open source face aux mastodontes actuels, en rendant les modèles de très haut niveau accessibles à une base plus large de développeurs et d’industries.