Skip to main content

Un nouveau modèle vocal open source ambitieux

Mistral dévoile Voxtral, une famille de modèles vocaux open source pensée pour dépasser la simple transcription audio. Sous licence Apache 2.0, Voxtral propose deux versions : Mini, allégée pour les usages embarqués, et Small, plus puissante pour les environnements cloud.
Ces modèles sont conçus pour comprendre la voix, résumer les contenus parlés et même déclencher des fonctions automatiquement via commande vocale.

Des performances de haut niveau

Voxtral prend en charge jusqu’à 32 000 tokens de contexte, soit environ 30 à 40 minutes de contenu audio.
Il atteint une précision supérieure aux modèles de transcription audio existants.
Le modèle Small affiche un taux d’erreur inférieur aux standards du marché. Voxtral ne se contente pas d’écrire ce qu’il entend.
Il comprend le contenu, résume les échanges et répond à des questions directement à partir de l’audio, sans conversion textuelle préalable.

Déclenchement d’actions par la voix

L’un des atouts majeurs de Voxtral est sa capacité à exécuter des fonctions déclenchées vocalement.
L’utilisateur peut initier des actions concrètes par une simple phrase.
Cela permet de créer des assistants vocaux capables d’appeler des APIs ou d’intégrer des workflows complexes dans une interface naturelle.

Compatibilité multilingue et intégration flexible

Voxtral reconnaît et traite automatiquement plusieurs langues, dont le français, l’anglais, l’espagnol, l’allemand, le néerlandais, le portugais, l’hindi et l’italien. Il peut être utilisé via API, via Le Chat, ou auto-hébergé sur Hugging Face.
La version Mini peut tourner localement ou sur des GPU limités.
La version Small nécessite environ 55 Go en calcul haute précision et s’adresse aux environnements plus robustes.

Un coût réduit pour une adoption large

Mistral annonce une tarification très agressive : 0,001 dollar par minute d’audio.
C’est moins de la moitié du coût de services concurrents.
Cela positionne Voxtral comme une alternative économique pour les entreprises souhaitant intégrer la voix à leurs systèmes.
Son caractère open source permet aussi une maîtrise totale de l’infrastructure et de la confidentialité.

Applications professionnelles immédiates

Voxtral ouvre la voie à de nombreuses applications concrètes.
Il peut équiper des assistants vocaux intelligents, des systèmes d’automatisation en entreprise, des solutions embarquées ou encore des services clients à compréhension vocale.
Ses capacités de compréhension directe et d’exécution d’actions permettent d’envisager des interfaces plus naturelles et plus efficaces.

Avec Voxtral, Mistral propose un outil vocal complet, capable de transcrire, comprendre et agir à partir de la voix humaine.
Sa précision, sa flexibilité, son caractère open source et son coût réduit en font un modèle vocal de nouvelle génération particulièrement attractif pour les entreprises.