L’intelligence artificielle continue d’évoluer à grande vitesse, et la voix devient peu à peu le mode d’interaction privilégié entre humains et machines.
C’est dans ce contexte que la startup française Mistral vient de lancer Voxtral, sa toute première famille de modèles audio open source, destinée aux entreprises souhaitant combiner performance, flexibilité et accessibilité.
Lire aussi :
- Meta va-t-elle abandonner l’open source pour ses futurs modèles d’intelligence artificielle ?
- Comment Meta compte-t-elle limiter la diffusion de contenu non original sur Facebook ?
Une alternative open source crédible face aux modèles propriétaires
Avec Voxtral, Mistral s’attaque à un problème central dans l’industrie : jusqu’ici, les développeurs devaient choisir entre des modèles fermés, efficaces mais coûteux et peu personnalisables, ou des modèles ouverts, plus abordables mais limités en performance. Voxtral promet de résoudre cette impasse.
La startup affirme que son modèle peut transcrire jusqu’à 30 minutes de contenu audio tout en étant capable de comprendre des extraits allant jusqu’à 40 minutes, grâce à son adossement au modèle de langage Mistral Small 3.1. Cela permet aux entreprises non seulement d’obtenir des transcriptions précises, mais aussi d’interagir avec l’audio en posant des questions, en générant des résumés ou en déclenchant des actions.
Un modèle multilingue et abordable
La force de Voxtral réside également dans son multilinguisme. Il peut traiter l’anglais, le français, l’espagnol, l’allemand, le néerlandais, l’italien, le portugais et même l’hindi. Cela en fait un choix pertinent pour les entreprises internationales.
Mistral mise aussi sur l’accessibilité économique. La version Mini Transcribe, par exemple, dédiée uniquement à la transcription, promet de dépasser les performances du modèle Whisper d’OpenAI tout en coûtant deux fois moins cher. Cette approche tarifaire agressive positionne Voxtral comme un outil de rupture, notamment pour les PME et les startups.
Deux versions pour répondre à tous les besoins
Mistral propose deux déclinaisons de Voxtral :
-
Voxtral Small, avec 24 milliards de paramètres, pensé pour les environnements de production et pour concurrencer directement ElevenLabs, GPT-4o-mini ou Gemini 2.5 Flash.
-
Voxtral Mini, avec 3 milliards de paramètres, est quant à lui optimisé pour les déploiements locaux ou sur appareils à ressources limitées (edge).
À noter également : une version ultra-légère nommée Voxtral Mini Transcribe, uniquement dédiée à la transcription. Cette dernière se positionne comme une alternative plus rapide et deux fois moins chère qu’OpenAI Whisper.
Multilingue, accessible et conçu pour l’action
Voxtral se distingue également par son approche multilingue. Il peut comprendre et transcrire l’anglais, le français, l’espagnol, le portugais, l’allemand, l’italien, le hindi et le néerlandais. Cela ouvre la voie à des applications globales, notamment dans les domaines de la relation client, de l’analyse de réunions ou du contrôle vocal d’applications.
Disponible gratuitement via Hugging Face ou le chatbot Le Chat, Voxtral peut être intégré via API pour un coût démarrant à seulement 0,001 $ par minute, un tarif particulièrement compétitif.