Le marché de la reconnaissance vocale connaît une véritable transformation, et la startup française Gladia se positionne à l’avant-garde avec son API de transcription audio.
Ayant récemment levé 16 millions de dollars lors d’une levée de fonds de Série A, l’entreprise ambitionne de fournir des transcriptions de haute précision, le tout avec un délai de traitement extrêmement rapide. Alors que des géants comme Amazon, Microsoft et Google proposent également des API de transcription vocale, Gladia se distingue par des performances accrues, surpassant les modèles des entreprises plus traditionnelles.
Lire aussi :
- Comment le Realtime API d’OpenAI peut-il transformer la création d’applications vocales en temps réel pour les développeurs ?
- L’optimisme d’Anthropic sur l’avenir de l’IA : l’IA peut-elle vraiment transformer le monde ?
Une alternative innovante aux solutions classiques
Gladia a commencé par proposer une version améliorée du modèle Whisper d’OpenAI, avec des optimisations telles que la diarisation automatique. Cette fonctionnalité permet de détecter et de distinguer plusieurs intervenants dans une conversation, un atout considérable pour de nombreuses entreprises. De plus, Gladia prend en charge 100 langues et de multiples accents, rendant ses services particulièrement polyvalents et adaptés à des usages variés.
Les entreprises qui utilisent Gladia sont nombreuses : plus de 600 organisations, parmi lesquelles des outils de prise de notes et d’enregistrement de réunions comme Attention, Circleback ou Veed.io. Ces entreprises doivent souvent transformer un discours en texte, puis analyser ce dernier avec des modèles d’IA tels que GPT-4o ou Claude 3.5 Sonnet pour extraire des informations clés. Gladia simplifie ce processus en proposant une API unique intégrant à la fois la transcription et l’intelligence audio.
La transcription en temps réel : le nouveau défi
Gladia ne se contente pas d’améliorer la qualité des transcriptions audio en différé, elle vise également à révolutionner la transcription en temps réel. Traditionnellement, les utilisateurs ont dû composer avec une qualité inférieure pour les transcriptions instantanées, devant ensuite traiter l’audio en mode batch pour obtenir des résultats précis. Gladia propose désormais une solution de transcription en temps réel avec une latence de moins de 300 millisecondes, garantissant une qualité quasi équivalente à celle des transcriptions différées.
Cette avancée pourrait transformer des secteurs tels que les centres d’appels, où des agents pourraient avoir accès à des informations cruciales en temps réel pendant une conversation. Gladia se montre compatible avec des technologies existantes comme SIP, VoIP et Asterisk, facilitant son intégration dans différents environnements.
Un avenir prometteur pour les applications audio
Alors que les applications vocales et audio deviennent de plus en plus omniprésentes dans nos vies, Gladia se positionne comme un acteur clé de cette transformation. La startup anticipe un « moment ChatGPT » pour les applications audio, où la transcription vocale automatique se démocratisera dans les produits du quotidien, notamment grâce à des intégrations natives dans les systèmes d’exploitation comme iOS et Android.
Avec ses performances en temps réel et ses intégrations avancées, Gladia se place en tête des innovations dans le domaine de la reconnaissance vocale, promettant de faire évoluer la manière dont les entreprises et les particuliers interagissent avec les technologies vocales.