OpenAI a commencé à déployer le mode vocal avancé de ChatGPT, permettant aux utilisateurs d’accéder pour la première fois aux réponses audio hyper-réalistes du GPT-4o.
Cette version alpha est disponible pour un petit groupe d’utilisateurs de ChatGPT Plus, avec un déploiement prévu pour tous les utilisateurs Plus à l’automne 2024.
Lire aussi :
- Comment l’acquisition de Multi par OpenAI va-t-elle améliorer les outils de collaboration à distance pour les entreprises utilisant ChatGPT ?
- Quels impacts cette suspension de transactions aura-t-elle sur la confiance des utilisateurs et l’avenir des plateformes de cryptomonnaies en Inde ?
Une voix réaliste et controversée
Lors de la présentation de la voix du GPT-4o en mai, OpenAI a surpris le public par la rapidité des réponses et la ressemblance frappante avec une voix humaine, en particulier celle de Scarlett Johansson. Après cette démonstration, Johansson a nié avoir donné son consentement et a engagé des avocats pour défendre son image. Bien qu’OpenAI ait affirmé ne pas avoir utilisé sa voix, la société a ensuite retiré la voix de la démonstration. En juin, OpenAI a annoncé un retard dans le lancement du mode vocal avancé pour améliorer les mesures de sécurité.
Fonctionnalités du Mode Vocal Avancé
Le mode vocal avancé de ChatGPT diffère du mode vocal précédent en utilisant GPT-4o, un modèle multimodal capable de traiter la conversion voix-texte et texte-voix sans modèles auxiliaires. Cela permet des conversations avec une latence réduite et des réponses plus naturelles. OpenAI affirme que GPT-4o peut également détecter les intonations émotionnelles dans la voix, telles que la tristesse, l’excitation ou même le chant.
Déploiement progressif et sécurité
OpenAI a choisi de déployer progressivement la nouvelle fonctionnalité vocale pour surveiller de près son utilisation. Les utilisateurs sélectionnés recevront une notification dans l’application ChatGPT, suivie d’un e-mail avec des instructions d’utilisation. OpenAI a testé les capacités vocales de GPT-4o avec plus de 100 équipes externes parlant 45 langues différentes. Un rapport sur ces efforts de sécurité est attendu début août.
Le mode vocal avancé sera limité à quatre voix prédéfinies – Juniper, Breeze, Cove et Ember – créées en collaboration avec des acteurs vocaux rémunérés. La voix Sky, présentée dans la démonstration de mai, n’est plus disponible. OpenAI s’efforce d’éviter les controverses liées aux deepfakes et a introduit de nouveaux filtres pour bloquer certaines demandes de génération de musique ou d’autres contenus audio protégés par des droits d’auteur.
En conclusion, le lancement du mode vocal avancé de ChatGPT représente une étape importante pour OpenAI, offrant des interactions plus naturelles et immersives. Cependant, la société devra continuer à naviguer dans les défis éthiques et juridiques associés à cette technologie innovante.