L’expérience vocale de ChatGPT évolue encore avec une amélioration majeure : il n’est désormais plus nécessaire de basculer vers un mode séparé pour parler avec l’IA.
OpenAI a annoncé une mise à jour qui permet aux utilisateurs d’accéder à ChatGPT Voice directement depuis la conversation classique, changeant ainsi la façon dont les utilisateurs interagissent avec l’assistant. Cette intégration vise à rendre les échanges plus naturels, plus rapides et surtout plus adaptés à une utilisation quotidienne, qu’elle soit professionnelle, éducative ou personnelle.
Lire aussi :
- Comet sur Android : ce nouveau navigateur IA signé Perplexity va-t-il remplacer Chrome et changer notre façon de naviguer ?
- L’IA jugée trop dangereuse : pourquoi les assureurs refusent désormais de couvrir les risques liés à l’intelligence artificielle ?
Une interaction plus naturelle et moins contraignante
Auparavant, utiliser la fonction vocale signifiait passer à un écran distinct avec une interface simplifiée : un cercle animé, un bouton muet et une icône vidéo. Dans ce mode, les utilisateurs ne pouvaient qu’écouter ChatGPT sans voir simultanément les réponses textuelles. Cela rendait les échanges parfois frustrants, notamment lorsqu’il fallait revenir en arrière, revoir une information ou consulter un élément visuel comme une image ou une carte envoyée par l’IA.
Avec cette mise à jour, l’interface devient bien plus intuitive. Les réponses s’affichent désormais en temps réel sur l’écran, même lorsqu’on discute vocalement. Il devient donc possible de suivre la conversation, vérifier une réponse ou revenir sur un point sans interrompre le déroulement. L’expérience se rapproche davantage d’une discussion fluide avec un assistant capable de s’adapter au mode d’expression choisi par l’utilisateur.
Une fonctionnalité pensée pour l’avenir du multimodal
Cette amélioration montre clairement la direction qu’OpenAI souhaite prendre : fusionner texte, voix, visuels et interactions interactives dans un seul environnement cohérent. La possibilité de commenter une image, demander une analyse tout en parlant, ou d’alterner entre écriture et parole sans rupture ouvre la voie à un usage hybride plus proche de la communication humaine.
Selon OpenAI, cette nouvelle interface vise à offrir une transition naturelle entre modes d’entrée : l’utilisateur peut poser une question oralement, taper la suivante, recevoir une image, puis répondre à nouveau par la voix sans aucune manipulation complexe. C’est une étape importante vers un assistant multimodal réellement intégré au quotidien.
Toujours personnalisable selon les usages
Bien que cette interface devienne la nouvelle méthode par défaut, OpenAI n’oublie pas ceux qui préféraient l’ancien fonctionnement. Une option nommée « Mode séparé » reste disponible dans les paramètres, permettant aux utilisateurs de conserver l’ancienne interface vocale si elle correspond mieux à leur style de travail.
La mise à jour est actuellement en cours de déploiement sur toutes les plateformes : web, iOS et Android.

