OpenAI a organisé son événement annuel DevDay 2024, visant à séduire les développeurs d’applications d’intelligence artificielle avec de nouveaux outils et fonctionnalités.
Bien que l’entreprise traverse une période tumultueuse avec des départs importants au sein de l’équipe dirigeante, OpenAI s’efforce de démontrer que son élan n’est pas freiné. Le Realtime API est l’une des principales annonces de cet événement, offrant des possibilités intéressantes aux développeurs.
Lire aussi :
- Quelles alternatives aux VPN peuvent réellement renforcer la confidentialité de votre navigation sur internet ?
- Pourquoi Reddit a-t-il mis en place des restrictions pour les modérateurs souhaitant changer le statut des communautés ?
Realtime API : des expériences vocales en temps réel
Parmi les nouveautés annoncées, OpenAI a dévoilé la version bêta publique de son Realtime API, qui permet de créer des expériences vocales en temps réel. Cette API permet aux développeurs de concevoir des applications interactives avec des réponses vocales générées par l’IA, tout en offrant une faible latence. Six voix distinctes, développées par OpenAI, sont mises à disposition des développeurs, permettant de créer des interactions immersives et naturelles, sans possibilité d’utiliser des voix tierces, évitant ainsi tout problème de droit d’auteur.
Lors de la démonstration, une application de planification de voyages a été présentée, montrant la capacité de l’assistant vocal à répondre en temps réel à des questions concernant un séjour à Londres, tout en annotant des cartes avec les emplacements des restaurants suggérés. Bien que l’API ne permette pas d’appeler directement des commerces comme le fait Google Duo, elle peut être intégrée à des services de téléphonie tels que Twilio pour réaliser cette fonction.
Comment le départ de Mira Murati influencera-t-il la stratégie future d’OpenAI ?
Fine-tuning visuel et distillation de modèles
OpenAI a également introduit une nouvelle fonctionnalité de fine-tuning pour la vision dans son API, permettant aux développeurs de personnaliser des applications GPT-4o à l’aide d’images en plus du texte. Cette innovation devrait améliorer les performances des modèles pour les tâches impliquant la compréhension visuelle. Toutefois, certaines restrictions demeurent : les développeurs ne pourront pas télécharger d’images protégées par des droits d’auteur, des images violentes ou toute autre image qui enfreindrait les politiques de sécurité d’OpenAI.
Par ailleurs, une nouvelle fonctionnalité de distillation de modèles est proposée. Cette méthode permet aux développeurs d’utiliser des modèles plus grands, comme o1-preview et GPT-4o, pour améliorer des modèles plus petits tels que GPT-4o mini, tout en réduisant les coûts. Avec cette fonctionnalité, OpenAI offre également un outil d’évaluation en version bêta, qui permettra aux développeurs de mesurer les performances de leurs ajustements.
Réduction des coûts et amélioration de la compétitivité
Pour se démarquer de la concurrence, OpenAI a noté avoir réduit de 99 % les coûts d’accès à son API pour les développeurs au cours des deux dernières années, une réduction probablement dictée par les pressions tarifaires exercées par des concurrents tels que Meta et Google. De plus, OpenAI propose une fonctionnalité de mise en cache des prompts similaire à celle d’Anthropic, qui permet de stocker le contexte fréquemment utilisé entre les appels API afin de réduire les coûts et d’améliorer la latence.