OpenAI a organisรฉ son รฉvรฉnement annuel DevDay 2024, visant ร sรฉduire les dรฉveloppeurs d’applications d’intelligence artificielle avec de nouveaux outils et fonctionnalitรฉs.
Bien que l’entreprise traverse une pรฉriode tumultueuse avec des dรฉparts importants au sein de l’รฉquipe dirigeante, OpenAI s’efforce de dรฉmontrer que son รฉlan n’est pas freinรฉ. Le Realtime API est l’une des principales annonces de cet รฉvรฉnement, offrant des possibilitรฉs intรฉressantes aux dรฉveloppeurs.
Lire aussi :
- Quelles alternatives aux VPN peuvent rรฉellement renforcer la confidentialitรฉ de votre navigation sur internet ?
- Pourquoi Reddit a-t-il mis en place des restrictions pour les modรฉrateurs souhaitant changer le statut des communautรฉs ?
Realtime API : des expรฉriences vocales en temps rรฉel
Parmi les nouveautรฉs annoncรฉes, OpenAI a dรฉvoilรฉ la version bรชta publique de son Realtime API, qui permet de crรฉer des expรฉriences vocales en temps rรฉel. Cette API permet aux dรฉveloppeurs de concevoir des applications interactives avec des rรฉponses vocales gรฉnรฉrรฉes par l’IA, tout en offrant une faible latence. Six voix distinctes, dรฉveloppรฉes par OpenAI, sont mises ร disposition des dรฉveloppeurs, permettant de crรฉer des interactions immersives et naturelles, sans possibilitรฉ d’utiliser des voix tierces, รฉvitant ainsi tout problรจme de droit d’auteur.
Lors de la dรฉmonstration, une application de planification de voyages a รฉtรฉ prรฉsentรฉe, montrant la capacitรฉ de l’assistant vocal ร rรฉpondre en temps rรฉel ร des questions concernant un sรฉjour ร Londres, tout en annotant des cartes avec les emplacements des restaurants suggรฉrรฉs. Bien que l’API ne permette pas d’appeler directement des commerces comme le fait Google Duo, elle peut รชtre intรฉgrรฉe ร des services de tรฉlรฉphonie tels que Twilio pour rรฉaliser cette fonction.
Comment le dรฉpart de Mira Murati influencera-t-il la stratรฉgie future dโOpenAI ?
Fine-tuning visuel et distillation de modรจles
OpenAI a รฉgalement introduit une nouvelle fonctionnalitรฉ de fine-tuning pour la vision dans son API, permettant aux dรฉveloppeurs de personnaliser des applications GPT-4o ร l’aide d’images en plus du texte. Cette innovation devrait amรฉliorer les performances des modรจles pour les tรขches impliquant la comprรฉhension visuelle. Toutefois, certaines restrictions demeurent : les dรฉveloppeurs ne pourront pas tรฉlรฉcharger d’images protรฉgรฉes par des droits d’auteur, des images violentes ou toute autre image qui enfreindrait les politiques de sรฉcuritรฉ d’OpenAI.
Par ailleurs, une nouvelle fonctionnalitรฉ de distillation de modรจles est proposรฉe. Cette mรฉthode permet aux dรฉveloppeurs d’utiliser des modรจles plus grands, comme o1-preview et GPT-4o, pour amรฉliorer des modรจles plus petits tels que GPT-4o mini, tout en rรฉduisant les coรปts. Avec cette fonctionnalitรฉ, OpenAI offre รฉgalement un outil d’รฉvaluation en version bรชta, qui permettra aux dรฉveloppeurs de mesurer les performances de leurs ajustements.
Rรฉduction des coรปts et amรฉlioration de la compรฉtitivitรฉ
Pour se dรฉmarquer de la concurrence, OpenAI a notรฉ avoir rรฉduit de 99 % les coรปts d’accรจs ร son API pour les dรฉveloppeurs au cours des deux derniรจres annรฉes, une rรฉduction probablement dictรฉe par les pressions tarifaires exercรฉes par des concurrents tels que Meta et Google. De plus, OpenAI propose une fonctionnalitรฉ de mise en cache des prompts similaire ร celle d’Anthropic, qui permet de stocker le contexte frรฉquemment utilisรฉ entre les appels API afin de rรฉduire les coรปts et d’amรฉliorer la latence.